Echo

关注TA

大家好，我是Echo！

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

海绵小宝宝P

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

栗子羊羊羊

这车改款改的不错.眼前一亮的感觉，挺好看的，看来腾势去年认真听了车友的意见，2024大动作，够吸引人了

好好好看

比亚迪公司提出了在印度合资建立新能源汽车工厂的计划，但遭到了印度的拒绝。

该文章投稿至Nemo社区资讯板块复制链接

中国电信开源 TeleChat-12B 星辰语义大模型，年内开源千亿级参数大模型

发布于 2024/04/16 20:49 60浏览 0回复 1,090字

感谢IT之家网友 Snailwang、 Louis13、西窗旧事的线索投递！

IT之家 4 月 16 日消息，中国电信已开源 120 亿参数 TeleChat-12B 星辰语义大模型，还表示将于年内开源千亿级参数大模型。

相较 1 月开源的 7B 版本，12 版版本在内容、性能和应用等方面整体效果提升 30%，其中多轮推理、安全问题等领域提升超 40%。

据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据提升至 3T，优化数据清洗、标注策略，持续构建专项任务 SFT (监督微调) 数据，优化数据构建规范，大大提升数据质量；同时，基于电信星辰大模型用户真实回流数据，优化奖励模型和强化学习模型，有效提升模型问答效果。

TeleChat-12B 在模型结构、训练数据、训练方法等方面进行了改进，在通用问答和知识类、代码类、数学类榜单上相比 TeleChat-7B 均有大幅提升。

在模型结构方面，使用小规模的模型尝试多种模型结构的组合选择最优结构。相比 TeleChat-7B 模型，TeleChat-12B 模型采用了词嵌入层与输出层解耦的结构，将词嵌入层和输出 lm head 层参数分开，有助于增强训练稳定性和收敛性。
在训练数据方面，收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据；通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。
在训练方法方面，使用科学数据配比学习与课程学习的方法，使用小参数模型在多种数据配比的数据上拟合，得到对各个数据集难度的先验估计；训练过程中每隔一段时间自动化评估当前模型在所有数据集上的 loss，以及在评测集上的生成效果，动态提升较难学习的数据集权重，保证模型在各个数据集上都有较佳的拟合效果。

中国电信表示，此次开源提供基础模型以及基于相应版本的对话模型、不仅支持传统的全量参数更新还支持 LoRA 等只更新部分参数的高效微调方法、支持 Deepspeed 微调、支持 int8、int4 量化和国产芯片训练推理，推动大模型国产化进程。IT之家附开源地址：