2024-11-20 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据品玩网11月18日消息,中国人工智能企业传神推出“任度数推分离大模型”。该模型采用双网络架构实现数推分离,通过共享嵌入层和中间表示层协同工作,既支持独立训练,也支持联合推理。这种双网络大模型架构一方面突破了常规大模型数推混合一体技术架构的限制,打破了上下文输入长度限制,实现了实时的数据学习效果;另一方面降低了训练推理的算力和能耗成本,有效规避了一体化大模型可能出现的基座模型能力退化和泛化能力减弱问题。目前,该模型已应用于任度“双脑”大模型一体机,其内置的任度大模型有9B和2.1B两种参数,并且在多项国内外测评中以更少的参数实现领先性能。