全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国英伟达公司发布大型英文AI训练数据集Nemotron-CC

2025-01-16 中国来源：其他作者：刘纪铖领域：信息

关键词：

据品玩网1月14日消息，美国英伟达公司发布大型英文AI训练数据集Nemotron-CC。该数据集基于Common Crawl网站的数据构建而成，总计6.3万亿个Token，其中1.9万亿为合成数据。此外，该数据集在经过严格的数据提取流程后可生成高质量的子数据集Nemotron-CC-HQ。英伟达公司表示，Nemotron-CC是一个高质量的大型开源英文数据集，可支持在短标记和长标记范围内预训练高度准确的大语言模型，克服了现有公开数据集存在规模和质量上的局限。

消息来源：https://www.pingwest.com/w/301761