2025-01-16 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据品玩网1月14日消息,美国英伟达公司发布大型英文AI训练数据集Nemotron-CC。该数据集基于Common Crawl网站的数据构建而成,总计6.3万亿个Token,其中1.9万亿为合成数据。此外,该数据集在经过严格的数据提取流程后可生成高质量的子数据集Nemotron-CC-HQ。英伟达公司表示,Nemotron-CC是一个高质量的大型开源英文数据集,可支持在短标记和长标记范围内预训练高度准确的大语言模型,克服了现有公开数据集存在规模和质量上的局限。