英伟达贡献史上最大规模开源数据集

近日,英伟达(NVIDIA)宣布贡献了史上最大规模的开源数据集之一——Cosmopedia。该数据集包含超过3500亿个词元(tokens),涵盖科学、技术、文化、历史等多个领域,旨在推动大语言模型(LLM)的训练与研究。作为其AI开放战略的一部分,英伟达希望通过提供高质量、多样化的训练数据,降低学术界和产业界开发先进AI模型的门槛。Cosmopedia的数据来源广泛,包括维基百科、开源教科书、技术文档、编程教程等,并经过严格清洗与格式化,确保内容的准确性与可用性。该数据集不仅规模庞大,还特别注重教育性和知识密度,使其成为训练通用或专业领域语言模型的理想选择。此外,英伟达同步发布了基于Cosmopedia训练的多个开源模型,如Nemotron系列,供开发者免费使用。此举被视为对当前AI生态的重要补充,有助于促进透明、可复现和负责任的AI发展。随着开源社区的积极参与,Cosmopedia有望加速全球AI创新,推动下一代智能系统的演进。

Recently, NVIDIA announced the release of Cosmopedia, one of the largest open-source datasets in history. Containing over 350 billion tokens, the dataset spans diverse domains including science, technology, culture, and history, aiming to advance the training and research of large language models (LLMs). As part of its AI openness strategy, NVIDIA seeks to lower the barrier for both academia and industry to develop cutting-edge AI models by providing high-quality, diverse training data.Cosmopedia draws from a wide range of sources—such as Wikipedia, open-source textbooks, technical documentation, and programming tutorials—and has undergone rigorous cleaning and formatting to ensure accuracy and usability. Beyond its sheer scale, the dataset emphasizes educational value and knowledge density, making it ideal for training both general-purpose and domain-specific language models.In tandem with the dataset release, NVIDIA also introduced several open-source models trained on Cosmopedia, including the Nemotron series, available free of charge to developers. This move is seen as a significant contribution to the current AI ecosystem, fostering transparency, reproducibility, and responsible AI development. With active community engagement, Cosmopedia is poised to accelerate global AI innovation and drive the evolution of next-generation intelligent systems.

原创文章,作者:admin,如若转载,请注明出处:https://ktez.cn/9315.html

(0)
上一篇 2026年1月6日 上午7:01
下一篇 2026年1月6日 上午7:02

相关推荐

  • 逾50万亿定期存款迎到期潮

    近期,中国银行业正面临一场规模空前的定期存款到期潮。据多家金融机构和研究机构估算,2024年至2025年间,将有超过50万亿元人民币的定期存款陆续到期。这一现象主要源于过去几年居民…

    财经 2026年1月10日
  • 信达地产:预计2025年净利润为负

    近日,信达地产(Cinda Real Estate)发布业绩预告,预计2025年净利润将为负值,即公司或将面临年度亏损。这一预测主要受到当前房地产市场持续低迷、销售回款放缓、融资环…

    财经 2026年1月21日
  • 2024至2025年家电以旧换新1.92亿台

    2024至2025年,中国计划推动家电以旧换新行动,预计完成1.92亿台老旧家电的更新替换。这一举措是国家促进绿色消费、推动产业升级和扩大内需的重要政策之一。通过鼓励消费者淘汰高耗…

    财经 2026年1月6日
  • 励盛:信用卡占征信主体数据的60%

    近期,“励盛”分析指出,信用卡数据在个人征信系统中占比高达60%,这一数据突显了信用卡使用在信用评估中的核心地位。信用卡不仅是日常消费支付工具,更是银行评估用户还款能力与信用行为的…

    财经 2026年1月30日
  • 上海量子计算机企业获数千万元投资

    近日,一家位于上海的量子计算初创企业宣布完成数千万元人民币的融资,引发业界广泛关注。据悉,本轮融资由国内知名风险投资机构领投,多家战略投资者跟投,资金将主要用于量子处理器研发、人才…

    财经 2025年12月9日
  • 芯片涨价潮蔓延至“传统产品”

    近期,全球芯片涨价潮持续发酵,并开始波及以往价格相对稳定的“传统产品”领域。所谓传统产品,主要指采用成熟制程(如28纳米及以上)的芯片,广泛应用于家电、工业控制、汽车电子和消费类电…

    财经 2026年1月19日
  • 国际金价突破5000美元关口

    近期,国际黄金价格历史性地突破了每盎司5000美元大关,引发全球投资者和金融市场的高度关注。这一里程碑式的上涨主要受到多重因素推动:首先,全球地缘政治紧张局势持续升级,包括中东冲突…

    财经 2026年1月26日
  • 美住宅建筑商信心五个月来首次下滑

    根据美国全国住宅建筑商协会(NAHB)最新发布的数据,美国住宅建筑商信心指数在连续五个月上升后,于本月首次出现下滑。这一指标是衡量建筑商对未来单户住宅销售前景预期的重要晴雨表,其下…

    财经 2026年1月17日
  • 植田和男:日央行将灵活开展债券操作

    日本央行行长植田和男近日表示,日本央行将根据市场状况灵活开展国债操作,以确保金融市场的稳定运行。这一表态是在日本货币政策正常化路径仍不明朗的背景下作出的。植田强调,尽管日本已结束负…

    财经 2026年1月23日
  • 大唐发电:向大唐核电增资约6.17亿元

    近日,大唐发电(大唐国际发电股份有限公司)宣布向其控股子公司大唐核电有限公司增资约6.17亿元人民币。此次增资旨在支持大唐核电在核能领域的战略布局和项目推进,进一步优化其资本结构,…

    财经 2025年12月30日