DeepSeek发布梁文锋署名新论文

近日,国产大模型公司深度求索(DeepSeek)创始人兼首席科学家梁文锋以第一作者身份发布了一篇题为《Efficient and Scalable Language Model Training via Dynamic Token Pruning》的新论文。该研究提出了一种名为“动态词元剪枝”(Dynamic Token Pruning)的创新训练方法,旨在在不显著牺牲模型性能的前提下,大幅降低大语言模型训练过程中的计算开销与显存占用。论文指出,传统训练方法对所有输入词元一视同仁,而新方法通过引入轻量级门控机制,在训练过程中动态识别并跳过对最终输出贡献较小的词元,从而实现高效训练。实验结果表明,该方法在多个基准测试中实现了高达30%的训练加速,同时保持了模型在语言理解与生成任务上的竞争力。这项成果不仅为大模型训练提供了更具成本效益的路径,也为资源受限环境下的模型部署带来新可能。作为DeepSeek在基础研究领域的重要突破,该论文已提交至顶级人工智能会议,并引发业界广泛关注。

Recently, Liang Wenfeng, founder and Chief Scientist of the Chinese large model company DeepSeek, published a new paper titled ‘Efficient and Scalable Language Model Training via Dynamic Token Pruning’ as the first author. The study introduces an innovative training method called ‘Dynamic Token Pruning,’ which significantly reduces computational costs and GPU memory usage during large language model (LLM) training without substantially compromising model performance. Unlike conventional approaches that treat all input tokens equally, this method employs a lightweight gating mechanism to dynamically identify and skip tokens that contribute minimally to the final output during training. Experimental results show that the approach achieves up to 30% faster training across multiple benchmarks while maintaining competitive performance on language understanding and generation tasks. This breakthrough not only offers a more cost-effective pathway for LLM training but also opens new possibilities for deploying models in resource-constrained environments. Submitted to a top-tier AI conference, the paper has already drawn significant attention from the research and industry communities.

原创文章,作者:admin,如若转载,请注明出处:https://ktez.cn/13284.html

(0)
上一篇 2026年1月13日 上午2:00
下一篇 2026年1月13日 上午2:00

相关推荐

  • 智谱创始人唐杰谈DeepSeek

    近日,智谱AI创始人唐杰在一次行业峰会上就国产大模型DeepSeek发表了看法。他指出,DeepSeek作为国内新兴的大语言模型,在代码生成、推理能力和多语言支持方面展现出较强竞争…

    财经 2026年1月11日
  • 中集集团与鞍钢集团合作

    近日,中集集团与鞍钢集团宣布达成战略合作,旨在推动高端装备制造与先进钢铁材料的深度融合。作为全球领先的物流与能源装备制造商,中集集团在集装箱、罐式装备、海工装备等领域具有显著优势;…

    财经 2026年1月12日
  • 五矿发展:股票继续停牌

    2024年6月,五矿发展股份有限公司(股票代码:600058)发布公告称,公司股票将继续停牌。此次停牌源于公司正在筹划重大资产重组事项,相关方案尚处于论证和沟通阶段,存在较大不确定…

    财经 2026年1月7日
  • 国投白银LOF大热却仍跑输基准

    近期,国投瑞银白银期货证券投资基金(LOF)(简称“国投白银LOF”)因白银价格波动及市场避险情绪升温而备受投资者关注,资金流入显著增加,成为热门商品类基金之一。然而,尽管市场热度…

    财经 2025年12月15日
  • 马斯克据悉希望在7月前让SpaceX上市

    据近期媒体报道,埃隆·马斯克希望在2024年7月之前推动SpaceX上市。这一消息引发了市场和投资者的广泛关注。作为全球最具价值的私营航天公司,SpaceX自2002年成立以来一直…

    财经 2026年1月22日
  • 龙芯中科:股东拟合计减持不超3.03%

    近日,龙芯中科(Loongson Technology)发布公告称,公司部分股东计划通过集中竞价或大宗交易方式,合计减持不超过公司总股本3.03%的股份。此次减持主体包括宁波芯源、…

    财经 2026年1月16日
  • 美股三大股指收盘普跌 英伟达跌超4%

    美股三大股指在最新交易日集体收跌,市场情绪受到多重因素影响。道琼斯工业平均指数下跌约0.6%,标普500指数下滑0.8%,而以科技股为主的纳斯达克综合指数跌幅更为明显,达到1.2%…

    财经 2026年1月21日
  • 卓谱微完成数千万元融资

    近日,专注于高性能计算与人工智能芯片研发的初创企业卓谱微(Zhuopu Micro)宣布完成数千万元人民币的Pre-A轮融资。本轮融资由知名硬科技投资机构领投,多家产业资本跟投,资…

    财经 2025年12月26日
  • 中国商业航天何时实现火箭重复使用

    近年来,中国商业航天发展迅猛,多家民营航天企业如蓝箭航天、星际荣耀、星河动力等纷纷布局可重复使用火箭技术。火箭重复使用是降低发射成本、提升发射频率的关键路径,已被SpaceX等国际…

    财经 2026年1月27日
  • 农业开源大语言模型“司农”发布

    近日,中国农业科学院联合多家科研机构与科技企业,正式发布了全球首个专注于农业领域的开源大语言模型——“司农”。该模型以中国古代主管农业的官职“司农”命名,旨在利用人工智能技术赋能现…

    财经 2026年1月13日