总部位于杭州的中国人工智能公司DeepSeek近日在一篇论文中透露,其R1模型的训练成本仅为29.4万美元,远低于美国竞争对手的报告,这可能会重新引发关于中国在人工智能竞赛中地位的讨论。这一罕见的成本更新信息于周三发表在《自然》杂志的同行评审文章中,这也是DeepSeek首次公布R1模型的训练成本估算。

今年1月,DeepSeek声称其人工智能系统的成本较低,一度引发全球投资者抛售科技股,他们担心这些新模型可能会威胁到包括英伟达在内的人工智能领导者的主导地位。此后,除了发布一些产品更新外,该公司及其创始人梁文锋基本上从公众视野中消失。

美国人工智能巨头OpenAI的首席执行官萨姆·奥特曼在2023年表示,基础模型的训练成本“远高于”1亿美元,但他的公司没有给出任何发布的详细数据。训练大型语言模型的成本,指的是运行强大的芯片集群数周或数月,以处理大量文本和代码所产生的费用。

《自然》杂志的文章将梁文锋列为共同作者之一,称DeepSeek专注于推理的R1模型训练成本为29.4万美元,使用了512个英伟达H800芯片。该文章的先前版本(1月份发布)不包含此信息。

DeepSeek关于其开发成本和所用技术的一些声明受到了美国公司和官员的质疑。该公司提到的H800芯片是英伟达为中国市场设计的,此前美国于2022年10月禁止该公司向中国出口更强大的H100和A100人工智能芯片。美国官员在6月份告诉路透社,DeepSeek在实施美国出口管制后获得了“大量”H100芯片。英伟达当时告诉路透社,DeepSeek使用的是合法获得的H800芯片,而不是H100芯片。

在《自然》杂志文章的补充信息文件中,该公司首次承认拥有A100芯片,并表示已在开发的准备阶段使用了这些芯片。研究人员写道:“关于我们对DeepSeek-R1的研究,我们利用A100 GPU为较小模型的实验做准备。”他们补充说,在此初始阶段之后,R1在512个H800芯片的集群上总共训练了80个小时。

模型蒸馏。DeepSeek还首次(虽然不是直接地)回应了白宫一位高级顾问和其他美国人工智能人士在1月份提出的断言,即它故意将OpenAI的模型“蒸馏”到自己的模型中。“蒸馏”是指一种技术,即一个人工智能系统向另一个人工智能系统学习,从而使较新的模型能够获得构建早期模型所投入的时间和计算能力的投资收益,但无需承担相关成本。

DeepSeek一直坚称,蒸馏可以带来更好的模型性能,同时成本更低,从而能够更广泛地使用人工智能技术。DeepSeek在1月份表示,它已将Meta的开源Llama AI模型用于其自身模型的一些蒸馏版本。DeepSeek在《自然》杂志上表示,其V3模型的训练数据依赖于抓取的网页,其中包含“大量OpenAI模型生成的答案,这可能导致基础模型间接获得其他强大模型的知识。”但它表示,这不是有意的,而是偶然发生的。OpenAI没有立即回应置评请求。


分析大模型:gemma2
得分:20
原因:

文章主要报道了中国DeepSeek在AI模型训练上的进展和成本优势,客观上展示了中国在AI领域取得的成就。虽然文章中也提到了美国方面的质疑,但整体上对中国AI技术的发展持关注态度,并肯定了DeepSeek在降低AI成本方面的努力。

原文地址:China’s DeepSeek shook the tech world. Its developer just revealed the cost of training the AI model
新闻日期:2025-09-19

Verified by MonsterInsights