中国深度求索挑战OpenAI与英伟达

周一,股市暴跌,似乎是对中国开发的开源人工智能模型DeepSeek的出现做出的反应。半导体巨头英伟达市值蒸发5890亿美元,创下美国股市历史上最大单日跌幅。其他芯片制造商和大型科技巨头也纷纷下跌。那么,DeepSeek是如何做到的?它对OpenAI和Anthropic等美国人工智能巨头构成重大威胁吗?这又对美国芯片的出口限制意味着什么?在本期特别紧急播客中,我们采访了人工智能专家兹维·莫绍维茨,他撰写了优秀的Substack文章《不要担心花瓶》。他回答了我们所有的问题,并帮助我们理解了这一切的意义。以下是为清晰起见而稍作编辑的文字稿。

播客的主要见解:
* DeepSeek的构建成本并非仅为500万美元 — 3:08
* 为什么DeepSeek如此透明 — 6:35
* 杰文斯悖论适用于人工智能 — 8:58
* 英伟达仍然处于主导地位 — 11:35
* 人们都忘记了谷歌 — 12:59
* 为什么Meta应该感到担忧 — 14:15
* 人工智能比之前的技术进步更具竞争力 — 17:18

乔·韦森塔尔(00:18):大家好,欢迎收听另一期《古怪地块》播客。我是乔·韦森塔尔。
特蕾西·阿洛威(00:23):我是特蕾西·阿洛威。
乔(00:24):特蕾西,DeepSeek抛售。
特蕾西(00:27):没错。跌得相当深。有人开过这个玩笑了么?
兹维·莫绍维茨(00:30):我们正身处DeepSeek之中。
乔(00:31):是的,我想还没人开过这个玩笑。
特蕾西(00:33):我想说,当所有头条新闻都关于标准差时,你就知道市场情况不妙了。
乔(00:39):是吧?
特蕾西(00:40):然后,当你看到人们开始说这不是崩盘,而是“健康调整”时,你就知道情况真的很糟糕了。那才是真正的应对之策。
乔(00:49):但为了真实地设定场景,我们最近做了一些关于市场科技集中度的及时采访,以及市场上对人工智能等的大量集中押注。无论如何,在周一——我想人们会在周二收听这个节目——市场遭受重创。英伟达是最大的赢家之一,在我谈论此时,即周一下午3:30,下跌了17%。所以我们谈论的是整个科技领域的主要损失。基本上,这似乎是由一种名为DeepSeek的高性能开源中国人工智能模型的推出所催化的。据我们所知,它诞生于一家对冲基金。显然,它的训练成本非常低,构建成本也非常低。目前看来,技术限制似乎不是什么大问题。未来可能会有问题,但是的,现在整个市场都在押注许多公司都在制造人工智能,当然,他们现在担心一个廉价的中国竞争对手。
特蕾西(01:45):乔,我才意识到,这实际上是你的错,不是吗?
乔(01:48):是的。
特蕾西(01:49):因为你上周写了你是个“”,看看你做了什么。你抹去了英伟达5600亿美元的市值。
乔(01:58):是的,我的错。我的错。
特蕾西(01:59):那是你。
乔(02:00):无论如何,一个有趣的问题是,这在12月份的一份白皮书中就有所宣布。为什么直到1月27日人们才真正感到恐慌?有很多问题。无论如何,让我们直接进入正题。我们确实有完美的嘉宾,他曾参加过我们的选举前夜特别节目。他是一位了解数字、人工智能和量化知识的人。他写了一个Substack,对我来说,它已经成为每天的必读之物,他每天都写大量的文章。我甚至不知道他一天是怎么写出这么多东西的。我们将与兹维·莫绍维茨对话。他是《》或Substack的作者。兹维,你也是DeepSeek人工智能兄弟。你已经转用它了。
兹维(02:42):我使用各种不同的人工智能。我会使用Anthropic的Claude。我会使用OpenAI的ChatGPT中的o1。我有时会使用Gemini,我还会使用Perplexity进行网络搜索。但是,是的,我会使用新的DeepSeek模型R1来处理某些类型的查询,我想看看它的思维方式,看看逻辑的展开方式,然后我可以判断。这有道理吗?我同意吗?
特蕾西(03:08):似乎让人们和市场感到恐慌的事情之一是,据称DeepSeek-V3的训练成本非常低,大约为550万美元——尽管我看到有人错误地说550万美元是用于其所有R1模型的,而技术论文中并非如此。这只是V3的成本。但无论如何。哦,我应该提到,它的大部分似乎是基于Llama构建的,所以他们有点在利用别人的投资。但无论如何,训练成本为550万美元。A)这现实吗?然后B),我们是否知道他们是如何做到这一点的?
兹维(03:53):我们非常清楚他们到底做了什么,因为他们异常开放,他们给了我们技术论文,告诉我们他们做了什么。他们仍然隐藏了部分过程,特别是从花费550万美元训练的V3到推理模型R1的额外数百万美元,他们试图通过不分享他们的强化学习技术来让我们更难复制它。但是我们不应该过于执着于550万美元这个数字。这不是说它不是真的,它是非常真实的。但是,为了获得花费550万美元并让模型弹出这样的能力,他们必须获取数据,他们必须雇用工程师,他们必须建立自己的集群。他们必须对集群进行过度优化,到了极限,因为由于出口管制,他们在芯片获取方面遇到了问题。
而且他们是在[英伟达]H800上进行训练的。他们这样做的方式是,他们进行了各种各样的小型优化,包括精确地整合硬件、软件以及他们正在做的所有事情,以便在15万亿个令牌上尽可能便宜地进行训练,并获得与其他公司使用更多计算资源所获得的相同或接近相同水平的性能。但这并不意味着你可以用550万美元获得自己的模型,即使他们告诉你了很多信息。总的来说,他们花费了数亿美元才获得这个结果。
乔(05:11):等一下,进一步解释一下。为什么仍然需要数亿美元?这是否意味着,如果需要数亿美元,那么他们能够做到的事情与美国实验室之间的差距可能没有人们想象的那么大?
兹维(05:24):好吧,DeepSeek正在做的事情是,他们获得芯片的途径较少。他们不能像OpenAI、微软或Anthropic那样购买英伟达芯片。所以,相反,他们必须充分利用他们确实拥有的芯片,非常高效地使用。因此,他们专注于所有这些优化,以及他们可以节省计算的所有方法,但为了实现这一目标,他们必须花费大量资金来弄清楚如何做到这一点,并建立基础设施来实现这一目标。
一旦他们知道该怎么做,他们就花费了550万美元来完成它。他们分享了很多信息。这大大降低了想要追随他们的脚步并训练新模型的人的成本,因为他们展示了许多他们没有意识到可以做到或没有意识到如何做的优化方法。现在,它们很容易被复制,但这并不意味着你距离你自己的V3只有550万美元的距离。
特蕾西(06:19):另一件让人们感到恐慌的事情是,它是开源的。我们都记得OpenAI更加开放的日子,而现在它转向了闭源。你认为他们为什么这样做,这有多大的影响?
兹维(06:35):所以,这是他们有一个故事的事情之一,你可以相信他们的故事,也可以不相信他们的故事,但他们的故事是,他们本质上赞成每个人都应该拥有相同的人工智能的想法;人工智能应该与世界共享。特别是中国应该帮助泵出自己的生态系统,他们应该帮助发展所有的人工智能,以造福人类,他们将获得通用人工智能,他们也将开源。这就是DeepSeek的重点。这就是DeepSeek存在的原因。他们甚至否认自己真的有商业模式,而且……他们是对冲基金的衍生品,对冲基金赚钱,也许他们可以选择这样做,或者他们最终会采用不同的商业模式。
但从很多角度来看,如果你开源越来越强大的模型,这显然非常令人担忧,因为通用人工智能意味着:某些东西像你我一样聪明和有能力,甚至可能更聪明。如果你只是以开放的形式将其交给世界上任何想用它做任何事情的人,那么我们不知道这有多危险。但在某种程度上,释放比我们更聪明、更有能力、更具竞争力的东西,然后让它们自由地参与任何人类指示它们做的事情,这在某种程度上是存在风险的。
特蕾西(07:58):我有一个非常愚蠢的问题,但我一直听到人们说“通用人工智能”,AGI。这实际上意味着什么?
兹维(08:07):关于这到底意味着什么,有很多争议。这些词的使用并不一致,但它代表通用人工智能。一般来说,它被理解为意味着你可以像人类一样完成任何可以在计算机上完成的任务,只能在认知上完成的任务。
乔(08:26):我的意思是,这些东西中的大多数都比我做得好得多。我不知道如何编码,但我知道仍然有一些事情。也许它们不像证明一些“你是人类吗?”测试那么好。每个人都在谈论杰文斯悖论。因此,我们看到英伟达和博通的股票,这些芯片公司,今天都在崩溃。其中一种理论是,哦,不,通过所有这些优化等等,研究人员将只使用这些,他们仍然会对计算有最大需求。因此,这实际上不会改变计算的最终结果。你是如何看待这个问题的?
兹维(08:58):所以,从这场辩论的角度来看,我现在绝对是杰文斯悖论兄弟。
乔(09:03):所以你不认为它会对计算需求量产生负面影响。
兹维(09:08):我今天早上发的推文是“英伟达在新闻发布前下跌11%,因为它的芯片非常有用。”我相信我们所展示的是,是的,在某种意义上,你可以从每个英伟达芯片中获得比你预期的更多。你可以获得更多的人工智能。如果有一件有限的事情要做,一旦你做了那件事就完成了,那么那将是一个不同的故事。但这绝对不是这种情况。
随着我们朝着AGI的方向前进,随着这些人工智能变得越来越强大,我们将希望越来越多、越来越频繁地使用它们。最重要的是,R1和OpenAI的o1的整个革命是推理时间计算。这意味着每次你提出问题时,它都会使用更多的计算,更多的GPU周期来思考更长时间,基本上使用更多的令牌或单词来找出最佳答案。这会扩展,不一定没有限制,但它会扩展得很远。因此,OpenAI的新o3能够思考几分钟。它有可能在单个查询上花费数百甚至理论上数千美元或更多。如果你将其降低一个数量级,那么几乎肯定会让你更多地使用它来获得给定的结果,而不是更少地使用它。因为这实际上开始变得令人望而却步。
随着时间的推移,如果你有能力花费很少的钱,然后获得虚拟员工和从太阳中回答任何问题的能力,是的,基本上有无限的需求来做到这一点,或者随着价格下降而扩大答案的质量。因此,我基本上预计,只要英伟达能够制造芯片,我们能够将它们放入数据中心并为其供电,人们就会很乐意购买这些芯片。
特蕾西(10:54):冒着激怒杰文斯悖论兄弟的风险,只是为了进一步推动英伟达的观点,所以我对DeepSeek的理解是,它之所以特殊的原因之一是因为它不依赖于专用组件、自定义操作符,因此它可以在各种GPU上工作。是否会出现这样一种情况,即人工智能变得如此自由和丰富,这在理论上对英伟达有利,但与此同时,由于它很容易在其他许多GPU上运行,人们开始更多地使用像ASIC[专用集成电路]芯片,比如针对特定用途的定制芯片?
兹维(11:35):我的意思是,从长远来看,我们几乎肯定会看到专门的推理芯片,无论是来自英伟达还是来自其他人,我们几乎肯定会看到各种不同的进步。今天的芯片几年后就会过时。这就是人工智能的运作方式,对吧?这里有所有这些快速进步。
但我认为英伟达处于非常有利的地位来利用这一切。我当然不认为你只是用你的笔记本电脑来运行最好的AGI,因此我们不必担心购买GPU是一个糟糕的立场。当然,竞争对手可能会推出更出色的芯片。这是永远有可能的。英伟达没有垄断地位,但英伟达现在似乎处于主导地位。
乔(12:29):在我看来,我的意思是,我知道还有其他公司,但在我看来,在美国有三个主要的人工智能模型生产商是人们知道的。有OpenAI,有Claude,然后是Meta的Llama。值得注意的是,Meta今天的股票是绿色的,截至我谈论此时,实际上上涨了1.1%。快速浏览一下每一个,DeepSeek冲击如何影响它们及其生存能力以及它们今天的地位。
兹维(12:59):我认为你问题中最令人惊讶的事情是你忘记了谷歌。
乔(13:02):哦,是的,对吧?是的。这很有说服力,不是吗?
兹维(13:05):但其他人也忘记了。我从未使用过Gemini。这并不奇怪。他们的o1和R1的Gemini Flash Thinking版本几天前进行了更新,并且有很多报道说它现在实际上非常好,并且具有潜在的竞争力。而且它实际上对AI Studio上的许多人来说是免费使用的。但我认识的没有人花时间去检查并找出它的效果如何,因为我们都太执着于成为DeepSeek兄弟了。
谷歌的修辞午餐已经被反复吃掉了。12月,OpenAI会接连不断地推出进展,然后谷歌也会接连不断地推出进展,而且谷歌似乎实际上更有优势。然而,每个人总是只谈论OpenAI。所以这甚至不是什么新鲜事。那里发生了一些事情。因此,就OpenAI而言,OpenAI在某种意义上应该非常紧张,当然,因为他们有推理模型,而现在他们的推理模型已经被比以前更有效地复制了。而且竞争比OpenAI收取的费用便宜得多。因此,由于显而易见的原因,这对他们的商业模式构成了直接威胁。而且看起来他们在推理模型方面的领先优势比你预期的要小,而且更容易被打破,因为如果DeepSeek可以做到,当然Anthropic和谷歌也可以做到,其他所有人也可以做到。
Anthropic,生产Claude的公司,尚未生产自己的推理模型。他们在某种意义上显然是在计算资源短缺的情况下运作的。因此,他们完全有可能选择不推出推理模型,即使他们可以,或者在解决这个问题之前没有尽可能快地专注于训练一个模型。他们正在不断地接受投资。我们应该期望他们随着时间的推移解决他们的问题,但他们似乎应该直接关注,因为他们在某种意义上是一种直接竞争性较弱的产品,但他们也倾向于向更有意识的人推销,所以他们的人也会知道DeepSeek,并且可以选择。如果我是Meta,我会更加担心,特别是如果我在他们的Gen AI团队中并且想保住我的工作,因为Meta的午餐在这里被大量吃掉了,对吧?
Meta的Llama拥有最好的开放模型,所有最好的开放模型实际上都是Llama的微调。而现在DeepSeek出现了,这绝对不是Llama的微调。这是他们自己的产品,V3已经将Meta的所有产品都抛在了身后。有报道称,R1比他们现在正在训练的新版本更好。它比Llama 4更好,我预计这是真的。因此,如果没有人只想使用DeepSeek,那么发布一个劣质的开放模型是没有意义的。
乔(15:38):特蕾西,有趣的是,正如兹维所说,应该感到紧张的是Meta的员工,而不是Meta本身,因为Meta的股价上涨了。所以你不得不怀疑,这就像,好吧,也许他们不需要,我不知道,也许他们不需要在自己的开源人工智能上投入那么多,如果有一个更好的开源人工智能,而现在股价仍然上涨。
兹维(15:57):从我的角度来看,市场对Meta所做的不同事情的反应一直很奇怪。有一段时间,Meta会宣布我们将在人工智能上投入更多资金,我们正在投资所有这些数据中心,我们正在训练所有这些模型。市场会说,你在做什么?这是另一个元宇宙还是什么,我们要打击你的股票,我们要拖累你。然后,在最近宣布的650亿美元支出之后,Meta的股价上涨了。据推测,他们主要会在很多情况下将其用于推理,因为他们在Facebook和Instagram上应用人工智能的推理成本很高。因此,如果有什么不同的话,我认为市场可能是在猜测,这意味着他们将知道如何训练出更便宜的Llama,而且他们的运营成本会下降,然后他们会处于更好的位置。而且这种理论并非毫无道理。
特蕾西(16:44):既然我们都集体记起了谷歌。我有一个问题一直萦绕在我的脑海中,我认为乔之前也提出过这个问题,但是当谷歌首次亮相时,人们花了多年时间才赶上搜索功能。而且实际上没有人真正赶上,对吧?因此,谷歌已经统治多年了。为什么当涉及到这些聊天机器人时,这些企业周围没有更高、更宽的护城河?
兹维(17:18):一个原因是每个人都在大致相同的数据上进行训练,这意味着整个互联网和所有人类知识。因此,除非你根据自己的模型创建合成数据,否则很难在那里获得如此多的永久数据优势,而这正是OpenAI现在可能正在做的事情。另一个原因是每个人都在尽可能快地扩展,并且定期在所有内容上添加零。在日历时间上,你的竞争对手在访问比你更多的计算资源之前不会花费那么长时间,而且他们会更积极地复制你的技术。秘密配方少得多。只有这么多的算法。
从根本上说,每个人都依赖于扩展定律。它被称为痛苦的教训,它的想法是你只是扩展更多。你只是使用更多的计算资源,你只是使用更多的数据,你只是使用更多的参数。而DeepSeek说,也许你可以做更多的优化,你可以解决这个问题,并且仍然可以获得更好的模型。但大多数情况下,是的,有很多只是,我可以通过复制你所做的事情来赶上你,因为我可以看到输出,对吧?我可以查询你的模型,我可以利用你模型的输出来积极训练我的模型。你可以在大多数经过训练的模型中看到这一点,你问他们是谁训练你的,他们通常会说,哦,我来自OpenAI。
乔(18:33):互联网变得如此奇怪。互联网太奇怪了。兹维·莫绍维茨,非常感谢你跑到《古怪地块》来帮助我们录制关于DeepSeek抛售的紧急播客。这太棒了。
兹维(18:45):好的,谢谢。
乔(18:58):特蕾西。我喜欢和兹维说话。我们得把他当成我们的人工智能专家。
特蕾西(19:04):我的意思是,说实话,我们本周可以让他再来一次。肯定会有事情发生。
乔(19:09):也许我们会。而且显然我们可以讲更久。这是一个非常令人兴奋的故事。这是一个非常令人兴奋的故事,而且这些天事情变得非常奇怪。
特蕾西(19:19):这一切发生得如此之快,这真是太疯狂了。然后我想说的另一件事是,痛苦的教训。乐队的好名字。
乔(19:29):哦,完全。完全伟大。也许当我们做我们的人工智能主题前卫摇滚乐队时,特蕾西,这可以成为我们的名字。
特蕾西(19:36):是的,我们来做吧。好吧。我们就此打住吗?
乔(19:38):我们就此打住吧。你可以在..关注兹维·莫绍维茨。


分析大模型:gemma2
得分:10
原因:

文章提到了中国DeepSeek在AI领域的突破,对美国科技巨头造成了冲击,并且在技术上有所创新,这些都带有一定的正面情绪,但是文章主要还是偏中性描述,所以正面情绪分数不高。

原文地址:China's DeepSeek Takes on OpenAI and NVDA
新闻日期:2025-01-28

Verified by MonsterInsights