中国AI助手DeepSeek震撼硅谷
中国一家名不见经传的杭州实验室DeepSeek,其人工智能助手横空出世,令硅谷为之震动。这一事件在美国科技界引发了广泛讨论和辩论,人们开始重新审视全球人工智能发展竞赛的格局。
DeepSeek助手近日荣登苹果应用商店榜首,其背后的人工智能模型在性能上已经超越了美国顶尖模型。更令人惊讶的是,该公司声称其研发所用的资源远低于美国同行。DeepSeek一周前发布了最新的大型语言模型R1。在权威的独立人工智能分析排名“人工智能质量指数”中,R1仅次于OpenAI的o1模型,但已击败了包括谷歌的Gemini 2.0 Flash、Anthropic的Claude 3.5 Sonnet、Meta的Llama 3.3-70B和OpenAI的GPT-4o在内的众多模型。
“DeepSeek R1是人工智能领域的‘人造卫星时刻’,” 著名企业家、Mosaic浏览器联合创始人马克·安德森在社交平台X上写道,他将这一事件比作美苏之间的太空竞赛,认为这迫使美国意识到其技术能力并非无懈可击。受此影响,科技股周一大幅下跌,纳斯达克综合指数在开盘几分钟内就下跌了3.4%。
美国大型科技公司正在人工智能技术上投入数千亿美元。R1的核心竞争力之一是其通过“思维链推理”解释其思考过程的能力,这种方法可以将复杂的任务分解为更小的步骤。该方法使模型能够回溯和修改早期步骤,模仿人类的思维,同时也让用户能够理解其推理过程。在瑞士举行的世界经济论坛上,微软首席执行官萨蒂亚·纳德拉——其公司是OpenAI的最大投资者之一——称赞DeepSeek的新模型“令人印象深刻”,并补充说他认为“我们应该非常、非常认真地对待来自中国的发展”。
R1和o1都属于新兴的“推理”模型,旨在解决比前几代人工智能模型更复杂的问题。但与OpenAI的o1不同,DeepSeek的R1可以免费使用且权重开放,这意味着任何人都可以研究和复制其制作方式。R1基于DeepSeek之前的模型V3,该模型也曾击败过GPT-4o、Llama 3.3-70B和阿里巴巴的Qwen2.5-72B(中国此前的领先人工智能模型)。V3在去年12月底发布时,性能与Claude 3.5 Sonnet相当。
R1令人印象深刻的部分原因在于DeepSeek对其开发的说法。根据DeepSeek的技术报告,R1仅用了两个月和不到600万美元就完成了构建,而美国领先的科技公司每年在人工智能上的支出仍高达数十亿美元。DeepSeek还必须应对美国出口限制,这些限制限制了其获得最佳人工智能计算芯片的机会,迫使该公司使用性能较低的芯片构建模型。这在美国科技界引发了一场激烈的辩论:一家中国小型公司是如何如此迅速地超越人工智能行业中资金最雄厚的参与者的?这对该领域未来的发展意味着什么?
Meta首席人工智能科学家杨立昆在Threads上发帖称,这一进展并不意味着中国在人工智能方面“超越了美国”,而是证明“开源模型正在超越专有模型”。他补充说,DeepSeek受益于其他开源模型,包括Meta的一些模型。“他们提出了新的想法,并在他人的工作基础上构建了这些想法。因为他们的工作是公开和开源的,所以每个人都可以从中获益,”杨立昆写道。“这就是开放研究和开源的力量。”(尽管包括DeepSeek和Meta在内的许多公司声称其人工智能模型是开源的,但它们实际上并未向公众公开其训练数据。)
OpenAI首席执行官山姆·奥特曼上个月似乎也对DeepSeek进行了讽刺,此前一些用户注意到V3有时会把自己和ChatGPT混淆。在V3发布一天后,奥特曼在X上写道,“复制你已经知道有效的东西(相对)容易。当你不知道它是否会奏效时,做一些新的、有风险和困难的事情是非常困难的。”
一些网络人士散布了未经证实的说法,称DeepSeek的成功是中国政府的“心理战”,怀疑这个小团队有能力“作为一个副业击败世界上所有顶尖的研究人员”。Meta AI开发的机器学习库PyTorch的联合创始人苏米特·钦塔拉是周末反驳这些指控的众多人士之一。“令人捧腹的是,人们通过散布奇怪的阴谋论来应对DeepSeek——尽管DeepSeek开源并撰写了一些有史以来最注重细节的论文,”钦塔拉在X上发帖说。“阅读。复制。竞争。不要酸,只会显得你无能。”
科技和投资领域的其他人士也纷纷加入赞扬的行列,对DeepSeek成功的意义表示兴奋。“这就是DeepSeek事件如此有趣的原因。一群骗子多年来一直在兜售人工智能的秘密配方——无法完全解释的神秘液体,”宏观经济学家菲利普·皮尔金顿在X上写道。“现在,一群年轻人只是编写了一个好的算法,并将其发布,马戏团的帐篷就烧毁了。”Github前首席执行官纳特·弗里德曼也发帖说:“DeepSeek团队显然非常出色。中国有很多有才华的工程师。其他的说法都是在自欺欺人。抱歉。”
DeepSeek的模型具有双语能力,在中文和英文方面都表现出色。然而,它们似乎会受到审查,或者在涉及中国敏感话题时会表现出特定的政治倾向。当被问及台湾的主权问题时,DeepSeek的R1有时会表示该主题“超出我目前的范围”。有时,该模型会将台湾描述为“中国领土不可分割的一部分”,并补充说:“我们坚决反对任何形式的‘台湾独立’分裂活动,并致力于通过和平手段实现祖国的完全统一。”
紧随DeepSeek最新模型的步伐,中国科技行业的其他参与者也在人工智能主导地位的竞争中推出了新的竞争者。阿里巴巴周日推出了最新的Qwen2.5-1M模型,是对Qwen2.5-72B的升级。北京公司月之暗面(Moonshot AI)旗下的Kimi AI也在周六宣布推出其最新的多模态推理模型Kimi k1.5,并声称其可与OpenAI的o1相媲美。
分析大模型:gemma2
得分:60
原因:
文章主要以正面的态度报道了DeepSeek的成就,包括其模型在性能上超越美国同行,以及其开源的特性。同时,文章也引用了多位行业专家的赞扬,整体上对中国在人工智能领域的进步持肯定态度。
原文地址:DeepSeek, a new AI assistant from China, shakes Silicon Valley
新闻日期:2025-01-27