DeepSeek是中国初创公司,使用R1型号踢了AI Anthill,并没有放慢脚步。原定于5月的R2模型可能比预期的要早得多。他的目标?提高多语言推理能力并提高编程性能。但是,除了技术方面,最重要的是,DeepSeek对AI力量平衡的所有影响,这使很多话都进行了讨论。

一个使每个人都承受压力的局外人
当DeepSeek推出他的R1模型时,没有人期望这样的地震:几天后,股市损失了超过100亿美元这表明投资者知道AI可能比我们想象的要便宜得多。与美国巨头投资数十亿美元的超级基础设施的美国巨头不同,DeepSeek押注了一种更加恶性的方法:高性能,但训练较便宜得多。
他的食谱?诸如混合递增和多头潜在注意力之类的技术。基本上,这些方法不是使用每个请求来激活所有计算能力,而仅利用模型的各个部分来满足需求。结果 :降低了成本和效率,迫使Openai和Google等巨头审查其价格和策略。

北京带来的成功
DeepSeek具有巨大优势的地方是,他从中国政府的支持和罢工力量中受益。几家州公司和地方行政部门已经使用其模型,并且Baidu,Tencent和Lenovo等巨人将其融入了他们的服务。北京认为,DeepSeek的战略资产可以在AI竞赛中与美国竞争。
但是,该初创公司谨慎前进。当局要求他保持谨慎,以免引起过多的关注。容易解释的指令:华盛顿密切监视中国人工智能的崛起并且仍然可以加剧对中国跳蚤出口的限制,只是为了限制其发展的速度。

大量收养...但不是到处
和在中国的卡通,到处都不是这样。几个国家,例如和,由于机密原因,已经撤回了其百叶窗的应用。在美国,桌上的禁令的想法,特别是因为DeepSeek处理的所有数据都存储在中国。
尽管存在这些障碍,但该初创公司并不打算放慢脚步。它的R2模型可以进一步加强其进步,并迫使Openai和Google适应。如果DeepSeek设法在提高绩效的同时保持其竞争成本,则AI可能会变得更容易成为每个人的访问...除了西方。