介绍
几个月前,人们惊叹于 Luma Labs 的 Dream Machine 的输出,这是一个被宣传为 Sora 大杀器的文本到视频模型。为了满足人们对这个模型的需求,很快引入了排队系统。然而,在大洋另一边,Kuaishou,一个对西方许多人来说很陌生的中国公司,推出了 Kling。不仅仅是立即可用,视频生成得还算快,物理效果似乎准确,而且输出没有偏离提示。 虽然目前只有短短的片段可供选择,Kuaishou 表示它有能力生成长达两分钟的片段。AI Twitter 也被恰当地 impressed(这里可能指的是对 Kuaishou 的技术能力表示认可)。
来自中国实验室的 AI 进步在很大程度上受到了比美国大实验室的模型竞赛的关注度远低于。评论倾向于从“谁在获胜?”和“制裁是否反噬?”的角度出发,并寻求用一个字来回答。
我们并没有隐瞒对共产党中国人工智能野心的担忧,或对科技行业承担为国防和国家安全做出贡献的责任的信念。但这并不意味着回答这些问题的答案就简单直接。在准备《人工智能现状》报告时,我们正分享对这些点的评估。剧透提醒:答案并不简单。
优势所在
如果我们以 LMSYS 阵馆作为参照,一小部分中国的实验室正在产出强大的模型,这些模型在与美国前沿实验室产出的第二最强大的模型中表现出高度的竞争性。在特定的子任务上,他们的表现与美国的最先进水平相匹配。这些实验室涉及的是 01.AI(易)、阿里巴巴(通义千问)、Zhipu AI(GLM)、以及 DeepSeek AI(DeepSeek)。
由于必要性(后面会详细解释),这些实验室专注于在最大限度提高计算效率的同时实现高性能。以 DeepSeek-V2 为例,研究者们部署了一系列技术来优先考虑效率。这包括:
优化的注意力机制:一种名为 Multi-head Latent Attention (MLA) 的 novel 注意力机制,它压缩了键值缓存,而在推理过程中显著降低了内存需求,而不会牺牲性能。
增强的 MoE 架构:一种名为 DeepSeekMoE 的细粒度专家划分和共享专家隔离的混合专家布局,这使得大型模型的更高效训练成为可能,相比传统密集型架构。
受限专家路由:一种设备有限的路由机制,限制了在处理每个令牌时涉及的设备数量,有助于分布式训练中控制通信开销。
自适应令牌删除:一种策略,在训练过程中选择性地在令牌上做降采样,以减少从不平衡专家利用中产生的计算浪费。
推理优化:在部署时,他们使用了激烈的量化技术。
中国的实验室对地缘政治如何导致他们优先考虑效率感到坦诚。01.AI 的创始人陈力丹说过,“拥有高素质的基础设施团队,对于每 1000 个 GPU,我们可能能够从它们那里挤出 2000 个工作负载”。
由中国的实验室开发的模型在数学和编码方面表现尤其出色。再次,以 LMSYS 作为代理,Yi-Large-preview 排名第五,击败了一些 GPT-4 和 Gemini 1.5 的迭代,同时 DeepSeek-Coder-V2-Instruct 排名第六。DeepSeek 也创建了 DeepSeek-Prover,其在数学问题上表现优于 GPT-4。
他们通过将从互联网上收集的非正式数学问题翻译成正式陈述,并使用迭代改进的语言模型生成证明,生成了大规模的合成定理证明数据。然后,这些数据被用于微调模型,从而创建了一个递归的自我改进循环。虽然他们在首选的国际数学奥林匹克挑战赛上的证明只成功证明了其中的 5 个问题,但 GPT-4 … 0.
我们也看到了视觉语言模型,这些模型的表现与去年美国竞争对手的顶尖水平不相上下。例如,基于 Qwen-7B 的大语言模型 Qwen-VL,在图像描述的语义分割、视觉问题回答和基于自然语言描述的理解/定位图像中的特定对象或区域方面,都表现出高度的竞争力。
虽然陈立明是中国文本转视频模型的突出成功案例,但在这一领域,中国实验室很可能取得成功。他们不仅有望从大量数据和用户生成内容中获益,中国薄弱的版权保护制度意味着模型构建者不太可能遇到与西方同行相同的时间-consuming 法律纠纷。 文本转视频模型通常所需的 GPU 要求比大语言模型低,因为它们通常需要固定大小的图像或视频输入,而其架构使得更高效地处理视觉数据成为可能。
在看到这一进展后,我们看到了一种常见的且我们认为懒惰的批评。这种观点认为,中国的前沿模型只是 Llama 的抄袭,01.AI 的工作经常被拿来作为参考。我们也看到了以此为 flawed 意见来限制开源 AI 在国家安全上的做法。这源于对大语言模型训练的误解。 确实,有些中国的模型使用的是与 Llama 相同的架构,但这个架构本身在本质上只是与原始 transformer 有轻微的不同。获得 Llama 并没有给中国的实验室带来某种秘密配方,他们无法通过其他工作自行获取。Meta 本身已经表示,Llama 的关键优势在于其训练数据。01.AI 的核心工作是在创建高质量的数据集 - 这一点该公司在一开始就直言不讳。
讽刺的是,一个可能同意这种相对弱化的国家安全推理的群体是中共,北京人工智能研究院的第二把手李强被警告缺乏模型架构的自主性。
表面下的裂缝
这并非意味着一切都很美好。
这个作品的一个显著特点是基础的狭小。创新似乎在一小群历史悠久的本地科技巨头或创业公司中过度集中,这些公司有知名创始人。在这一群体之外,投资者对这一领域的投资正因面临挑战的宏观经济环境而减速。前 Sequoia China 艺术家 HongShan 最近关闭了一笔新的 25 亿美元基金,其规模较其之前的 90 亿美元基金大幅减少(据报道,该基金已遇到部署问题)。
某些领域可能表现出色,但实际上可能掩盖了更弱的更广泛的生态系统,并且可能导致缺乏竞争。目前,国际资本似乎并没有即将回归的迹象,而美国准备限制对外投资,这意味着,要么是本地投资者需要加大投入,要么是政府需要介入。虽然正如中国半导体补贴努力所展示的(后面会详细介绍),政府并不总是能够高效地分配资本。
针对美国实验室模型的批评,也针对他们的中国同行,但个别可疑的实践行为的个案似乎更严重。潜在的未来资源短缺和随之产生的政府在分配方面的介入,可能为实验室创造可能看起来最强的表现作为诱因。当模型声称在 MMLU 上达到 72.2% 的准确率,在 HumanEval 上达到 74.4% 的准确率,仅拥有 370 亿活跃参数时,它们自然会吸引人们的质疑。 其他在 MMLU 上得分接近 80%的相对 obscure 实验室也受到了 scrutiny。
实验室不仅收到了关于这些问题的推特酸讽。例如,至少有两个不同的实体指责 Qwen 替代模型对数据进行了污染。来自中国的一个团队 Skywork,正在开发一个开源双语基础模型,他们在自己的技术报告中列出了对数据污染的讨论,与同行比较:
与此同时,在 X.ai 重新评估了一系列模型时,他们使用了在发布后发布的匈牙利国家决赛数学考试题目,Qwen 的表现下降了 30 分。
再加上所有这些,当前沿模型开发者想要将他们的工作商业化时,中国的监管机构会给他们带来显著的不便。我们在西方听到的是过度监管的说法,但中国的合规制度却以惩罚性的方式,主要集中在政治审查上。该国的互联网监管机构要求公司准备涵盖 20,000 到 70,000 道问题的测试,以检验他们生产安全答案的能力,以及一个几乎完全围绕意识形态的问题数据集,这些数据集拒绝回答。 为了使情况更复杂,模型不仅必须拒绝回答“不恰当”的问题,而且不能拒绝回答太多安全问题—— censorship 不能太明显。
第一个实现合规的模型引发了以下繁琐的巴洛克式过程:
美国制裁呢?
明确制裁的目的很重要。美国逐渐升级的制裁从来就不是一夜之间让中国最先进的人工智能研究陷入瘫痪的手段。同样,针对俄罗斯入侵乌克兰后的制裁并不是为了引发反对现任总统普京的群众运动——尽管媒体的热烈评论对此有别有用心。制裁的目的是引入摩擦,这些摩擦最终会起作用,阻碍经济增长,通过引入微小的摩擦实现。 正如 Chip Wars 的作者 Chris Miller 所说 - 通过使构建大量先进芯片的大规模集群变得困难,"在齿轮上撒沙子"。
批评者预测制裁将促使中国芯片产业创新,这一预测被一概否认。显然,政府补贴对官员的个人银行账户贡献更大,对创新的促进作用微乎其微。之前热门的公司开始裁员。与此同时,中国的先进水平仍然落后于台湾,依传统计算,理论上相差五年。在 2023 年底,当华为发布其 Kirin 9000S,一款 7nm 芯片时,我们当时在该年的《人工智能状态报告》中进行了报道,这引发了广泛的好奇和兴趣
正如我们所写的一样,在 Ascend 910B 的情况中,华为的 7nm AI 芯片,存在对 SMIC 在质量和规模上制造这些芯片能力的怀疑。在 Ascend 910B 的情况下,这些怀疑在华为的 7nm AI 芯片上得到了证实。SMIC 在所需的数量上难以生产,并且发现有 80%的芯片存在缺陷。华为似乎对自身在这领域的创新能力持怀疑态度。
虽然理论上移动 GPU 跨国界(下面会详细介绍)——但要暗中携带用于先进半导体制造的关键设备要困难得多。这在极端紫外刻蚀机上最为明显,该设备在硅晶圆上刻蚀精细的电路图案。
唯一的高端机器生产商,总部位于荷兰的 ASML,不再向中国公司出售其顶级设备。这些设备很难走私,因为它们产量低,价格昂贵,而且可能像双层巴士一样大。中国公司 allegedly 进行了工业间谍活动,但这些设备包含超过 10 万种组件,需要精确校准。这可能使得它们成为世界上最难复制的单件设备之一。
考虑到这一点,那么实验室究竟是如何能够像以往一样迅速地产出最先进研究(SOTA)的呢?
任何漏洞你都能用公共汽车穿过
首先,许多资金充足的大实验室和初创公司都已经做好了应对这一事件的准备。事实上,他们对这一点的宣传完全不值得一提。去年年底,腾讯还在广告中宣传其储备的规模,01.AI 也是如此。此外,令人不安的是,美国商务部在即将实施的限制实施前几个月就经常提前泄露信息,给公司留下了足够的预警。
NVIDIA 硬件受欢迎的一个原因是因为它的稳定性——在某些情况下,单个 GPU 可以持续接近十年的使用寿命。当这些 GPU 的使用寿命即将结束时,AI 研究可能已经转移到了完全不同的范式,对硬件需求也完全不同。
为了补充在限制之前就已经购买的、依法购买的 A100 和 H100 芯片,实验室还能够购买 NVIDIA 的受制裁合规芯片。NVIDIA A800 限制了大约 70% 的 A100 的速度(尽管它仍然比大多数国内竞争对手更加强大),之后又被美国禁止。现在 NVIDIA 正开始向中国发货 H20、L20 和 L2 硬盘。
H20 在严格遵守制裁制度的字面上含义上,但并未完全遵循其精神。H100 在某些指标上远远胜出——例如,如果你以浮点运算核心浮点运算量(FP16 Tensor Core Flops)为标准衡量,它具有 6.68 倍的性能优势。然而,尽管其整体计算能力较小,H20 架构在设计上已被优化,以满足大语言模型工作负载的完全制裁合规性,并且据报道,在大语言推理任务中,其性能比 H100 快 20%。 如果真是这样,这将是 NVIDIA 计划下年面向非中国客户发布的 H200 版本的降级版。
毫不奇怪,这些芯片在中国客户中大受欢迎,据 NVIDIA 预测,今年上半年,其销售收入将达到 120 亿美元。尽管美国商务部长 Gina Raimondo 在过去曾表示:“如果你围绕特定的切割线重新设计芯片,使其能够实现中国进行人工智能,那么我将在第二天控制它。”但 H20 的情况依然未受控制。这似乎是个疏忽。
然而,NVIDIA 对其中国兼容硬件收取额外的溢价,以覆盖地理政治风险和最初制造的不便。这意味着小型实验室和初创公司受到了限制的 disproportionate 影响,并被卷入了本地超大规模计算器的限制之中。有些甚至将 NVIDIA 游戏芯片上的核心组件卸下重装到新的电路板上。 NVIDIA 的游戏芯片通常具有强大的原始计算能力,但并不专门为处理大数据集所需的高精度计算设计。
除此之外,禁运会形成一个黑市。这主要通过中间商从戴尔或 SMCI 购买 NVIDIA 设备,并从第三国发货到中国。为了避免引起警觉,中间商常常填制不完整的海关申报单,或者不具体说明他们正在出售的具体设备。有时整台服务器被运走,有时一个学生从新加坡返回,行李中可能装有一些 A100s。 这使得国有研究机构和大学能够在实施限制后长期获得高端芯片。
这可能会满足需求的微小缺口,正如我们之前所论证的,对于小型模型有很多值得说的优点。然而,通过在学生的行李中藏匿 A100,构建和维护一个大型集群是相当困难的。这在很大程度上是由于不便,但主要原因是全球供应紧张,意味着代理商无法获得足够的库存。
朋友的小小帮助
许多中国科技公司还有一张牌未出——一张庞大的本地附属网络。
像华为或字节跳动这样的公司有全球业务布局。向这些公司在中国的本地附属公司提供云服务并不存在任何禁止。字节跳动通过 Oracle 租用美国最强大的 NVIDIA 芯片,而阿里巴巴和腾讯正在与 NVIDIA 讨论建立美国-based 的集群。再次,这符合美国理论上可以阻止但选择不采取行动的情况。
中国的实验室不仅仅能从西方获取计算资源。在欧洲大学里,他们能找到愿意提供研究人才和协助的愿意。随着我们整理《人工智能指南》(Guide to AI),我们经常能看到这些合作的高质量例子。例如,华为仍然是慕尼黑工业大学的主要捐款人,这是一个欧洲最大的无人驾驶技术人才和研究集中地之一,同时也是人工智能领域的佼佼者。 与此同时,英国-中国透明度项目已经报道了中国军方关联实体向剑桥大学提供的数百万英镑,以帮助其进行敏感的人工智能研究。
研究者在仪表板上发现了各种红色警告灯,与中国的军事关联机构合作进行的研究项目,甚至在欧洲政府勉强开始排除华为从其 5G 基础设施中时。
这种积极的合作态度伴随着对其他风险的奇怪的放松态度,无论是英国政府批准地方政府使用由中国国家所有制的 Hikvision 制造的 CCTV 摄像头,还是美国允许中国自动驾驶初创公司使用高分辨率相机和激光扫描 1.8 万英里的公路。
结尾
从这个案例中,我们应该吸取什么教训?
首先,中国的实验室显然有能力迅速地生产出最先进的研究。即使存在质疑……关于使用质疑的基准测试的问题,LMSYS 的赛场表明,实践者认为他们的产出是有价值的。
其次,美国的制裁可能正在伤害生态系统的一些部分,而最深 pockets 的玩家仍然表现出韧性。芯片制造商和基础设施提供商已经证明,他们会尽他们所能,即使不触犯法律,也在力所能及的范围内继续向赚钱的市场销售产品。
如果我们对此有所觉察,那么美国商务部及其更广泛的国家安全机构可能并未对此全然不知(我们希望如此)。因此,我们只能得出结论,他们只是没有采取更严厉的行动,这是他们有意为之。这可能出于避免报复(迄今为止的报复行为相对温和)或避免损害美国企业考虑。虽然美国可能无法阻止新加坡的学生带着箱子,但它可能可以阻止字节跳动与 Oracle 的合作。 那是决策上的选择