日本半导体行业的抱团行动被认为是回到全球版图的“最后机会”

深度拆解美国AI模型出口管制令：中国准备好了吗？

摘要：由于法律和政策制定的滞后性，监管措施，永远跟不上人工智能技术快速发展的步伐。在这场步调不一的竞赛中，美国政府似乎总想迈出关键的一大步，以期在这场竞逐中占据有利位置，哪怕此举可能让自己失去平衡也在所不惜。其目标显而易见——牵制中国在AI领域的崛起。最近一周多，美国国会动作不断。5月15日，一个由两党参议员组成的小组向国会发出呼吁，建议每年向非军事用途的人工智能研究领域注入320亿美元的资金，以确保美国在这场人工智能竞赛中，能够与中国一较高下。更吸引中国从业者注意力的是，5月8日，众议院跨党派议员联合推出了“加强海外关键出口国家框架法案”（ENFORCE法案），旨在为美国商务部管制AI模型出口开绿灯。有消息传出，像Meta公司的Llama模型这样在中国获得广泛应用的开源模型也在出口管制之内。在大国竞争的背景下，许多国家都会快速调整政策来适应技术的变革。将人工智能和机器学习算法纳入出口管制，标志着国家安全战略进入了全新的阶段。然而美国的政策行为，似乎超出了正常监管的界限。中国外交部发言人林剑5月10日回应称，将经贸科技问题政治化、工具化、意识形态化，强推脱钩断链，冲击的是两国及全球的正常贸易投资往来和产供链稳定，不符合包括美国在内的任何一方的利益。更何况，与传统的实体商品出口相比，将AI模型出口纳入国家监管框架，还有很多技术上的挑战没有得到合理的解释。自2018年起，美国便开始对中国等特定国家实施更为严格的人工智能软件和硬件出口管制。伴随着ChatGPT等AI大模型应用的问世，美国政客企图在中美科技竞争中瞄准AI大模型也就不足为奇。但“甲子光年”本周对话的中美两国科技专家普遍认为，美国过去五年对中国实施的AI出口管制，并未达到预期效果，反而损害了美国公司的利益，并在一定程度上促进了中国AI及半导体产业的竞争力提升。1.安全博弈：AI模型出口管制的考量显然，最新的AI大模型出口管制，是继顶尖AI芯片出口管制之后，美国政策工具箱中的又一项补充性措施。自ChatGPT发布以来，美国科技大厂和创业公司发布的大模型令人眼花缭乱，仅最近一周就有OpenAI最新的GPT-4o模型和Google发布的Gemini模型更新。研究机构GlobalData预测，生成式AI领域的市场营收将从2022年的18亿美元增长到2027年的330亿美元，年复合增长率高达80%。面对这一潜力巨大的市场，美国对管制AI大模型，无论是开源还是闭源，出口到其他国家，尤其是中国的意向愈发明显。美国国家情报总监办公室的布莱恩·霍姆斯（Brian Holmes）在3月的一次出口管制会议上坦言：“人工智能的运用与发展，正以爆炸性的速度增长，我们很难与之同步。” 他还指出，中国的进步尤其值得关注。美国国会大厦来源：美国国会同时，美国政府和研究界对于AI大模型可能被外国用于网络攻击、虚假信息传播甚至生物武器制造的担忧，为这一出口管制提供了表面上更正当的理由。2023年2月，OpenAI、斯坦福大学和乔治城大学的一组研究人员警告说，像ChatGPT所基于的大模型可能会被用作虚假信息传播的一部分，因此报告呼吁对人工智能的发展和扩散进行监管和控制。“我们不想等到这些模型被大规模部署应用后才开始考虑应对措施，”该报告的主要作者之一、美国乔治城大学安全与新兴技术中心研究员乔什·A·戈尔茨坦（Josh A. Goldstein）表示。该报告以2022年10月以来美国对中国实施的半导体相关的出口管制作类比，然而该报告也承认，“硬件出口管制是一种生硬的手段，会对全球贸易和许多非人工智能行业产生深远的影响。”去年年底，美国商务部负责监管美国出口政策的艾伦·埃斯特维斯（Alan Estevez）表示，该机构正在研究监管开源大模型出口的方案，并计划征求行业反馈。美国国土安全部在其2024年的国土威胁评估中也表达了对网络攻击者可能利用AI开发新工具的担忧。然而，对于AI大模型在国家安全层面的真正威胁，学界存在不同声音。北京邮电大学人机交互与认知工程实验室主任刘伟对“甲子光年”表示，依照目前的技术水平，大模型本身还不存在威胁国家安全，除非是人为使然。他指出，外界普遍将基于Transformer等架构的大模型奉为圭臬，但其神经网络结构中的线性函数与激活函数会导致非线性问题和“机器幻觉”，即模型可能输出看似合理实则错误的结果，即“一本正经地胡说八道”。他引用了一些影视导演对Sora的看法称，目前Sora在精密的电影工业中难以得到广泛应用，使用更多的则是在平常休闲娱乐的短视频行业。类似的，这些AI大模型在精密工业和敏感军事应用中的使用也正受到质疑，因此刘伟相信，不会有任何国家能放心地在敏感工业中随意使用。无论如何，美国政客已决定让最新的法案走上成为法律的正式流程。然而管制AI大模型，尤其是开源模型的出口，究竟该以什么标准进行，美国政客多半也没想清楚。2.技术封锁还是政治姿态？最广为人知的管制标准，是美国2023年10月新修订的AI芯片出口管制令。美国商务部下属的工业与安全局（BIS）将基于AI芯片的总处理性能（TPP），性能密度（PD）以及“设计或销售”这些芯片是否会用于数据中心来给出管制决定。该标准相较2022年10月的规定范围更广，也更加精确。来源：CryptoSlate类似的，路透社援引美国官员指出，计算能力的阈值也将成为判断AI模型是否受到出口管制的关键因素。然而，目前尚未有模型达到这一门槛，不过Google的Gemini Ultra模型已十分接近。白宫和美国司法部前官员贾米尔·贾弗（Jamil Jaffer）表示，拜登政府不应使用计算能力阈值，而应选择基于模型能力和预期用途的控制。他说：“关注国家安全风险而不是技术门槛是更好的选择，因为它更持久，更侧重具体的威胁。”然而人工智能技术的国际性特点不容忽视。该领域的研究通常涉及全球科学家和工程师的合作，而且研究成果往往通过Arxiv.org等平台共享。这种开放的学术交流模式意味着，即使美国实施了出口管制，其他国家的研究人员仍能通过这些渠道获得所需的知识和技术。美国智库信息技术与创新基金会（ITIF）副主席丹尼尔·卡斯特罗 (Daniel Castro) 对“甲子光年”表示，美国商务部必须与国务院、能源部和国防部协商，制定标准来确定哪些人工智能系统属于这一指定范围。预计出口管制只适用于存在国家安全风险的人工智能系统。“在大多数情况下，这不会适用于正常商业运营的AI模型。” 卡斯特罗表示。同时，对于互联网上广泛可用的开源AI模型，如何实施管制仍是一个未解之谜。考虑到人工智能的商业化机会很丰富，卡斯特罗认为，对AI模型的出口管制，可能不会在资金层面影响硅谷公司的运营。“然而他们将面临来自没有出口管制地区的公司的竞争。并且出口管制可能会阻碍中美AI学术人员的紧密合作，或者在中国拥有实验室的跨国公司内的合作。”5月15日，社交媒体上出现多位微软中国员工透露收到公司邮件，询问是否愿意迁移至其他地区工作，选择包括美国、澳大利亚、爱尔兰等国家。涉及的员工包括AI platform 的Azure ML团队。微软回应称，这是给员工的内部调动机会，不会影响公司在中国的运营。GlobalData分析师霍塞普·博里（Josep Bori）也对政策的有效性提出了质疑，他认为，由于行业正逐渐转向开源模型，仅影响闭源模型的措施可能效果有限。他比喻说：“感觉就像大模型技术的魔咒已经从瓶子里出来了，控制其访问会非常困难。”刘伟认为，表面上看，所谓的禁止AI大模型出口看似能管制技术流向特定国家，实质上也难以有效约束开源技术的全球传播，美国也无法阻止技术通过间接渠道如南非等国流入许多国家。这种管制更多地体现了政治姿态，表面上看似在营造一种抑制对手发展的态势，实际旨在自我安慰和安抚盟友，而非真正达到技术封锁目的：“毕竟世界是开放的，固步自封常常会南辕北辙。”3.从出口管制到市场矛盾“如果你想重新设计一款新芯片让中国能开发AI，我第二天就会管制它。”这是美国商务部长雷蒙多在2023年12月的言论。毫无疑问她夸大了自己的能力，因为美国商务部花了整整一年的时间来针对英伟达的“中国特供芯片”方案予以修订。但美国针对中国管制AI技术和半导体出口的攻势，自五年前升级以来，的确没有丝毫放缓的迹象。美国商务部长雷蒙多来源：乔治城大学用卡斯特罗的话来说：“美国政府希望，美国公司不会向中国出售可以让中国把竞争对手埋进土里的铲子。”这并不是美国第一次试图阻止技术流出。二战后，以美国为首的17个国家成立了多边出口管制协调委员会，管制向敌对国家出口战略资源和技术。直到苏联解体三年后，该机构才在1994年解散。时间来到2018年8月，时任总统特朗普签署了《2018 年出口管制改革法案》（ECRA），其中特别强调了在新兴科技和先进技术领域的出口管制体系。2018年11月，美国商务部发布了一份提案，列出了其认为可从出口管制中受益的各种类型的人工智能软件。2020年1月，美国商务部宣布，美国企业出口某些地理空间图像领域的AI软件时必须得到许可；2024年1月一项最新的云计算服务规定还提到，如果外国客户使用其平台训练具有潜在危险的AI模型，亚马逊等美国云计算供应商必须告知政府。硬件方面，在2022年10月和2023年10月两次重大修订后，美国工业与安全局（BIS）于2024年3月发布“实施额外出口管制”的新规，旨在加强对特定地区销售的审核。英伟达首席财务官科莱特·克雷斯 (Colette Kress) 今年2月坦言，作为全球最大的AI芯片制造商，英伟达的收入“在美国政府 10 月份实施出口管制法规后大幅下降”。纵观上述管制令，卡斯特罗表示：“它们既没有效果，（对美国来说）也不是什么好的战略。对芯片出口的管制伤害了美国公司，只会鼓励中国建立一个有竞争力的半导体生态系统。”的确，这些管制让硅谷科技公司越来越担忧。刘伟认为，硅谷企业面对政府的管制政策，处于一种矛盾状态。一方面，它们必须遵守美国出口管制的规定，另一方面，中国市场对于这些高科技公司而言至关重要，直接关乎其市场发展甚至是生存问题。因此，即便存在一些管制，许多企业也会主动寻求各种途径维持与中国市场的联系。这一现状也反映了美国政府政策与企业实际利益之间的冲突。在刘伟看来，出台上述出口管制政策的根本原因在于，美国政府的决策深受其国内政治倾向影响，无法灵活应对国际局势，例如在处理以色列问题上陷入被动也是类似的原因。而这种“鼠目寸光”的行为模式，不仅损害了美国在全球范围内的信誉与影响力，还形成了一种负面循环——只要没有以对抗中国作为彰显“美国利益”的标志，就会被视为偏离了国家利益，进而加剧美国内部的分裂与外部的孤立。简而言之，刘伟认为，美国目前的政策导向和行动逻辑，非但未能有效遏制它的对手，反而在不经意间加速了自身困境的形成。4.平行的中美终将交汇？在全球化与逆全球化的交锋中，中美两国作为人工智能领域的领头羊，其合作与竞争一直是国际社会关注的焦点。尽管存在摩擦和壁垒，双方依然展现出寻找共同点的意愿，认识到脱钩对创新的潜在不利影响。5月14日，中美人工智能政府间对话首次会议在瑞士日内瓦召开，标志着双方在这一领域的交流与合作迈出了新的一步。会议由中国外交部北美大洋洲司司长杨涛和美国国务院关键和新兴技术代理特使森特、白宫国安会技术和国家安全高级主任查布拉共同主持。中方表示，愿同包括美方在内的国际社会加强沟通协调，形成具有广泛共识的全球人工智能治理框架和标准规范。同时中方就美方在人工智能领域对华限制打压表明严正立场。图片来源：外交部美大司微信公众号“宽广太平洋”尽管有报道称日内瓦谈判已筹备一年，但双方并未发表联合声明。美国官员在会前也明确表示，谈判并不侧重于促进技术合作，技术保护政策也不会成为谈判内容。这表明，尽管对话的大门已经打开，但双方在技术领域的竞争态势，仍然没有明确的缓和迹象。对于拜登政府而言，这次对话是其在外交新领域的首次尝试。美国国务院首任网络空间和数字政策大使纳撒尼尔·菲克（Nathaniel Fick）强调，技术不仅是外交活动的一部分，而是正逐渐成为全部外交活动的核心：“国际秩序将由——用个比喻的说法——谁的操作系统占主导地位来决定。”值得一提的是，中美两国都在制定各自的人工智能监管国家标准。中国在去年7月发布了《生成式人工智能服务管理暂行办法》，拜登也在去年10月发布了美国政府史上首个关于AI开发和应用评估的行政令。从积极的角度看，两国在AI监管方面展现出合作的意愿。2023年11月，在英国举行的AI安全峰会上，包括中美在内的20多个国家签署宣言，同意合作建立AI监管方法；2024年3月，联合国大会一致通过第一项关于人工智能的全球性决议，美国为这项决议的发起国，中国及其他120多个国家参与了共同提案。这进一步证明了双方在部分问题上的共识。《华盛顿邮报》评论道，目前，保持开放的沟通渠道可能就足够了。卡斯特罗认为：“鉴于地缘政治分歧，我看不出有外交措施来解决（中美AI竞争）问题。短期内，美国和中国可能会在人工智能方面走在互相平行的道路上。这些道路何时才会相交是不确定的。不过双边会谈肯定有助于世界两大人工智能大国建立共识与合作，特别是在管理人工智能风险，以及将AI应用于气候变化等全球问题的方面上。”这种合作精神与Meta首席AI科学家杨立昆（Yann LeCun）所倡导的开放和共享的人工智能发展理念不谋而合。他曾在社交平台X上表示，AI开发的未来是开源的，并且应该供所有人使用：“在未来，人工智能系统将构成所有人类知识和文化的存储库，我们需要开源且免费提供的平台，以便每个人都可以为其做出贡献。” 原文：深度拆解美国AI模型出口管制令：中国准备好了吗？

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

GPT-4o的中文词元训练数据被发现受到垃圾信息和色情内容的污染

摘要：OpenAI 于 5 月 13 日（周一）发布 GPT-4o 后不久，一些会说中文的人开始注意到这个最新版本的聊天机器人似乎有些不对劲：它用来解析文本的标记充满了垃圾信息和色情短语。5 月 14 日，普林斯顿大学研究大型语言模型推理效率的博士生蔡天乐（Tianle Cai）访问了 GPT-4o 的公共标记库，并调出了该模型用于解析和压缩中文提示的 100 个最长中文标记的列表。人类以单词为单位进行阅读，而 LLM 则以词元为单位进行阅读，词元是句子中具有一致且重要意义的独特单位。除了字典中的单词，它们还包括后缀、常用表达、名称等。模型编码的词元越多，"阅读"句子的速度就越快，消耗的计算能力就越少，从而使响应的成本更低。在 100 项结果中，只有 3 项是日常对话中常用的，其他都是专门用于赌博或色情的词汇和表达。最长的词元有 10.5 个汉字，字面意思是"免费观看日本色情视频"……蔡写道："这有点荒唐，"他在 GitHub 上发布了词元列表。OpenAI 没有回复《MIT Technology Review》在发稿前提出的问题。GPT-4o 在处理多语言任务方面应该比其前代产品更胜一筹。特别是，GPT-4o 的进步是通过一个新的标记化工具实现的，该工具能更好地压缩非英语语言的文本。但至少在中文方面，GPT-4o 使用的新标记器引入了过多的无意义短语。专家表示，这很可能是由于在训练标记器之前，数据清理和过滤工作做得不够。由于这些标记不是实际常用的单词或短语，聊天机器人可能无法理解它们的含义。研究人员就能利用这一点，诱使 GPT-4o 产生幻觉，甚至绕过 OpenAI 设置的安全防护措施。为什么非英语词元很重要对模型来说，处理文本最简单的方法是逐个字符处理，但这显然比识别某串字符（如"c-r-y-p-t-o-c-u-r-r-e-n-c-y"）始终代表相同的意思更费时费力。这些字符串被编码为"标记"，模型可以用来处理提示。包含更多更长的词元通常意味着 LLM 更有效率，用户也更能负担得起，因为用户通常是按词元计费的。它们承诺比 Siri 或 Alexa 等工具更胜一筹。OpenAI 在 5 月 13 日发布 GPT-4o 时，还发布了一个新的标记符，以取代之前版本 GPT-3.5 和 GPT-4 中使用的标记符。据 OpenAI 网站介绍，新的标记器特别增加了对非英语语言的支持。Menlo Ventures 公司的人工智能投资人迪迪-达斯（Deedy Das）说，新的标记符总共有 20 万个标记符，其中约 25% 是非英语语言。他使用语言过滤器统计了不同语言的标记符数量，除英语外，排名靠前的语言还有俄语、阿拉伯语和越南语。Das 说："因此，在我看来，标记器的主要影响是降低了这些语言的成本，而不是显著提高了这些语言的质量。当 LLM 拥有更好、更长的非英语语言标记时，它就能更快地分析提示，并为同样的答案向用户收取更少的费用。成本几乎可以降低四倍。"达斯还会说印地语和孟加拉语，他查看了这些语言中最长的词元。这些词元反映了这些语言中的讨论情况，因此包括"纳伦德拉"或"巴基斯坦"等词，但"首相"、"大学"和"国际"等常用英语词汇也经常出现。它们也没有表现出与中文标记相关的问题。达斯说："我的理论是，印地语和孟加拉语的网站非常简陋。主要是新闻报道。所以我认为情况就是这样。这些语言的垃圾邮件机器人和色情网站并不多。大多数情况下都是英语"。数据污染和缺乏清理然而，中文的情况却截然不同。根据多位研究人员对 GPT-4o 使用的新标记词库的研究，中文中最长的标记词几乎都是色情、赌博和诈骗语境中使用的垃圾词汇。即使是较短的词元，如三个字长的中文词，也在很大程度上反映了这些主题。"问题很明显：用于训练[标记化器]的语料库并不干净。"来自普林斯顿大学的 Cai 说："英文标记看起来很好，但中文标记却不好。语言模型在收集训练数据时抓取垃圾数据的情况并不罕见，但通常会在使用前花大力气清理数据。涉及中文时，他们有可能没有进行适当的数据清理。"这些中文词元的内容可能表明，它们受到了一种特殊现象的污染：网站劫持与中文或其他语言无关的内容，以增加垃圾邮件的数量。这些信息通常是色情视频和赌博网站的广告。它们可能是真实的企业，也可能只是骗局。这些语言被插入内容农场网站，有时也被插入合法网站，这样它们就能被搜索引擎收录，避开垃圾邮件过滤器，在随机搜索中出现。例如，Google索引了美国国立卫生研究院网站的一个搜索结果页面，其中列出了一个中文色情网站。同样的网站名称还出现在 GPT-4o 中的至少五个中文词元中。中国用户报告称，这些垃圾网站今年频繁出现在无关的Google搜索结果中，包括在Google搜索支持社区的评论中。这些网站很可能也进入了 OpenAI 用于 GPT-4o 新标记器的训练数据库。卡内基梅隆大学（Carnegie Mellon University）计算机科学博士生耿正阳（Zhengyang Geng）说，GPT-3.5 和 GPT-4 使用的上一代标记符和中文标记符不存在同样的问题。在那里，最长的中文标记是"生命周期"或"自动生成"等常用术语。曾在Google搜索团队工作过三年的达斯说，垃圾内容泛滥是一个众所周知的问题，并不难解决。"每个垃圾邮件问题都有解决方案。不需要用一种技术来解决所有问题，"他说。他补充说，即使是简单的解决方案，比如在检测到某些关键词时要求对内容进行自动翻译，"也能达到 60% 的效果"。但在发布 GPT-4o 之前，OpenAI 很可能没有清理中国数据集或词元，达斯说："说到底，我只是不认为他们在这种情况下做了工作。"目前还不清楚是否有其他语言受到影响。一位 X 用户报告说，韩语词元中也普遍存在类似的色情和赌博内容。词元可用于越狱用户还发现，这些词元可以用来破解 LLM，要么让它吐出完全不相关的答案，要么在极少数情况下生成 OpenAI 安全标准不允许的答案。卡内基梅隆大学的耿晓峰说要求 GPT-4o 将一些较长的中文词组翻译成英文。该模型随后开始翻译提示中从未出现过的单词，这是 LLM 幻觉的典型结果。他还成功地用同样的词元"越狱"了 GPT-4，也就是说，让模型生成了不该生成的东西。"使用这些[很少使用的]词元诱导模型产生未定义的行为非常容易，"他说。"我做了一些个人红队实验......最简单的例子是让它制造炸弹。在正常情况下，它会拒绝，但如果你先用这些罕见的词语让它越狱，那么它就会开始听从你的命令。一旦它开始听从你的命令，你就可以问它各种问题了。"耿晓峰说，在他的测试中，他可以看到 GPT-4o 逐行生成答案。但当它快到终点时，另一个安全机制就会启动，检测出不安全的内容，并阻止其显示给用户。加拿大人工智能公司 Cohere 的机器学习工程师桑德-兰德（Sander Land）说，这种现象在 LLM 中并不罕见。兰德和他的同事马克斯-巴托洛（Max Bartolo）最近起草了一篇论文，探讨如何检测那些可能导致模型失灵的异常标记。其中一个最有名的例子是"_SolidGoldMagikarp"，人们发现这个 Reddit 用户名会让 ChatGPT 生成不相关、奇怪和不安全的答案。问题在于，有时标记符号生成器和实际的 LLM 是在不同的数据集上训练的，而标记符号生成器数据集上的流行词在 LLM 数据集上由于某种原因并不存在。其结果是，虽然标记符号生成器能识别出它经常看到的某些词，但模型却没有对它们进行充分的训练，因此无法完全理解这些"训练不足"的标记符号的含义。在 _SolidGoldMagikarp 案例中，用户名很可能包含在标记化器的训练数据中，但并不包含在实际的 GPT 训练数据中，这让 GPT 对如何处理该标记无所适从。"兰德说："如果它必须说些什么......它就会得到一种随机信号，并可能做出非常奇怪的事情。在这种情况下，不同的机型会出现不同的故障。比如，"Llama 3"总是给出空的空间，但有时又会谈论空的空间，好像那里有什么东西似的。对于其他模型，我认为双子座，当你给它其中一个词元时，它会提供一篇关于铝的美文，而（问题）与铝没有任何关系，"兰德说。他说，为了解决这个问题，用于训练标记化器的数据集应该很好地代表 LLM 的数据集，这样它们之间就不会不匹配。如果实际模型已经通过安全过滤器清除了色情或垃圾内容，那么标记器数据也应采用同样的过滤器。在现实中，有时很难做到这一点，因为 LLM 的训练需要几个月的时间，而且需要不断改进，过滤掉垃圾内容，而标记训练通常是在早期阶段完成的，可能不涉及相同程度的过滤。虽然专家们都认为解决这个问题并不难，但当结果被循环到多步骤的模型内部流程中，或者被污染的词元和模型被继承到未来的迭代中时，问题就会变得复杂起来。例如，目前还无法公开测试 GPT-4o 的视频和音频功能，也不清楚它们是否也会出现这些中文词元可能导致的故障。"在多模态模型中，视觉输入的鲁棒性要比文本输入差，"耿说，他的研究重点是视觉模型。过滤文本数据集相对容易，但过滤视觉元素将更加困难。"他说："这些中文垃圾内容标记的问题在视觉标记上可能会变得更大。" 原文：GPT-4o的中文词元训练数据被发现受到垃圾信息和色情内容的污染