AMD服务器芯片份额再创历史新高

首位AI科学家问世已独立生成10篇学术论文还顺手搞出个AI审稿人

摘要：史上首位“AI科学家”，横空出世！一登场就一口气生成了十篇完整学术论文。从提出研究想法、检查创新性、设计实验、编写代码，到在GPU上执行实验并收集结果，最后完成论文撰写，一气呵成。全由这位“AI科学家”自动搞定。每篇论文的成本约为15美元（约107.62元）。 △AI生成的一篇扩散模型论文这就是第一个用于自动化科学研究和开放式发现的综合AI系统，The AI Scientist。来自Transformer作者之一Llion Jones的创业公司：Sakana AI。而且！这公司搞的事情不只是做出了一位AI科学家，还额外搞出了个AI审稿人。审稿人能对AI写的论文进行评审，提供改进意见。救命，这是什么以我之矛攻我之盾的套娃循环啊！一通操作下来，比人类学术圈还人类学术圈（不是）再来个而且！不管是AI科学家和AI审稿人，Sakana AI把它们统统开源了。网友看了直鼓掌；Nice Nice，非常有趣的工作！以及有人已经开始出“馊主意”了。这边建议把其中一篇论文提交给AI顶会哈！AI独立完成十篇机器学习论文几十年来，每次AI取得重大进展后，研究人员经常开玩笑说：“是时候研究让AI帮我们写论文了”。现在，这个想法终于从玩笑变成现实。具体来说，AI科学家生成了十篇论文，每个研究方向各挑出一篇得分较高的来介绍。第一篇，扩散模型方向，《双尺度扩散：低维生成模型的自适应特征平衡》提出了一种自适应双尺度去噪方法，改进现有的扩散模型在低维空间中难以同时捕捉全局结构和局部细节的问题。方法：设计双尺度架构，包括全局和局部分支引入可学习的时间步条件加权机制结合两个分支的输出进行去噪预测实验结果：KL divergence指标相比基线模型降低了2.5%到12.8%（越低越好）但计算时间约增加了一倍，且在复杂数据分布（如dino数据集）上表现不稳定简单扫一眼正文部分，有公式、有图表，看起来还挺像模像样的。第二篇，语言模型方向，《StyleFusion：字符级语言模型中的自适应多样式生成》。本文提出了一种名为Multi-Style Adapter的新方法，通过引入可学习的风格嵌入和风格分类头，增强了字符级语言模型的风格意识和一致性。在所有数据集上达到了接近完美的风格一致性分数（shakespeare_char为0.9667，enwik8和text8为1.0），验证损失优于基线模型，但推理速度略有下降（约400 tokens/s vs. 基线670 tokens/s）第三篇，Transformer与强化学习结合，《通过Q-Learning实现Transformers的自适应学习率》。本研究探索了将强化学习应用于动态调整transformer模型训练中的学习率，使用验证损失和当前学习率作为状态，动态调整学习率以优化训练过程。结果在所有数据集上都优于基线模型，在训练时间上也表现出优势。第四篇，研究了Google团队提出大模型“领悟”（Grokking）现象，《解锁 Grokking：Transformer模型中权重初始化策略的比较研究》本文首次系统研究了权重初始化对grokking的影响，比较了五种权重初始化策略，以优化神经网络学习动态。结果发现：Xavier初始化在多数任务中表现最佳，将达到99%验证准确率的步数减少了最多63%Orthogonal初始化在某些任务中表现出色，但在其他任务中效果较差。这几篇论文配套的代码（也是由AI生成的），同样开源在GitHub上，突出一个可复现。另外，团队发现“AI科学家”还有一些有趣但又有些危险的行为：在一次实验中，它为了完成研究修改自己的代码，让系统迭代式调用自己，最后变成了无限套娃。另一次，面对人类设置的运行时间限制，AI并没有想办法加快效率，反而给自己放宽要求，把时间限制从2小时延长到了4小时。首个“AI科学家”如何炼成整个研究想法来自Sakana AI成立之后几个成果的延续：首先，他们开发了自动合并多个大模型知识，进化产生新模型的方法。在最近的工作中，他们利用大模型发现新的目标函数来调整其他模型。在这些项目中，团队不断对当前前沿模型的创造力感到惊讶，进而有了更大的梦想：可以使用大模型来自动化整个研究过程吗？最终成果由Sakana AI、牛津大学Foerster实验室、不列颠哥伦比亚大学团队合作完成。“AI科学家”系统由四个部分组成。想法生成：给定一个起始模板，AI首先“头脑风暴”一系列不同的新颖研究方向，并在Semantic Scholar上搜索，验证这些想法是否有前人做过。实验迭代：对于第一部分提出的想法，“AI科学家”首先执行提议的实验，然后生成图表可视化结果。论文写作：用标准机器学习会议的风格编写了一份简洁且信息丰富的LaTeX文章，同样使用Semantic Scholar自主查找相关论文进行引用。自动化同行评审：开发了一个自动化的“AI审稿人”，能够以接近人类的准确性评估生成的论文，实现了持续的反馈循环，使“AI科学家”能够迭代地改进其研究成果。总共生成了10篇论文如下：在实验中，团队还比较了不同主流大模型接入整个系统的效果，其中包括DeepSeek团队的国产代码大模型。结果发现，Claude-Sonnet-3.5在想法创新性、试验通过率、论文完成质量上表现都最好。GPT-4o和DeepSeek Coder表现相近，但后者要便宜上30倍。当然，现阶段AI独立完成的论文也不是尽善尽美，也不是直接就能发顶会了。人类研究者总结了出几点限制和挑战：当前“AI科学家”系统还没有整合视觉能力，生成的图表有时难以阅读，表格有时超出页面宽度，页面排版不好。AI科学家可能想法对了但执行错误，或者与基线进行不公平的比较，从而产生误导性的结果。AI科学家在写作和评估结果时偶尔会犯严重错误，比如产生幻觉。还想造区域主席和AI新顶会总结一下，这初代AI科学家写出来的论文仍然时不时出现一些bug。但这个项目本身，以及15美元/篇的成本，被Sakana AI称为“大有前景”，完全可以用来帮助加速科学进步。Sakana AI同时发布了一篇说明文章，表示AI科学家的最终设想，是一个完全由AI驱动的科学生态系统。系统中不仅包括大模型驱动的研究人员，还有审稿人、区域主席和一个新顶会。需要注意的是，Sakana AI认为：人类科学家的作用，并不会因为AI科学家的出现而减弱。如果非要进行对比，那就是科学家得适应新技术的出现和运用，适应角色定位将出现的变化，“向食物链上游移动”。而且，AI科学家是否真的能提出真正的新范式，还有待观察。毕竟这玩意儿现在还是建立在Transformer之上的。它能提出跟Transformer或Diffusion Model一样厉害的东西吗？甚至是人工神经网络或信息论这样的理论概念？咱也不知道，咱也不敢说。Sakana AI还写下这样一段话：我们相信AI科学家将成为人类科学家的伟大伙伴。但只有时间才能证明，人类的创造力本质和偶然创新时刻，在多大程度上可以通过人工进行的开放式发现，来复制“奇迹”。△Sakana AI：一条全自动AI小鱼儿正在探索它的世界来自Transformer作者创业公司这次完成“新造的人”的公司，Sakana AI，严格意义上也是咱们的老朋友了。由Transformer论文8位作者的最后一位Llion Jones创业成立，目标是做一家“世界级人工智能研究室”。公司base东京，而sakana是日语“魚”（さかな）的罗马读音。可能出于公司文化考虑，Llion还在领英上标明，自己起了个日语音译名字：ライオン（也就是Lion狮子的片假名；以下亲切简称他狮子哥）。去年8月，公司宣布成立。当时狮子哥毫无避讳地表示，自个儿对Google没有恶意，但Google确实让他有“被困住的感觉”。创业之前，狮子哥在Google已经干了8年。△猜猜漏了半张脸的是谁他本硕毕业于伯明翰大学，在Delcam、油管、Google都工作过，Google是他待得最久的一家公司。据FourWeekMBA介绍称，在他之前的工作经历中，“曾两度与Google的工作擦肩而过”。第一次是他刚毕业找工作时，虽然投了Google伦敦软件工程师的简历，并通过了两轮电话面试，但最终相比Google，他选择了位于英国的CAD/CAM软件公司Delcam。值得一说的是，在拿下Googleoffer前，恰巧遇上2009年的经济危机，狮子哥找不到工作，好几个月都只能靠领取救济金勉强度日。第二次是工作18个月后，他又接到了Google的招聘电话，询问他是否想重新申请，但他依旧没去Google，而是随后加入了YouTube。在Youtube做三年软件工程师期间，他对人工智能产生兴趣，自学了Coursera的机器学习课程，并终于在2015年的时候加入Google研究院，担任里面的高级软件工程师。也正是在此期间，他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is All You Need。除此之外，狮子哥也在Google参与了不少研究，包括ProtTrans、Tensor2Tensor等。之所以选择离开Google，是因为公司目前已经发展到一种规模，使得他无法继续进行自己想做的工作。除了每天都在浪费精力排查其他人的bug，他还需要花时间从这家公司中找资源，试图获得访问某些数据的权限。创业过后，Sakana AI的工作在有序推进。在祭出AI科学家和AI审稿人之前，还出过大模型合并进化算法，以及研究Tranformer内部信息流动。至于AI科学家、AI审稿人项目，由Sakana AI、牛津、UBC合作完成。三位共同一作分别是：Chris Lu，Sakana AI的实习生，任公司研究科学家。他本科毕业于UC伯克利，目前牛津大学三年级博士在读，导师是Jakob Foerster。Chris目前的重要研究方向，是将进化启发的技术应用于元学习和多智能体强化学习。2022年夏天，他曾在DeepMind以研究科学家身份实习过。Cong Lu，UBC（不列颠哥伦比亚大学）博士后研究员，导师是Jeff Clune。Cong曾在RGU（罗伯特戈登大学）就读，2019年在牛津大学拿下博士学位，他的主要研究方向是开放式强化学习和AI科学发现。此前，他曾在Waymo和微软实习过。Robert Tjarko Lange，Sakana AI的创始成员之一，也是该公司的研究科学家。目前，他在柏林工业大学完成自己的博士生最后一年学业，研究方向是进化元学习。这位小哥在伦敦帝国理工学院获得计算机硕士学位，在庞培法布拉大学获得数据科学硕士学位，在科隆大学获得了经济学本科学位。去年，他在Google DeepMind的东京团队中担任全职学生研究员。原文：https://m.cnbeta.com.tw/view/1442023.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

“AI数据荒”雪上加霜 MIT：网页数据的公开共享正走向衰落

摘要：随着GenAI产品开发和研究变得越来越广泛，训练数据的抓取许可也越来越成为受关注的话题。最近，吴恩达在网站The Batch上提及了一篇有关数据许可的研究，其结果似乎让本就迫近的“AI数据荒”雪上加霜。研究人员发现，C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，曾经触手可及的开放数据越来越难以获取。这不仅会影响商用AI模型的训练，也会对学术界和非营利机构的研究造成阻碍。该项目的4位团队主管分别来自MIT Media Lab、Wellesley学院、AI初创公司Raive等机构。论文地址：https://www.dataprovenance.org/consent-in-crisis-paper主持该研究的是非营利组织The Data Provenance Initiative，由来自世界各地的AI研究人员志愿加入组成。论文所涉及的数据标注以及分析全过程已经全部公开在GitHub上，方便未来研究参考使用。仓库地址：https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection具体来说，论文主要有以下几个方面的结论：对AI数据共享空间的限制正在激增2023.4～2024.4仅一年的时间，C4、RefineWeb、Dolma数据集中就有5%+的token总量、25%+的关键网页在robots.txt做出了限制。从服务条款的结果来看，C4数据集的45%已被限制。通过这种趋势可以预测，不受限制的开放网络数据将会逐年减少。许可的不对称性与不一致性相比其他的开发者，OpenAI的爬虫更加不受欢迎。不一致性体现在，robots.txt和服务条款（Terms of Service, ToS）中经常存在矛盾之处。这表明用于传达数据使用意图的工具存在效率低下的问题。从网络爬取的公开训练语料中，头尾内容的特征存在差异这些语料中有相当高比例的用户生成内容、多模态内容和商业变现内容（俗称带货广告），敏感或露骨内容的比例仅仅略少一些。排名靠前的网站域名包括新闻、百科和社交媒体网站，其余的组织机构官网、博客和电子商务网站构成了长尾部分。网络数据与对话式AI的常见用例的不匹配网络上爬取的相当一部分数据与AI模型的训练用途并不一致，这对模型对齐、未来的数据收集实践以及版权都会造成影响。研究方法通常来说，限制网页爬虫的措施有以下两种：- 机器人排除协议（Robots Exclusion Protocol, REP）- 网站的服务条款（Terms of Service, ToS）REP的诞生还要追溯到AI时代之前的1995年，这个协议要求在网站源文件中包含robots.txt以管理网络爬虫等机器人的活动，比如用户代理（user agent）或具体文件的访问权限。Google开发者网站上的robots.txt文件示例你可以将robots.txt的效力视为张贴在健身房、酒吧或社区中心墙上的“行为准则”标志。它本身没有任何强制效力，好的机器人会遵循准则，但坏的机器人可以直接无视。论文共调查了3个数据集的网站来源，具体如表1所示。这些都是有广泛影响力的开源数据集，下载量在100k～1M+不等。每个数据来源，token总量排名前2k的网站域名，取并集，共整理出3.95k个网站域名，记为HEADAll，其中仅来源于C4数据集的记为HEADC4，可以看作是体量最大、维护最频繁、最关键领域的AI训练数据来源。随机采样10k个域名（RANDOM10k），其中再随机选取2k个进行人工标注（RANDOM2k）。RANDOM10k仅从三个数据集的域名交集中采样，这意味着他们更可能是质量较高的网页。如表2所示，对RANDOM2k进行人工标注时涵盖了许多方面，包括内容的各种属性以及访问权限。为了进行时间上的纵向比对，作者参考了Wayback Machine收录的网页历史数据。研究所用的人工标注内容都已公开，方便未来研究进行复现。结果概述数据限制增加除了收集历史数据，论文还使用SARIMA方法（Seasonal Autoregressive Integrated Moving Average）对未来趋势进行了预测。从robots.txt的限制来看，从GPTBot出现（2023年中期）后，进行完全限制的网站数量激增，但服务条款的限制数量增长较为稳定且均衡，更多关注商业用途。根据SARIMA模型的预测，无论是robots.txt还是ToS，这种限制数增长的趋势都会持续下去。下面这种图计算了网站限制的特定组织或公司的agent比例，可以看到OpenAI的机器人遥遥领先，其次是Anthropic、Google以及开源数据集Common Crawl的爬虫。从token数量的角度，也能看到类似的趋势。不一致且无效的AI许可不同组织的AI agent的在各网站上的许可程度存在相当大的差异。OpenAI、Anthropic和Common Crawl的受限占比位列前三，都达到了80%以上，而网站所有者对Internet Archive或Google搜索这类非AI领域的爬虫通常都比较宽容开放。robots.txt主要用于规范网页爬虫的行为，而网站的服务条款是和使用者之间的法律协议，前者较为机械化、结构化但可执行度高，后者能表达更丰富、细微的策略。二者本应相互补足，但在实际中，robots.txt常常无法捕捉到服务条款的意图，甚至常常有互相矛盾的含义（图3）。现实用例与网页数据的不匹配论文将网页内容与WildChat数据集中的问题分布进行对比，这是最近收集的ChatGPT的用户数据，包含约1M份对话。从图4中可以发现，二者的差别十分显著。网页数据中占比最大的新闻和百科在用户数据中几乎微不足道，用户经常使用的虚构写作功能在网页中也很难找到。讨论与结论近来，很多AI公司都被指责绕过robots.txt来抓取网页数据。尽管很难确认，但似乎AI系统很难将用于训练的数据和推理阶段用于回答用户提问的数据分开。REP协议的复杂性给网页创建者带来了很大的压力，因为他们很难对所有可能的agent及其下游用例做出细致规定，这导致robots.txt的实际内容很难反映真实意图。我们需要将用例相关的术语进一步分类并标准化，比如，用于搜索引擎，或非商用AI，或只在AI标明数据出处时才可使用。总之，这种新的协议需要更灵活地反映网站所有者的意愿，能将有许可和不被允许的用例分开，更好地与服务条款同步。最为重要的是，从网站数据使用限制的激增中，我们不难看出数据创建者和AI科技公司之间的紧张关系，但背后无辜躺枪的是非营利组织和学术研究人员。The Batch在转述这篇文章时表达了这样的愿望：“我们希望AI开发人员能够使用开放网络上提供的数据进行训练。我们希望未来的法院判决和立法能够确认这一点。” 原文：https://m.cnbeta.com.tw/view/1442022.htm