Search Articles/Users
Follow

Last Followed

Last Updated

Username

2022

Ava Gregoraci · Jun 11,2023 10:22

No Access Permission

Your user group (LV1) does not have permission to view this content (LV2)

Cancel

Save to
FebBox

TV Shows

Jun 11,2021 13:33

Add

Add New Folder

FebBox Insufficient Available Space

1056.56 GB of 1000 GB Used

Your FebBox requires more storage space to save files. Please upgrade your membership, purchase additional space, or organize your FebBox storage space to continue saving.

Buy Extra Space

Return the root directory, Clean up space

cnBeta中文业界资讯网

8 Followers

20909 Articles

cnBeta.com成立于 2003 年,是中国领先的即时科技资讯站点,已成为重要的互联网IT消息集散地,提供软件更新,互联网、IT业界资讯、评论、观点和访谈。

我们的核心竞争力:快速响应;报道立场公正中立;尽可能提供关联信息;网友讨论气氛浓厚。

我们致力于奉献适合中文读者阅读的科技资讯,呈现科技如何影响人们生活的报道。
Put away

More

Recent

出师不利难改苹果布局AR决心 三款产品正在开发中

摘要:知名科技记者马克·古尔曼(Mark Gurman)在《Power On》中爆料称,苹果专注于AR技术的Vision团队,正在持续试验开发多款产品,包括:一款AR眼镜;一款计划明年推出的“平价版Vision Pro”;以及功能更为完备,但尚不知何时发布的第二代Vision Pro。 据古尔曼透露,正在开发的AR眼镜不会像Vision Pro一样配备抬头显示系统(HUD,Heads Up Display),用户需通过眼镜自带的摄像头检测视线内的物体,并通过AI大模型加持的语音助理进行互动。从外观上来看,这款没有HUD的智能眼镜或类似于Meta的Ray Ban眼镜。图为Ray Ban眼镜今年上线的苹果初代Vision Pro,由于笨重的设计、高昂的价格等“槽点”,而遭遇市场冷落。市场追踪机构IDC数据显示,售价3500美元的Vision Pro自2月推出以来,一个季度的销量尚未达到10万台,第三季度销量将下降75%,预测今年该设备销量不会超过50万台。但从苹果Vision团队围绕产品开发的频繁动作来看,该公司似乎并未受到初代产品销量放缓的影响。前不久,苹果还获得了关于Vision Pro头显的新专利,用户可以自定义手势,来实现不同的交互响应,这让本就备受瞩目的平价版Vision Pro更令市场期待。据悉,平价版Vision Pro内部代号为Project Alaska,预计在2025年发布。其于功能上保持了初代的高分辨率显示屏及手势和眼动追踪并举的互动方式,外观上也接近原版。但真正值得一提的是,该产品的价格将会是现有Vison Pro的一半,重量也会有所减轻。不过,古尔曼仍抱有怀疑态度地表示,这类设备尚未引起消费者的注意,如果便宜型号的价格仍不低于1500美元,则该类产品仍然只能是小众产品。另据该爆料人透露,这款产品的FOV视角将会更窄,需要连接Mac或iPhone才能使用,苹果希望“努力降低成本的同时保留关键功能。”市场调研机构Omdia报告显示,苹果Vision Pro目前使用的Micro-OLED面板单块成本为300美元,这意味着在Vision Pro的3500美元售价中左右眼两块显示面板共计占据600美元成本。随着时间推移,这些Micro-OLED价格有望逐渐下降,预计2025年单块面板的成本将降至250美元,到2026年时价格将降至210美元,相比目前单块300美元的价格降低30%。 原文:https://m.cnbeta.com.tw/view/1442017.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

AMD服务器芯片份额再创历史新高

摘要:根据 CPU 市场追踪机构 Mercury Research的最新报告,AMD 在 2024 年第二季度又度过了一个出色的季度,因为它在数据中心和笔记本电脑 CPU 市场的份额有所增加。不过,英特尔在台式机市场的份额有所增加,并且在总体销量方面继续保持领先地位。 2024 年第二季度,英特尔继续主导客户端 PC 市场,占据 78.9% 的市场份额,而 AMD 则占据 21.1% 的市场份额。考虑到英特尔客户端产品阵容的实力和多样性,这一结果是意料之中的。尽管如此,AMD 的出货量份额仍环比增长 0.5%,同比增长 3.8%。尽管 AMD 取得了持续的成功,但该公司可能需要数年时间才能实现完全改变市场格局所需的销售增长,这不仅是因为英特尔在企业 PC 销售中占据主导地位,还因为英特尔拥有巨大的生产能力。2024 年第二季度,AMD 在台式电脑市场向英特尔丢掉了 1% 的市场份额,目前占据 23% 的市场份额,英特尔则占据 77% 的市场份额。考虑到 AMD 正准备在 8 月发布其全新的基于 Zen 5 的台式机 CPU,我们怀疑该公司在向渠道投放上一代基于 Zen 4 的产品时是否过于激进,这可能是该公司向竞争对手丢掉一小部分市场份额的原因之一。不过,与 2023 年第二季度相比,AMD 在 2024 年第二季度的份额增长了 3.6%,这是一个相当不错的成绩。在笔记本电脑方面,AMD 的销量环比和同比均有所增长。2024 年第二季度,该公司占据了笔记本电脑 x86 处理器的 20.3%:比今年第一季度高出 1%,比去年同期高出 3.8%。显然,即使即将推出基于 Zen 5 的 Ryzen AI 和 Copilot+ 以及 AI PC 热潮,也预计不会降低 AMD 现有笔记本电脑产品的需求,这就是 PC 制造商加速购买这些产品的原因。AMD 成功的另一个原因可能是英特尔在供应足够的 Meteor Lake PC 方面存在问题。尽管如此,AMD 似乎并没有卖出很多昂贵的(不过,“昂贵”并不意味着最高端)Ryzen CPU。其笔记本电脑 CPU 收入份额为 17.7%,远低于其 20.3% 的单位市场份额。同样,AMD 的地位有所改善,因为与今年第二季度相比,它的收入份额增加了 2.8%,与 2023 年第二季度相比,收入份额增加了 4.5%。AMD 第二季度最大的成功可能在于服务器领域。该公司成功从英特尔手中夺取了 0.5% 的份额,目前凭借其 EPYC CPU 控制着数据中心 CPU 市场 24.1% 的份额。与 2024 年第二季度相比,AMD 的增长看起来更加令人印象深刻,因为该公司从英特尔手中夺取了 5.6% 的份额。尽管英特尔在出货量方面占据无可争议的领先地位,因为它在第二季度仍然控制着数据中心 CPU 出货量的 75.9% 左右,但值得注意的是,AMD 似乎在需要最强大和最昂贵处理器的高端顶级机器方面处于领先地位,这一点我们可以从两家公司 2024 年第二季度的财务业绩中得出结论。英特尔通过 销售 75.9% 的数据中心 CPU  (以单位计算)赚取了 30 亿美元,而 AMD 通过销售 24.1% 的服务器 CPU(以单位计算)赚取了 28 亿美元 ,这表明 AMD EPYC 的平均售价远高于英特尔至强的平均售价。参考链接https://www.tomshardware.com/pc-components/cpus/amd-records-its-highest-server-market-share-in-decades-but-intel-fights-back-in-client-pcs 原文:https://m.cnbeta.com.tw/view/1442025.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

AMD花费47.7亿元完成收购欧洲第一私人AI实验室Silo AI

摘要:AMD官方宣布,已经完成对Silo AI的收购工作,这是欧洲最大规模的私人AI实验室。交易价值约6.65亿美元,按最新汇率折合人民币47.7亿元,AMD全部以现金支付。这是Google 2014年以约4亿英镑收购英国DeepMind以来,欧洲最大规模的一笔私人AI创新公司并购案。 Silo AI将加入AMD AIG(人工智能事业部),领导人是AMD高级副总裁Vamsi Boppana。AMD表示,收购Silo AI体现了AMD基于开放标准提供端到端AI解决方案的决心,以及与全球AI生态系统的良好合作关系。Silo AI总部位于芬兰赫尔辛基,业务遍及欧美,为AMD带来了世界级的AI科学家、工程师团队,尖端的AI模型、平台和方案(尤其是开源大语言模型Poro、Viking),以及安联人寿、飞利浦、劳斯莱斯、联合利华等大型企业级客户。过去一年来,AMD连续投资了十几家AI公司,总额超过1.25亿美元,还收购了Mipsology、Nod.ai。 原文:https://m.cnbeta.com.tw/view/1442021.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

《变形金刚》推出全新青少年漫画 主角被称为史上最烂机器人

摘要:诞生于1984年的《变形金刚》,已经在动画、玩具、漫画、电影等多个领域发展出多个系列作品,近日又有一部全新的面向青少年的《变形金刚》原创图画小说公布,而其主角则被称为是“史上最烂机器人”。 这部名为《变形金刚:史上最烂机器人:会见原子笔》的图像小说,从标题就将内容展现的淋漓尽致,主角是一位以邪恶著称的霸天虎成员,但它却是霸天虎中最失败的那一位,因为它仅仅能变成一支原子笔。官方在简介中还提到,原子笔“在最近一次试图打败汽车人的尝试以可怕的失败告终后,他被永远踢出了霸天虎”,而“原子笔能否通过独自击败汽车人来证明自己的价值?还是他会不断失败并发现成为‘最优秀’的人……并非易事?”。作为《变形金刚》目前作品中比较有趣的一个概念角色,《变形金刚:史上最烂机器人:会见原子笔》将是Skybound Comet(为Skybound Entertainment新成立的出版公司,专注于年轻读者)的第一部作品,由作家Brian 'Smitty' Smith和艺术家Marz Jr创作,会作为一系列原创图画小说中的第一部登场。 原文:https://m.cnbeta.com.tw/view/1442024.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

首位AI科学家问世 已独立生成10篇学术论文 还顺手搞出个AI审稿人

摘要:史上首位“AI科学家”,横空出世!一登场就一口气生成了十篇完整学术论文。从提出研究想法、检查创新性、设计实验、编写代码,到在GPU上执行实验并收集结果,最后完成论文撰写,一气呵成。全由这位“AI科学家”自动搞定。每篇论文的成本约为15美元(约107.62元)。 △AI生成的一篇扩散模型论文这就是第一个用于自动化科学研究和开放式发现的综合AI系统,The AI Scientist。来自Transformer作者之一Llion Jones的创业公司:Sakana AI。而且!这公司搞的事情不只是做出了一位AI科学家,还额外搞出了个AI审稿人。审稿人能对AI写的论文进行评审,提供改进意见。救命,这是什么以我之矛攻我之盾的套娃循环啊!一通操作下来,比人类学术圈还人类学术圈(不是)再来个而且!不管是AI科学家和AI审稿人,Sakana AI把它们统统开源了。网友看了直鼓掌;Nice Nice,非常有趣的工作!以及有人已经开始出“馊主意”了。这边建议把其中一篇论文提交给AI顶会哈!AI独立完成十篇机器学习论文几十年来,每次AI取得重大进展后,研究人员经常开玩笑说:“是时候研究让AI帮我们写论文了”。现在,这个想法终于从玩笑变成现实。具体来说,AI科学家生成了十篇论文,每个研究方向各挑出一篇得分较高的来介绍。第一篇,扩散模型方向,《双尺度扩散:低维生成模型的自适应特征平衡》提出了一种自适应双尺度去噪方法,改进现有的扩散模型在低维空间中难以同时捕捉全局结构和局部细节的问题。方法:设计双尺度架构,包括全局和局部分支引入可学习的时间步条件加权机制结合两个分支的输出进行去噪预测实验结果:KL divergence指标相比基线模型降低了2.5%到12.8%(越低越好)但计算时间约增加了一倍,且在复杂数据分布(如dino数据集)上表现不稳定简单扫一眼正文部分,有公式、有图表,看起来还挺像模像样的。第二篇,语言模型方向,《StyleFusion:字符级语言模型中的自适应多样式生成》。本文提出了一种名为Multi-Style Adapter的新方法,通过引入可学习的风格嵌入和风格分类头,增强了字符级语言模型的风格意识和一致性。在所有数据集上达到了接近完美的风格一致性分数(shakespeare_char为0.9667,enwik8和text8为1.0),验证损失优于基线模型,但推理速度略有下降(约400 tokens/s vs. 基线670 tokens/s)第三篇,Transformer与强化学习结合,《通过Q-Learning实现Transformers的自适应学习率》。本研究探索了将强化学习应用于动态调整transformer模型训练中的学习率,使用验证损失和当前学习率作为状态,动态调整学习率以优化训练过程。结果在所有数据集上都优于基线模型,在训练时间上也表现出优势。第四篇,研究了Google团队提出大模型“领悟”(Grokking)现象,《解锁 Grokking:Transformer模型中权重初始化策略的比较研究》本文首次系统研究了权重初始化对grokking的影响,比较了五种权重初始化策略,以优化神经网络学习动态。结果发现:Xavier初始化在多数任务中表现最佳,将达到99%验证准确率的步数减少了最多63%Orthogonal初始化在某些任务中表现出色,但在其他任务中效果较差。这几篇论文配套的代码(也是由AI生成的),同样开源在GitHub上,突出一个可复现。另外,团队发现“AI科学家”还有一些有趣但又有些危险的行为:在一次实验中,它为了完成研究修改自己的代码,让系统迭代式调用自己,最后变成了无限套娃。另一次,面对人类设置的运行时间限制,AI并没有想办法加快效率,反而给自己放宽要求,把时间限制从2小时延长到了4小时。首个“AI科学家”如何炼成整个研究想法来自Sakana AI成立之后几个成果的延续:首先,他们开发了自动合并多个大模型知识,进化产生新模型的方法。在最近的工作中,他们利用大模型发现新的目标函数来调整其他模型。在这些项目中,团队不断对当前前沿模型的创造力感到惊讶,进而有了更大的梦想:可以使用大模型来自动化整个研究过程吗?最终成果由Sakana AI、牛津大学Foerster实验室、不列颠哥伦比亚大学团队合作完成。“AI科学家”系统由四个部分组成。想法生成:给定一个起始模板,AI首先“头脑风暴”一系列不同的新颖研究方向,并在Semantic Scholar上搜索,验证这些想法是否有前人做过。实验迭代:对于第一部分提出的想法,“AI科学家”首先执行提议的实验,然后生成图表可视化结果。论文写作:用标准机器学习会议的风格编写了一份简洁且信息丰富的LaTeX文章,同样使用Semantic Scholar自主查找相关论文进行引用。自动化同行评审:开发了一个自动化的“AI审稿人”,能够以接近人类的准确性评估生成的论文,实现了持续的反馈循环,使“AI科学家”能够迭代地改进其研究成果。总共生成了10篇论文如下:在实验中,团队还比较了不同主流大模型接入整个系统的效果,其中包括DeepSeek团队的国产代码大模型。结果发现,Claude-Sonnet-3.5在想法创新性、试验通过率、论文完成质量上表现都最好。GPT-4o和DeepSeek Coder表现相近,但后者要便宜上30倍。当然,现阶段AI独立完成的论文也不是尽善尽美,也不是直接就能发顶会了。人类研究者总结了出几点限制和挑战:当前“AI科学家”系统还没有整合视觉能力,生成的图表有时难以阅读,表格有时超出页面宽度,页面排版不好。AI科学家可能想法对了但执行错误,或者与基线进行不公平的比较,从而产生误导性的结果。AI科学家在写作和评估结果时偶尔会犯严重错误,比如产生幻觉。还想造区域主席和AI新顶会总结一下,这初代AI科学家写出来的论文仍然时不时出现一些bug。但这个项目本身,以及15美元/篇的成本,被Sakana AI称为“大有前景”,完全可以用来帮助加速科学进步。Sakana AI同时发布了一篇说明文章,表示AI科学家的最终设想,是一个完全由AI驱动的科学生态系统。系统中不仅包括大模型驱动的研究人员,还有审稿人、区域主席和一个新顶会。需要注意的是,Sakana AI认为:人类科学家的作用,并不会因为AI科学家的出现而减弱。如果非要进行对比,那就是科学家得适应新技术的出现和运用,适应角色定位将出现的变化,“向食物链上游移动”。而且,AI科学家是否真的能提出真正的新范式,还有待观察。毕竟这玩意儿现在还是建立在Transformer之上的。它能提出跟Transformer或Diffusion Model一样厉害的东西吗?甚至是人工神经网络或信息论这样的理论概念?咱也不知道,咱也不敢说。Sakana AI还写下这样一段话:我们相信AI科学家将成为人类科学家的伟大伙伴。但只有时间才能证明,人类的创造力本质和偶然创新时刻,在多大程度上可以通过人工进行的开放式发现,来复制“奇迹”。△Sakana AI:一条全自动AI小鱼儿正在探索它的世界来自Transformer作者创业公司这次完成“新造的人”的公司,Sakana AI,严格意义上也是咱们的老朋友了。由Transformer论文8位作者的最后一位Llion Jones创业成立,目标是做一家“世界级人工智能研究室”。公司base东京,而sakana是日语“魚”(さかな)的罗马读音。可能出于公司文化考虑,Llion还在领英上标明,自己起了个日语音译名字:ライオン(也就是Lion狮子的片假名;以下亲切简称他狮子哥)。去年8月,公司宣布成立。当时狮子哥毫无避讳地表示,自个儿对Google没有恶意,但Google确实让他有“被困住的感觉”。创业之前,狮子哥在Google已经干了8年。△猜猜漏了半张脸的是谁他本硕毕业于伯明翰大学,在Delcam、油管、Google都工作过,Google是他待得最久的一家公司。据FourWeekMBA介绍称,在他之前的工作经历中,“曾两度与Google的工作擦肩而过”。第一次是他刚毕业找工作时,虽然投了Google伦敦软件工程师的简历,并通过了两轮电话面试,但最终相比Google,他选择了位于英国的CAD/CAM软件公司Delcam。值得一说的是,在拿下Googleoffer前,恰巧遇上2009年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。第二次是工作18个月后,他又接到了Google的招聘电话,询问他是否想重新申请,但他依旧没去Google,而是随后加入了YouTube。在Youtube做三年软件工程师期间,他对人工智能产生兴趣,自学了Coursera的机器学习课程,并终于在2015年的时候加入Google研究院,担任里面的高级软件工程师。也正是在此期间,他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is All You Need。除此之外,狮子哥也在Google参与了不少研究,包括ProtTrans、Tensor2Tensor等。之所以选择离开Google,是因为公司目前已经发展到一种规模,使得他无法继续进行自己想做的工作。除了每天都在浪费精力排查其他人的bug,他还需要花时间从这家公司中找资源,试图获得访问某些数据的权限。创业过后,Sakana AI的工作在有序推进。在祭出AI科学家和AI审稿人之前,还出过大模型合并进化算法,以及研究Tranformer内部信息流动。至于AI科学家、AI审稿人项目,由Sakana AI、牛津、UBC合作完成。三位共同一作分别是:Chris Lu,Sakana AI的实习生,任公司研究科学家。他本科毕业于UC伯克利,目前牛津大学三年级博士在读,导师是Jakob Foerster。Chris目前的重要研究方向,是将进化启发的技术应用于元学习和多智能体强化学习。2022年夏天,他曾在DeepMind以研究科学家身份实习过。Cong Lu,UBC(不列颠哥伦比亚大学)博士后研究员,导师是Jeff Clune。Cong曾在RGU(罗伯特戈登大学)就读,2019年在牛津大学拿下博士学位,他的主要研究方向是开放式强化学习和AI科学发现。此前,他曾在Waymo和微软实习过。Robert Tjarko Lange,Sakana AI的创始成员之一,也是该公司的研究科学家。目前,他在柏林工业大学完成自己的博士生最后一年学业,研究方向是进化元学习。这位小哥在伦敦帝国理工学院获得计算机硕士学位,在庞培法布拉大学获得数据科学硕士学位,在科隆大学获得了经济学本科学位。去年,他在Google DeepMind的东京团队中担任全职学生研究员。 原文:https://m.cnbeta.com.tw/view/1442023.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

“AI数据荒”雪上加霜 MIT:网页数据的公开共享正走向衰落

摘要:随着GenAI产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。最近,吴恩达在网站The Batch上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的“AI数据荒”雪上加霜。 研究人员发现,C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。这不仅会影响商用AI模型的训练,也会对学术界和非营利机构的研究造成阻碍。该项目的4位团队主管分别来自MIT Media Lab、Wellesley学院、AI初创公司Raive等机构。论文地址:https://www.dataprovenance.org/consent-in-crisis-paper主持该研究的是非营利组织The Data Provenance Initiative,由来自世界各地的AI研究人员志愿加入组成。论文所涉及的数据标注以及分析全过程已经全部公开在GitHub上,方便未来研究参考使用。仓库地址:https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection具体来说,论文主要有以下几个方面的结论:对AI数据共享空间的限制正在激增2023.4~2024.4仅一年的时间,C4、RefineWeb、Dolma数据集中就有5%+的token总量、25%+的关键网页在robots.txt做出了限制。从服务条款的结果来看,C4数据集的45%已被限制。通过这种趋势可以预测,不受限制的开放网络数据将会逐年减少。许可的不对称性与不一致性相比其他的开发者,OpenAI的爬虫更加不受欢迎。不一致性体现在,robots.txt和服务条款(Terms of Service, ToS)中经常存在矛盾之处。这表明用于传达数据使用意图的工具存在效率低下的问题。从网络爬取的公开训练语料中,头尾内容的特征存在差异这些语料中有相当高比例的用户生成内容、多模态内容和商业变现内容(俗称带货广告),敏感或露骨内容的比例仅仅略少一些。排名靠前的网站域名包括新闻、百科和社交媒体网站,其余的组织机构官网、博客和电子商务网站构成了长尾部分。网络数据与对话式AI的常见用例的不匹配网络上爬取的相当一部分数据与AI模型的训练用途并不一致,这对模型对齐、未来的数据收集实践以及版权都会造成影响。研究方法通常来说,限制网页爬虫的措施有以下两种:- 机器人排除协议(Robots Exclusion Protocol, REP)- 网站的服务条款(Terms of Service, ToS)REP的诞生还要追溯到AI时代之前的1995年,这个协议要求在网站源文件中包含robots.txt以管理网络爬虫等机器人的活动,比如用户代理(user agent)或具体文件的访问权限。Google开发者网站上的robots.txt文件示例你可以将robots.txt的效力视为张贴在健身房、酒吧或社区中心墙上的“行为准则”标志。它本身没有任何强制效力,好的机器人会遵循准则,但坏的机器人可以直接无视。论文共调查了3个数据集的网站来源,具体如表1所示。这些都是有广泛影响力的开源数据集,下载量在100k~1M+不等。每个数据来源,token总量排名前2k的网站域名,取并集,共整理出3.95k个网站域名,记为HEADAll,其中仅来源于C4数据集的记为HEADC4,可以看作是体量最大、维护最频繁、最关键领域的AI训练数据来源。随机采样10k个域名(RANDOM10k),其中再随机选取2k个进行人工标注(RANDOM2k)。RANDOM10k仅从三个数据集的域名交集中采样,这意味着他们更可能是质量较高的网页。如表2所示,对RANDOM2k进行人工标注时涵盖了许多方面,包括内容的各种属性以及访问权限。为了进行时间上的纵向比对,作者参考了Wayback Machine收录的网页历史数据。研究所用的人工标注内容都已公开,方便未来研究进行复现。结果概述数据限制增加除了收集历史数据,论文还使用SARIMA方法(Seasonal Autoregressive Integrated Moving Average)对未来趋势进行了预测。从robots.txt的限制来看,从GPTBot出现(2023年中期)后,进行完全限制的网站数量激增,但服务条款的限制数量增长较为稳定且均衡,更多关注商业用途。根据SARIMA模型的预测,无论是robots.txt还是ToS,这种限制数增长的趋势都会持续下去。下面这种图计算了网站限制的特定组织或公司的agent比例,可以看到OpenAI的机器人遥遥领先,其次是Anthropic、Google以及开源数据集Common Crawl的爬虫。从token数量的角度,也能看到类似的趋势。不一致且无效的AI许可不同组织的AI agent的在各网站上的许可程度存在相当大的差异。OpenAI、Anthropic和Common Crawl的受限占比位列前三,都达到了80%以上,而网站所有者对Internet Archive或Google搜索这类非AI领域的爬虫通常都比较宽容开放。robots.txt主要用于规范网页爬虫的行为,而网站的服务条款是和使用者之间的法律协议,前者较为机械化、结构化但可执行度高,后者能表达更丰富、细微的策略。二者本应相互补足,但在实际中,robots.txt常常无法捕捉到服务条款的意图,甚至常常有互相矛盾的含义(图3)。现实用例与网页数据的不匹配论文将网页内容与WildChat数据集中的问题分布进行对比,这是最近收集的ChatGPT的用户数据,包含约1M份对话。从图4中可以发现,二者的差别十分显著。网页数据中占比最大的新闻和百科在用户数据中几乎微不足道,用户经常使用的虚构写作功能在网页中也很难找到。讨论与结论近来,很多AI公司都被指责绕过robots.txt来抓取网页数据。尽管很难确认,但似乎AI系统很难将用于训练的数据和推理阶段用于回答用户提问的数据分开。REP协议的复杂性给网页创建者带来了很大的压力,因为他们很难对所有可能的agent及其下游用例做出细致规定,这导致robots.txt的实际内容很难反映真实意图。我们需要将用例相关的术语进一步分类并标准化,比如,用于搜索引擎,或非商用AI,或只在AI标明数据出处时才可使用。总之,这种新的协议需要更灵活地反映网站所有者的意愿,能将有许可和不被允许的用例分开,更好地与服务条款同步。最为重要的是,从网站数据使用限制的激增中,我们不难看出数据创建者和AI科技公司之间的紧张关系,但背后无辜躺枪的是非营利组织和学术研究人员。The Batch在转述这篇文章时表达了这样的愿望:“我们希望AI开发人员能够使用开放网络上提供的数据进行训练。我们希望未来的法院判决和立法能够确认这一点。” 原文:https://m.cnbeta.com.tw/view/1442022.htm

Report

Unwanted commercial content or spam

Pornography or sexually explicit material

Hate speech or graph violence

Harassment or bullying

Other

Join kefu_004’s channel

Package

LV2($ 3.33/month)

Renew

11/14/2024

Total 3.33 FebCoins

Account balance

Recharge

Subscriptions can be cancelled at any time, and after cancellation, you will continue to have access to the content until the next billing cycle.

Send article

Everyone

Only Me

Everyone

Send CopyDone

Add File
FebBox
Other

Izumi Katsuyoshi

send message

Add File
FebBox

Photo Album

Jun 11,2021 13:33

Edit

View, comment and edit

View

Can view and comment, but not edit.

Comments

Block this user

Type a comment

0/400

After closing, the input will be lost

Are you sure you want to unsubscribe?

Speed 0.5 0.75 Normal 1.25 1.5 2.0

Time 15min 30min 60min

Voice

Microsoft Kangkang

Chinese (Simplified, PRC)

Chinese (Simplified, PRC)

Microsoft Kangkang

Microsoft Kangkang

Microsoft Kangkang

Microsoft Kangkang

Microsoft Kangkang

Exit Reading

Suspend