采用 M4 Pro 和 M4 Max 芯片的 MacBook Pro 将于本月量产
cnBeta中文业界资讯网
2024-08-28 09:28:04 · Everyone
%
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
PreviousNASA组织最新一轮行星防御测试 面对72%的小行星撞击概率
Next又一位英伟达“杀手”亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型
cnBeta中文业界资讯网
8 Followers
24808 Articles
cnBeta.com成立于 2003 年,是中国领先的即时科技资讯站点,已成为重要的互联网IT消息集散地,提供软件更新,互联网、IT业界资讯、评论、观点和访谈。
我们的核心竞争力:快速响应;报道立场公正中立;尽可能提供关联信息;网友讨论气氛浓厚。
我们致力于奉献适合中文读者阅读的科技资讯,呈现科技如何影响人们生活的报道。
Put away
More
Follow
Recent
又一位英伟达“杀手”亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型
摘要:8月27日消息,在近日召开的Hot Chips 2024大会上,美国AI芯片初创公司SambaNova首次详细介绍了其新推出的全球首款面向万亿参数规模的人工智能(AI)模型的AI芯片系统——基于可重构数据流单元 (RDU) 的 AI 芯片 SN40L。 据介绍,基于SambaNova 的 SN40L 的8芯片系统,可以为 5 万亿参数模型提供支持,单个系统节点上的序列长度可达 256k+。对比英伟的H100芯片,SN40L不仅推理性能达到了H100的3.1倍,在训练性能也达到了H100的2倍,总拥有成本更是仅有其1/10。SambaNova SN40L基于台积电5nm制程工艺,拥有1020亿个晶体管(英伟达H100为800亿个晶体管),1040个自研的“Cerulean”架构的RDU计算核心,整体的算力达638TFLOPS(BF16),虽然这个算力不算太高,但是关键在于SN40L还拥有三层数据流存储器,包括:520MB的片上SRAM内存(远高于此前Groq推出的号称推理速度是英伟达GPU的10倍、功耗仅1/10的LPU所集成的230MB SRAM),集成的64GB的HBM内存,1.5TB的外部大容量内存。这也使得其能够支持万亿参数规模的大模型的训练和推理。SambaNova在推出基于8个SN40L芯片系统的同时,还推出了16个芯片的系统,将可获得8GB片内SRAM、1TB HBM和24TB外部DDR内存,使得片上SRAM和集成的HBM内存之间的带宽高达25.5TB/s,HBM和外部DDR内存之间的带宽可达1600GB/s。高带宽将会带来明显的低延时的优势,比如运行Llama 3.1 8B模型,延时低于0.01s。下图是SambaNova SN40L的内部结构,包括:计算单元(PCU)、存储单元(PMU)、网状开关(S)、片外存储器和IO(AGCU)。SN40L 内部的计算单元(PCU)的内部架构,它具有一系列静态阶段,而不是传统的获取/解码等执行单元。PCU可以作为流媒体单元(从左到右的数据)运行,蓝色是交叉车道减少树。在矩阵计算操作中,它可以用作收缩阵列。支持BF16、FP32、INT32、INT8等数据类型。下图是SN40L 的高级存储单元框架图。这些是可编程管理的暂存区,而不是传统的缓存。SN40L 的网状网络拥有三种物理网络,包括矢量网络、标量网络和控制网络。AGCU单元用于访问片外存储器(HBM和DDR ),而PCU用于访问片内SRAM暂存区。下图是SN40L 的顶层互联结构:SN40L 的关键核心在于其可重构数据流架构,可重构数据流架构使其能够通过编译器映射优化各个神经网络层和内核的资源分配。下面是一个例子,说明Softmax是如何被编译器捕获,然后映射到硬件的。可以看到,将它映射到大语言模型(LLM)和生成式AI的Transformer模型,下面是映射。在解码器内部,有许多不同的操作。下图是解码器放大图。每个方框内都是一个操作符。同时,通常可以运行多个操作符,并把数据保存在芯片上以便重用。以下是SambaNova对运算符如何在GPU上融合的猜测,不过他们也指出这可能不准确。在RDU中,整个解码器是一个内核调用。编译器负责这种映射。解码器作为RDU上的单个内核。回到Transformer的结构,下图展示了解码器的不同功能。可以看到,每个函数调用都有启动开销。不是32个调用,而是写成一个调用。换句话说,这意味着调用开销减少了,因为只有一个调用,而不是多个调用。结果,增加了芯片对数据做有用工作的时间。SambaNova 首席执行官兼创始人 Rodrigo Liang 表示:“借助数据流,你可以不断改进这些模型的映射,因为它是完全可重构的。因此,随着软件的改进,你获得的收益不是增量的,而是相当可观的,无论是在效率方面还是在性能方面。”下面是SambaNova的16个SN40L芯片系统在Llama3.1 405B/70B/7B上的表现,在Llama 3.1 7B模型下,以完全的16bit精度运行,其每秒的Token生成数竟然高达1100个。这比此前Groq推出的基于LPU(号称推理速度是英伟达GPU的10倍,功耗仅1/10)的服务器系统在Llama 3 8B上的最快基准测试结果每秒生成800个Token还要快。即使是在Llama3.1 405B模型上,以完全的16bit精度运行,16个SN40L芯片的系统每秒Token生成数也能够高达114个。而在Llama 3.1 7B模型下,其每秒的Token生成数更是高达1100个。由于内存容量限制,与其最接近的竞争对手需要数百块芯片来运行每个模型的单个实例,因为 GPU 提供的总吞吐量和内存容量相对较低。SN40L在Llama 3.1 70B模型上进行批量推理和吞吐量缩放表现,随着批量大小的变化,吞吐量接近理想规模。据SambaNova 介绍,基于8个SN40L芯片的标准AI服务器系统在运行80亿参数的AI大模型时,速度达到了基于8张英伟达H100加速卡的DGX H100系统的3.7倍(每生成20个Token所耗费的时间),而整个系统所占用的空间也只有DGX H100的1/19,模型切换时间也仅有DGX H100系统的1/15。在芯片推理性能方面,SN40L达到了英伟达H100的3.1倍;在训练性能方面,SN40L也达到了英伟达H100的2倍。总结来说,SambaNova 可以在8个SN40L芯片的系统上运行数百个大模型(在16个SN40L芯片的系统上可以同时运行多达 1000 个 Llama 3 7B大模型),同时还能够保持很快的响应速度,拥有完全精度。更为关键的是,其总拥有成本比竞争对手低 10 倍(虽然未明确是哪款竞品芯片,但从前面的对比来看,应该说的是H100)。“SN40L的速度展现了Dataflow的魅力,它加速了 SN40L 芯片上的数据移动,最大限度地减少了延迟,并最大限度地提高了处理吞吐量。它比 GPU 更胜一筹——结果就是即时 AI,”SambaNova Systems 联合创始人、斯坦福大学知名计算机科学家 Kunle Olukotun 表示。值得一提的是,在基于SN40L芯片的系统之上,SambaNova 还构建了自己的软件堆栈,其中包括今年2月28日首次发布的拥有1万亿参数的Samba-1 模型,也称为 Samba-CoE(专家组合),其使得企业能够组合使用多个模型,也可以单独使用,并根据公司数据对模型进行微调和训练。在芯智讯看来,SN40L相比目前的一些AI芯片来说,拥有着显著的优势,比如其可重构的数据流架构,可以调整硬件来满足各类工作负载要求,使得其可以很好的处理图像、视频及文本等不同的数据类型,适合多模态AI应用。但是,相对于英伟达的GPU可以灵活的处理各种模型来说,SN40L在灵活性上还是要略逊一筹,因为相关模型必须要经过专门的调整才能在其上面运行。而且,英伟达强大的CDUA生态对于其来说也是一大挑战。不过,在AI模型参数越来越大,所需的芯片数量和资金成本越来越高的背景之下,SN40L在性能和成本上的优势,以及可以轻松实现对于万亿参数大模型的支持,因此也有着与英伟达直接竞争的机会。或许正因为如此,SambaNova也获得了资本的青睐,目前已经累计获得了超过10亿美元的融资。 原文:https://m.cnbeta.com.tw/view/1443806.htm
1
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
初创公司Cerebras推出新款AI巨型芯片,挑战英伟达
摘要:Cerebras Systems是一家希望在人工智能(AI)计算领域挑战英伟达的初创公司,该公司推出了一款新芯片,称其将在运行AI模型和生成式响应方面击败竞争对手。Cerebras还为AI开发人员推出了一款工具,允许他们访问超大芯片来运行应用程序。 访问英伟达GPU来训练和部署大型AI模型难度很大,而且运行成本高昂,开发人员将这一过程称为推理。Cerebras将该芯片作为AI计算系统的一部分提供,数据中心运营商可以自行购买和运行。Cerebras已提交了一份机密计划,将在首次公开募股(IPO)中出售股票,试图在蓬勃发展的市场中分一杯羹。科技界巨头正在向AI计算投入数百亿美元。到目前为止,最大的受益者是英伟达,其图形处理单元(GPU)是这一新基础设施的重要组成部分。但Cerebras创始人兼CEO Andrew Feldman表示,公司的计算机将通过提高AI系统的响应速度来颠覆整个行业——他将这一转变比作向高速互联网的转变。Cerebras的方法依赖于由单个硅片制成的巨型芯片,其每个芯片大小与餐盘相当,被称为晶圆级芯片,从而避免了AI数据处理的一个问题:为AI应用提供支持的大型模型处理的数据通常无法放在单个芯片上,可能需要数百或数千个芯片串联在一起。Cerebras表示,这种新技术使芯片比传统芯片更强大。但该公司必须提供专门设计用于容纳超大芯片的计算机,因为传统硬件无法容纳它们。据Andrew Feldman称,一个关键优势来自于其产品使用内存的方式。这种能力内置在Cerebras芯片中,不像GPU和其他处理器,它们需要通过接口连接到内存才能访问信息。可以肯定的是,英伟达在AI基础设施方面拥有巨大的领先优势,而包括英特尔在内的其他对手一直在努力竞争。Cerebras必须向计算行业证明它能够可靠地生产和部署其技术。Cerebras正在建立自己的数据中心,以提供AI计算服务。它还试图将其芯片出售给云提供商,其中包括微软和亚马逊。这家初创公司已经与这些科技巨头接洽,但尚未拥有这些客户。当被问及Cerebras能从英伟达手中夺走多少市场份额时,Andrew Feldman表示:“足以让他们感到愤怒。” 原文:https://m.cnbeta.com.tw/view/1443805.htm
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
宝马新世代车型2024年秋季启动试生产 匈牙利工厂首批启动
摘要:8月28日,宝马集团昨日宣布,宝马“新世代”车型将在今年秋天启动试生产。首批启动试生产的是宝马位于匈牙利德布勒森的新工厂,该工厂的涂装车间已经在昨日率先投入使用。 在中国,新世代车型配备的第六代动力电池系统将在今年年底前开始试生产,第一款新世代车型将于2026年在沈阳正式投产。此外,中国研发团队预计将在2025年启动BMW新世代车型在中国的道路测试,并将在宝马集团的电磁兼容实验室EMC进行测试。宝马新世代车型将搭载全新电子控制单元,配合宝马全新自研的动态性能控制系统(Dynamic Performance Control)。该系统将配备行业领先的芯片处理器和软件算法,使驾驶者更精准高效地控制车辆。新世代车型的电池、动力系统和充电技术的电压平台也将提升至800伏,显著优化直流快充的充电效率。此外,新世代车型将采用宝马集团最新的设计语言,并装配全新一代BMW iDrive人机交互系统,通过车内BMW全景视域桥、中央信息显示屏、3D视域前景显示以及全新多功能方向盘四大交互界面,优化用户智能人机交互体验。 原文:https://m.cnbeta.com.tw/view/1443804.htm
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
西部数据或扩建泰国生产设施 首次扩张HDD生产线
摘要:西部数据在公布2024财年第一财季财务报告时宣布,未来将分拆为两家独立上市公司,分别专注于机械硬盘(HDD)和SSD及NAND闪存业务,预计2024年下半年开始执行。近期有报道称,西部数据正在认真考虑分拆计划,希望这一战略能够提高每个部门的运营效率,使其专注于核心优势,并最终实现更大的市场价值。 据TomsHardware报道,泰国投资促进委员会(BOI)已经批准了西部数据在当地的生产设施扩建计划,这是多年来首次针对机械硬盘(HDD)生产线的重大扩张,预计投资金额为230亿泰铢(约合6.77亿美元/人民币48.28亿元)。不过得到正式批准也不一定代表西部数据继续执行该计划,直到现在官方都没有发布任何公告。西部数据自1997年以来一直在泰国开展业务,拥有28,000多名员工。此次扩建将为泰国当地创造超过10,000个工作岗位,并通过利用当地原材料(电子电路板、金属和塑料零件、以及电源等)使相关的企业受益。随着客户端PC大规模使用固态硬盘(SSD),机械硬盘的销量已经连续下降有大概十年了,需求更多地只是来自云端服务商和数据中心,因此无论西部数据还是希捷,过去多年都在关闭过剩的机械硬盘生产线。然而随着新兴的人工智能(AI)型的数据中心兴起,近年对大容量的机械硬盘需求有所增加。除了西部数据,希捷在当地也有机械硬盘生产线,目前泰国占了全球机械硬盘产能的大概80%。 原文:https://m.cnbeta.com.tw/view/1443803.htm
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
美国防部:载着15万吨原油的“红海燃烧油轮” 似乎出现漏油迹象
摘要:过去几天持续在红海上“孤独燃烧”的“苏尼翁”号油轮,正愈发接近最糟糕的结局——美军透露这艘船已经出现漏油的迹象。这也是上周船员弃船逃离后,首次有消息称油轮发生漏油的情况。 最新进展在美国国防部周二举行的新闻发布会上,发言人帕特·莱德表示,自上周三船只遇袭后,25名船员在伙伴国船只的协助下撤离了这艘油轮。目前这艘船仍固定停泊在红海中,依然处于着火的状态,看上去似乎正在泄漏石油。在回答问题时,莱德回避了有关美军或盟军是否对这艘船“无能为力”的问题,仅表示美军中央司令部将继续“监测和评估局势”。他也进一步透露,美军了解到有第三方曾试图派两艘拖船协助这艘船脱困,但遭到胡塞武装攻击警告后离开了。莱德也在周二表示,美国国防部目前仍希望继续维持中东地区的“双航母”配置,以便提供额外的保护能力,为各种突发事件做好准备。漏油会很严重么?简单来说,如果“苏尼翁”号发生大规模原油泄漏,将会成为载入史册的生态灾难事件。据悉,这艘船上装着超过15万吨(或100万桶)原油,这个级别的泄漏将对沿岸地区造成严重影响。从历史上来看,1989年的阿拉斯加湾瓦尔迪兹号漏油事件(漏了约26万桶),还有1978年的阿莫科·卡迪斯号漏油事件(泄漏约138万桶)都对受影响地区造成严重、长期的生态和经济影响。横向对比,人类历史上最大规格的海洋石油泄漏事故——2010年的“深水地平线”钻探平台事故,当时的漏油量接近490万桶。(处理人员通过“可控燃烧”的方式解决“深水地平线”的漏油,来源:美国海军)眼下并不清楚,胡塞武装准备如何处理这艘“烈焰油轮”。如果在当前位置直接释放100万桶原油,势必会直接影响也门周边的渔场和环境。(出事油轮停泊位置,来源:UKMTO)外界上一次看到这艘船,是欧盟联合海军护航任务“阿斯皮德行动”周一发布的照片。欧盟海军表示,截至上周日,这艘船的主甲板上至少有5个位置起火,均位于油箱舱口周围。这艘船的上层建筑也出现起火的现象。(来源:阿斯皮德行动) 原文:https://m.cnbeta.com.tw/view/1443801.htm
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
在法国被捕的Telegram创始人竟有100多个亲生孩子
摘要:上周,社交媒体“电报”(Telegram)创始人兼首席执行官帕维尔·杜罗夫(Pavel Durov)在法国被捕,令这位有“俄版扎克伯格”的科技大佬成为全球焦点。据了解,现年39岁的杜罗夫出生于俄罗斯列宁格勒(今圣彼得堡),先后参加创建了社交网络平台VK和即时通信软件电报。2017年时,杜罗夫将电报总部迁至阿联酋迪拜,并于2021年获得法国国籍。 今年3月,杜罗夫告诉媒体,电报平台的月活用户已经从2021年初的5亿增加到9亿。在彭博亿万富翁排行榜上,杜罗夫以91.5亿美元的财富排名第290位,《福布斯》杂志则评估其身家超过150亿美元。杜罗夫有着许多标签,编程天才、社交媒体大亨、俄罗斯最年轻的亿万富翁、迪拜最具影响力的企业家等等。在这其中,有一个非常令人意外的身份,那就是100多个孩子的亲生父亲。7月30日时,杜罗夫在电报上的个人频道写道,“我刚刚被告知,我有100多个生物学子女(biological kids)。”他解释道,“到2024年,我已经通过捐献精子帮助12个国家的100多对夫妇生下了孩子。”杜罗夫称,“15年前,我的一个朋友向我提出了一个奇怪的请求。他说他和妻子因为生育问题无法生孩子,让我去诊所捐精给他们生孩子。我笑得前仰后合,后来才意识到他是认真的。”如果所言属实,那么杜罗夫当时还在圣彼得堡专注于社交网络平台VK。2008年底时,VK才超越Odnoklassniki,成为俄罗斯当地最受欢迎的社交网络服务。杜罗夫写道,“诊所的老板告诉我,‘优质捐献材料’供不应求,我有义务捐献更多的精子,以匿名的方式帮助更多的夫妇。这听起来很疯狂,疯狂到让我报名捐精。”杜罗夫提到,即使在停止捐精多年后,至少有一家试管受精诊所仍有他冷冻的精子,供想要孩子的家庭匿名使用。杜罗夫还贴出了一家诊所的链接,是位于莫斯科的“AltraVita”。杜罗夫计划“开源”他的DNA,让他的亲生孩子们能更容易地找到彼此,“这样做确实有风险,但我并不后悔捐精。健康精子的短缺已成为全球范围内日益严重的问题,我为自己能为缓解这一问题尽一份力而感到自豪。”“人口问题专家”埃隆·马斯克也转发了这一消息,并配文称这对于成吉思汗来说只是一个“新秀成绩”。西方遗传学者认为,成吉思汗是数百名子女的父亲,他的儿子们在扩张蒙古帝国的时候将他的Y染色体播散到世界各地。但一些人向媒体分享了他们的担忧,他们对世界上可能有数百位同父异母的兄弟姐妹这件事感到不安。批评者也表示,匿名捐精会带来一系列复杂的情况,孩子可能需要花费一生的时间来解决这些问题。 原文:https://m.cnbeta.com.tw/view/1443802.htm
Report
Unwanted commercial content or spam
Pornography or sexually explicit material
Hate speech or graph violence
Harassment or bullying
Other
Join kefu_004’s channel
Package
LV2($ 3.33/month)
Renew
12/15/2024
Total 3.33 FebCoins
Account balance
Subscriptions can be cancelled at any time, and after cancellation, you will continue to have access to the content until the next billing cycle.
Send article
Everyone
Only Me
Everyone
Photo Album
Jun 11,2021 13:33
Edit
View, comment and edit
View
Can view and comment, but not edit.
Block this user
Type a comment
0/400
After closing, the input will be lost
Are you sure you want to unsubscribe?
Sign in to continue
FebBox
The best way to share BIG files
By logging in you indicate that you have read and agree to Privacy Policy
0 replies
No comment
Block this user
Type a comment
0/400
Recent