韩国AI芯片初创公司FuriosaAI本周赢得了重要客户,LG的AI研究部门选择了其AI加速器为运行Exaone大语言模型系列的服务器提供动力。
虽然浮点计算能力、内存容量和带宽在AI性能中都发挥着重要作用,但LG选择Furiosa的RNGD推理加速器并非因为速度和性能指标,而是因为其功耗效率。
"RNGD提供了令人信服的综合优势:出色的实际性能、显著降低我们的总拥有成本,以及出人意料的简单集成,"LG AI Research产品部门负责人Kijeong Jeon在一份声明中表示。
快速浏览RNGD的规格表会发现这似乎是一款相当普通的芯片,浮点性能在256到512 teraFLOPS之间,具体取决于选择16位还是8位精度。内存容量也相当有限,通过两个HBM3堆栈提供48GB,带宽约为1.5TB/s。
与AMD和Nvidia最新的GPU相比,RNGD看起来并不那么有竞争力,直到你考虑到Furiosa仅用180瓦功耗就实现了所有这些功能。在测试中,LG研究发现,在其自研Exaone模型系列的大语言模型推理上,这些芯片的功耗效率比GPU高出2.25倍。
但先别太兴奋,这里比较的GPU是Nvidia的A100,这款产品已经相当老旧——它们在2020年疫情爆发时首次亮相。
正如FuriosaAI首席执行官June Paik向El Reg表示的,虽然Nvidia的GPU在A100首次亮相后的五年中确实变得更强大,但这种性能提升是以更高的能耗和芯片面积为代价的。
虽然单个RNGD PCIe卡在原始性能上无法与Nvidia的H100或B200加速器竞争,但就效率而言——每瓦能够榨取的FLOPS数量——这些芯片比你想象的更有竞争力。
Paik将公司在效率方面的优势主要归功于RNGD的张量收缩处理器架构,他说这种架构执行矩阵乘法所需的指令比GPU少得多,并最大程度减少了数据移动。
这些芯片还受益于RNGD使用HBM,Paik说这比依赖GDDR需要的功耗要少得多,就像我们在Nvidia一些低端产品中看到的那样,比如L40S或RTX Pro 6000 Blackwell卡。
在大约1.4 teraFLOPS每瓦的水平上,RNGD实际上更接近Nvidia的Hopper一代而非A100。如果我们将焦点转移到内存带宽上,RNGD的效率变得更加明显,这对于大语言模型推理来说可能是更重要的因素。一般来说,内存带宽越大,Token输出速度越快。
在这里,1.5TB/s的RNGD内存并不是特别快。Nvidia的H100提供更高的容量(80GB)和3.35TB/s到3.9TB/s的带宽。然而,该芯片的功耗是2到3.9倍。
与H100 SXM模块的功耗大致相同,你可以拥有四张RNGD卡,总计2 petaFLOPs的密集FP8、192GB HBM和6TB/s内存带宽。这仍然落后于Nvidia最新一代的Blackwell产品,但比RNGD的原始速度和性能指标所显示的要接近得多。
而且,由于RNGD完全针对推理设计,模型确实可以使用张量并行等技术分布在多个加速器上,甚至使用流水线并行分布在多个系统上。
实际测试
LG AI实际使用了四张RNGD PCIe卡的张量并行配置来运行其内部的Exaone 32B模型,精度为16位。据Paik介绍,LG在验证芯片使用时有非常具体的性能目标。
值得注意的是,限制条件包括首Token时间(TTFT),即大语言模型开始生成响应前的等待时间,对于3000 Token的中等提示约为0.3秒,对于30000 Token的大型提示约为4.5秒。
如果你想知道,这些测试类似于中到大型摘要任务,比短提示对芯片计算子系统造成更大压力。
LG发现能够在批量大小为1的情况下,以每秒约50-60个Token的速度达到这种性能水平。
据Paik说,这些测试使用FP16进行,因为LG比较的A100不原生支持8位浮点激活。推测降到FP8基本上会使模型吞吐量翻倍并进一步减少TTFT。
使用多张卡确实带来一些固有挑战。特别是,允许模型权重和计算分布在四张或更多卡上的张量并行是相当网络密集的。
与Nvidia的GPU不同,后者通常配备快速专有NVLink互连,以每秒超过1TB的速度在芯片之间传输数据,Furiosa坚持使用传统的PCIe 5.0,每张卡最高速度为128GB/s。
为了避免互连瓶颈和开销,Furiosa表示优化了芯片的通信调度和编译器以重叠芯片间直接内存访问操作。
但因为RNGD没有分享更高批量大小的数据,很难说这种方法扩展得如何。他承认,在批量为1时,张量并行操作数量相对较少。
据Paik说,在批量64时,单个性能应该只下降20-30%。这表明相同设置应该能够达到接近每秒2700个Token的总吞吐量,并支持相当多的并发用户。但没有具体细节,我们只能推测。
竞争格局
无论如何,Furiosa的芯片足够好,LG的AI研究部门现在计划向使用其Exaone模型的企业提供由RNGD驱动的服务器。
"在广泛测试各种选择后,我们发现RNGD是部署Exaone模型的高效解决方案,"Jeon说。
与Nvidia基于RTX Pro Blackwell的系统类似,LG的RNGD设备将提供多达八个PCIe加速器。这些系统将运行Furiosa描述的高度成熟的软件堆栈,包括流行的模型服务运行时vLLM版本。
LG还将提供其智能体AI平台ChatExaone,该平台捆绑了用于文档分析、深度研究、数据分析和检索增强生成(RAG)的各种框架。
Furiosa的说服力不仅限于LG。你可能记得,据报道Meta今年早些时候出价8亿美元收购这家初创公司,但最终未能说服Furiosa的领导层交出控制权。
Furiosa受益于对主权AI模型、软件和基础设施日益增长的需求,这些都是在本土硬件上设计和训练的。
然而,要在全球范围内竞争,Furiosa面临一些挑战。最值得注意的是,Nvidia和AMD最新的GPU不仅在性能、内存容量和带宽方面远超RNGD,按我们的估算在能效方面也要高一些。Nvidia的架构还允许更大程度的并行性,这要归功于其在机架级架构方面的早期投资,这是我们现在才看到芯片制造商开始采用的设计理念。
话虽如此,值得注意的是RNGD的设计过程始于2022年,在OpenAI的ChatGPT引发AI热潮之前。当时,像Bert这样的模型在语言模型方面是主流。然而,Paik押注GPT会起飞,其底层架构会成为新标准,这影响了使用HBM而非GDDR内存等决策。
"回想起来,我认为我应该做出更激进的押注,使用四个HBM堆栈并在单个封装上放置更多计算芯片,"Paik说。
我们看到包括Nvidia、AMD、SambaNova等在内的众多芯片公司采用这种方法,以将其芯片扩展到超出标线限制。
事后看来,Paik说现在Furiosa已经成功验证了其张量压缩处理器架构、HBM集成和软件堆栈,公司只需要扩大其架构规模。
"我们有一个非常稳固的构建块,"他说。"我们非常有信心,当扩大这种芯片架构时,它将与所有最新的GPU芯片相当有竞争力。"
好文章,需要你的鼓励
OpenAI宣布ChatGPT周活跃用户将达到7亿,较3月末的5亿用户增长40%,同比增长4倍。公司计划8月初发布GPT-5,该模型将整合o3系列的推理能力,创建统一的AI系统。商业客户增至500万,年收入达130亿美元。面对谷歌、Meta等竞争对手的激烈竞争,OpenAI正通过技术升级和用户体验优化来巩固市场领先地位。
复旦大学研究团队推出OmniAVS数据集和OISA系统,实现AI对音视频内容的全模态理解和推理。该系统支持8种表达方式的复合指令,能同时处理文字、语音、声音、图片信息,不仅准确识别目标对象还能解释判断过程。在多项测试中表现出色,为智能教学、医疗诊断、安全监控等领域应用奠定基础。
OpenAI宣布将在ChatGPT中添加"休息提醒"功能,当用户与AI聊天机器人交互时间过长时会弹出提示询问是否需要休息。此举旨在防止成瘾行为,类似于流媒体平台的观看提醒。同时OpenAI还改进了模型以更好地识别用户的心理困扰迹象,并在重大人生决策建议方面更加谨慎。专家建议用户主动设置使用时间限制,避免过度依赖AI工具。
上海交通大学团队开发了首个化学推理AI模型ChemDFM-R,突破了传统化学AI只能记忆无法推理的局限。该模型通过识别241种官能团构建了1010亿tokens的专业知识库,采用创新的"混合来源蒸馏"训练方法,让AI学会像化学家一样思考和推理。在多项化学基准测试中表现优异,更重要的是能提供透明的推理过程,开启了人机协作的新模式。
什么时候闰十月 | 海胆是什么 | 梦见棉花是什么意思 | 巴基斯坦讲什么语言 | 三眼花翎是什么意思 |
南瓜皮可以吃吗有什么作用 | 胸闷喘不上气什么原因 | 阳痿吃什么药效果好 | 4.20号是什么星座 | 腋下属于什么科 |
排浊是什么意思 | 腰间盘突出睡觉什么姿势好 | 浓茶喝多了有什么危害 | 孕妇早上吃什么早餐好 | 吃什么会变黑 |
奇葩是什么意思 | 李商隐被称为什么 | 小儿便秘吃什么药 | 李荣浩什么学历 | nt是什么 |
为什么头发老出油bjcbxg.com | 海蛎子是什么hcv8jop5ns0r.cn | 中暑什么意思xjhesheng.com | 钙化结节是什么意思hcv7jop9ns6r.cn | 骨折吃什么药恢复快hcv8jop1ns4r.cn |
成人大便绿色是什么原因hcv7jop6ns2r.cn | 戒奶涨奶痛有什么缓解方法hcv9jop6ns5r.cn | xo是什么酒hcv8jop2ns2r.cn | 岗位性质指的是什么hcv9jop0ns4r.cn | 骨髓抑制是什么意思hcv8jop9ns9r.cn |
副区长是什么级别hcv8jop5ns5r.cn | k金是什么金hcv9jop5ns7r.cn | g750和au750有什么区别hcv8jop1ns9r.cn | 睡觉时头晕是什么原因hcv9jop8ns2r.cn | 肛门瘙痒是什么原因hcv9jop7ns3r.cn |
什么人容易得心肌炎hcv9jop5ns5r.cn | 乙肝病毒是什么hcv8jop0ns7r.cn | 一岁宝宝能吃什么水果hcv9jop4ns6r.cn | 做梦梦到老公出轨代表什么预兆hcv8jop6ns3r.cn | 女性长期缺维d会带来什么病hcv8jop6ns6r.cn |