搜索引擎 + AI 驱动的行业新闻

【覆盖行业】
信保 |出口 |金融
制造 |农业 |建筑 |地产
零售 |物流 |数智

【访问入口】
hangyexinwen.com

【新闻分享】
点击发布时间即可分享

【联系我们】
xinbaoren.com
(微信内打开提交表单)

📰 马斯克的GPU也在摸鱼?狂囤几十万张显卡,只有11%在干活

本文聚焦xAI在Colossus超算中的MFU(模型浮点运算利用率)仅约11%的现象及其背后的系统性挑战。尽管Colossus集群规模公开披露巨大,实际训练产出却远低于理论潜力,11%意味着理论上可实现的大量训练吞吐被“无效功”耗掉,主要原因包括显存压力、较小单卡批次、激活重计算、跨GPU通信等引发的记忆墙,以及数据搬运和等待等环节的低效。行业对比显示正常生产级MFU多在35%-45%、甚至47%上下,xAI的11%显得异常低。这一现象揭示问题并非硬件瓶颈,而是训练栈、并行策略和模型工程的综合挑战。与此同时,xAI开始向外输出算力以降低自有成本,并出现高层人事调整与外部租用算力并行发展的趋势,显示Colossus正从单纯“世界最大超算”逐步演变为更像半成品云厂商的经营模式。未来若要将MFU提升至50%及以上,需要在训练栈优化、通信效率、数据管线等方面进行系统性改进,同时保持规模扩张与算力利用之间的平衡。

🏷️ #MFU #Colossus #xAI #训练栈 #算力利用

🔗 原文链接
 
 
Back to Top