#训练栈 | 行业新闻_数智（点击查看更多）

⁣
📰 马斯克的GPU也在摸鱼？狂囤几十万张显卡，只有11%在干活

本文聚焦xAI在Colossus超算中的MFU（模型浮点运算利用率）仅约11%的现象及其背后的系统性挑战。尽管Colossus集群规模公开披露巨大，实际训练产出却远低于理论潜力，11%意味着理论上可实现的大量训练吞吐被“无效功”耗掉，主要原因包括显存压力、较小单卡批次、激活重计算、跨GPU通信等引发的记忆墙，以及数据搬运和等待等环节的低效。行业对比显示正常生产级MFU多在35%-45%、甚至47%上下，xAI的11%显得异常低。这一现象揭示问题并非硬件瓶颈，而是训练栈、并行策略和模型工程的综合挑战。与此同时，xAI开始向外输出算力以降低自有成本，并出现高层人事调整与外部租用算力并行发展的趋势，显示Colossus正从单纯“世界最大超算”逐步演变为更像半成品云厂商的经营模式。未来若要将MFU提升至50%及以上，需要在训练栈优化、通信效率、数据管线等方面进行系统性改进，同时保持规模扩张与算力利用之间的平衡。

🏷️ #MFU #Colossus #xAI #训练栈 #算力利用

🔗 原文链接