云厂商的价格战,跟AI算力无关
OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。来自HuggingFace、加拿大蒙特利尔Mila研究所、网易伏羲AILab的研究人员从零开始复现了OpenAI的RLHFpipeline,罗列了25个
国内云厂商“价格战”打了一轮又一轮,但AI算力并没有降价。
随着AI的发展,算力需求乃至用电需求的上涨明显。光环新网是国内重要的数据中心和云计算服务提供商,光环新网副总裁李伟对第一财经记者预测,未来十年中国的AI算力起码百倍增长。
传统算力降价带来的压力,云计算厂商或许能从AI算力得到弥补。前提是,它们能买到足够的GPU。
AI算力免受价格战影响
“核心产品价格全线下调20%”“在竞争对手的基础上再便宜10%”,从2023年4月阿里云宣布“史上最大规模降价”至今,云厂商喊话不断,阿里云、腾讯云、移动云、天翼云、京东云等进行了多轮降价。
看起来,云计算低价的时代来了。但“算力普惠”的风并没有吹到AI领域。
一位业内人士对记者表示,这两年云厂商喊的降价,其实都跟AI算力无关,很多是CPU部分,而GPU的部分仍在涨。由于算力供需紧张,租赁价格成倍上涨才是AI算力在过去一年的常态。
CPU主要用于处理通用计算,如操作系统运行、应用程序执行和管理、数据处理等;GPU则相对专注于并行计算和图形处理任务,主要用于科学计算等需要大规模并行计算的工作负载。
“在AI服务器,不管搭配多少颗GPU,在底层都需要CPU。它们在不同的工作负载和应用场景中发挥各自的优势,相互补充。”英特尔中国软件技术合作事业部总经理唐炯对第一财经表示,“现阶段的智算中心里,GPU或AI加速器的数量比例会比原来有所提高。这也是因为客户对大量的算力有需求,所以需要加上一些GPU或是其他的AI加速器来运行。”
AI算力涨价已不新鲜。
2023年11月,中贝通信就曾在公告中透露,其向相关客户提供AI算力技术服务的单价上涨到18万元/P/年,与其9月份披露的12万元/p/年的价格相比,两个月内上涨了50%。
“目前我认为高端算力的需求还是非常旺盛的,但尚未达到供不应求导致价格飙升的程度。从我们自身来看,算力闲置的可能性不大。”李伟对记者表示。
受政策影响,尖端芯片供应不足、一“片”难求。这导致了国内AI算力成本的上涨。
据IDC的预测,2022-2027年期间,我国智能算力规模年复合增长率将达33.9%。但与此同时,GPU的缺口难以解决。英伟达高端芯片受限的情况下,国内市场的GPU缺口十分严峻。
AI算力的能耗更高,这也推动云计算厂商成本升高。
优刻得计算产品中心研发总监王晓慧告诉第一财经记者,与传统数据中心相比,智算中心运行时的能耗是其五倍以上。从单机运行功率来看,普通服务器的运行功率是七八百瓦,而GPU跑三四千瓦是非常常见的。
除此之外,李伟表示,智算中心里AI服务器的高功率也意味着冷却散热压力的加大,AI服务器与传统服务器的能耗差异进一步变大。同时,运维AI服务器也对员工的经验和能力提出了更高的要求,智算中心的人力成本也会随之增加。
“就我们目前的经验来看,因为AI服务器的负载压力比传统服务器大很多,相应AI服务器故障率也比传统服务器高很多。”李伟补充道,为了避免大模型训练中由AI服务器宕机带来的损失,在大模型训练的过程中要在中间做很多断点,综合协调软件、硬件、性能需求和服务器的稳定性。
“有很多办法降低(故障率),但是再降低它的故障率也比传统服务器高。”李伟提到,AI服务器的负载压力是传统服务器不能比的,当大模型训练跑起来时,机房的GPU都是跑满的。
算力向头部企业聚拢
云计算厂商的价格战连绵不绝,它们就不得不寻找更优的成本方案。
“从公有云角度来看,纵观业界都在寻求降本增效的方式,而这对我们来说是一个新的发展方向。”唐炯表示,芯片企业除了将传统芯片的路线图往前推动,打造具备更好性能功耗比的产品之外,先进的液冷技术、数据中心管理技术,都可帮助大型科技企业降低成本。
传统算力降价带来的压力,云计算厂商或许能从AI算力得到弥补。
IDC预计,到2030年人工智能驱动的全球算力将增长500倍, 2027年中国智能算力规模将达 1117.4 EFLOPS。
“从存量来看,传统服务器还是占大比例的。但在去年,我们将北京亦庄地区自有数据中心转型为智算中心,以数据中心设施为基础,部署了高性能算力硬件,搭建了算力调度平台,提供训推一体智算服务。”李伟透露,未来两三年,光环新网将持续增加算力服务器规模。
作为AI算力的最大“买主”,大模型企业正在发生一些变化。“能看到去年一些租了我们A800服务器的大模型企业,在大概半年之后有一些进行退租的,但也会有新的再进来。”王晓慧透露。
作为AI算力的最大“买主”,大模型企业正在发生一些变化。“能看到去年一些租了我们A800服务器的大模型企业,有的在做持续的训练迭代,有的在做短周期的业务尝试,不停地会有新客户进来这个市场。”王晓慧透露。
在去年,大模型企业主要还是在做模型的训练,但推理需求今年、明年可能大幅提升。“从长期来看,模型最终要盈利,还是会推动推理业务。”李伟预测,未来大模型推理的量可能会是训练量5到10倍的规模,甚至更大。
大模型正在进入逐步淘汰的过程,据记者了解,一些大模型企业甚至退租了A800服务器。AI算力的需求预计将向大模型头部企业聚拢。
“我们跟很多通用大模型企业沟通,普遍认为要支撑一支比较有竞争力的大模型团队,除了人力投入,还需要考虑自建或租用算力的成本。这样的团队一年至少需要十个亿、甚至十五个亿的资金支出。在短期看不到太多收入的情况下,并不是每家都能融到这么多钱,最后只有头部几家能持续烧钱,保持在行业一线。”李伟表示,AI算力市场还是会增长,但将主要来自头部大模型公司。
从长期来看,中国算力的发展不仅仅要靠海外,主要还是要靠国产算力的逐步成熟、芯片、服务器领域的成长。
(本文来自第一财经)