算力的尽头其实是电力?

|业界动态 作者:王鹏 2024-04-10
最近科技圈的两个热点,一个是微软的AI搞崩了电网,让大家担心未来电不够用;另一个是小米发布了纯电SU7,再一次掀起了人们对电动汽车的兴趣。这两件事的共同点是,都与人工智能和电密切相关,而从更深层次去探讨,后者可能还真是前者的解药。
/
马斯克和黄仁勋最近都提出“算力的尽头是电力”等观点,还没几天,就一语成谶:微软的算力中心搞崩了电网。
/
所以这是不是一个在我国也会很快发生的大问题呢?网上有很多说法,有的过于乐观,而有的又过于悲观,这里简单分析一下。
/
简单的事实是,微软训练GPT-6的十万H100卡集群,需要空间集中,而集中在一个州内,电网就会崩溃。这里用到的Infiniband原本是英伟达用来保证数据中心内部互联的高带宽低时延技术,即使还有NVIDIA MetroX远程互连系统也无法保证超过40公里的长距离链接。长远来看,这是一个典型的跨系统城市/区域空间统筹问题,并不是单纯的电力系统或者算力系统技术改进就可以搞定的,而且我国的实际情况与美国差异很大,需要不同的应对策略。
/
这是创业者Kyle Corbitt在社交媒体上,分享自己与一位微软工程师关于GPT-6训练集群项目的对话
/
/
一、宏观层面
/
根据国际能源署(IEA)发布的《电力 2024——到2026年的分析与预测》,2022年数据中心、人工智能(AI)和加密货币行业的全球电力消耗占比为2%,预计到2026年将翻倍至1000太瓦时以上。尽管如此,全球总用电量的年增长率预计仅为3.4%,而中国的用电量年增幅是这一数字的两倍。此外,一项去年十月发表在《焦耳》杂志的研究预测,到2027年,全球新制造的服务器与AI相关的电力消耗可能增至85.4至134.0太瓦时,占全球当前用电量的0.5%。数据中心的电力需求预计将以13%至15%的复合年增长率快速上升。
/
中国的年发电量约为9000太瓦时,其中可再生能源装机容量占比已过半,并以每年超过20%的速度增长(国家能源局网站)。尽管AI和数据中心的算力增长迅猛,但鉴于其在整体电力消耗中所占比例较小,甚至可以说,短期内全球电力需求的增长都可以被中国可再生能源发电的增长所平衡。当然,考虑到可再生能源的波动性和季节性,以及电网调度的复杂性,我们仍需保持谨慎。事实上,中国经济增长预计将放缓并减少对重工业的依赖,所以用电总需求的增速可能还会逐年下降,所以我们通常并不担心发电不够用,而是发愁需求不足,尤其是稳定需求不足。
/
而美国的用电/发电量本来已经多年基本停止增长,无论是大型电厂建设还是风光发电产能,仓促间难免赶不上AI产业的狂飙突进,所以大厂们都要自行建设各类电厂解决,并寄希望于可控核聚变的快速实现。其实美国也正在通过一系列联邦资助计划和创新技术投资,推进电网现代化和可再生能源集成,旨在提高电网的韧性、可靠性和效率,同时加速实现清洁能源转型和脱碳目标。这不刚刚,拜登政府还提供专项贷款,首次重启了密歇根一座核电站。人家整体的技术实力和远见毋庸置疑,还远没到我们看笑话的时候。
/
/
/
二、中观层面
/
在中观层面,能源的空间供需不平衡和跨区域调度的挑战尤为突出。人工智能在训练阶段对算力的集中需求可能导致电网局部出现突发性高负荷,这对电网的稳定性构成了考验。美国的电网基础设施,多数建成于上世纪60至70年代,已显陈旧,且有70%的输电线路和变压器运行超过25年,极端天气事件频发导致的大规模停电现象,凸显了电网现代化的迫切需求。相比之下,中国拥有全球最大规模的特高压输电网,有效实现了电力的远距离输送和区域互补,展现出在应对电力供需不平衡方面的独特优势。然而,长距离能源转移的损耗和技术挑战不容忽视,因此,长远来看,推动区域内的可再生能源生产和消费,实现就近消纳,才是最优解。
/
可再生能源如风能和太阳能的波动性和不可预测性,以及电力需求的峰谷变化,加剧了能源在时空分布上的不均衡,这是电力系统面临的关键问题。我国“东数西算”战略的目标之一就是利用大型数据中心,消纳西部风光发电资源。但由于西部远离经济中心和负荷中心,无法解决低时延需求,往往只能实现温冷数据的“东数西存”。而人工智能、尤其是大模型训练阶段的新增算力需求,需要集中布局,而且可以根据能源情况调整计算资源,比较适合在西部水、电资源丰富地区重点布局。
/

早在2020年,发改委就出台了《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出要探索电力网和数据网联动建设、协同运行机制。2021 年,工信部出台《新型数据中心发展三年行动计划(2021-2023 年)》鼓励企业探索建设分布式光伏发电、燃气分布式供能等配套系统,引导新型数据中心向新能源发电侧建设,就地消纳新能源。

//

三、微观层面

/
微观来看,短期内快速增长的人工智能算力需求,尤其是靠近需求侧的推理阶段需求,仍然有大量需要在东部解决,实现1ms时延城市算力网、5ms时延区域算力网。这就需要重新思考在数据网和电力网的分布式联动与微观布局协同。不仅需要引导数据中心向西部布局靠近发电侧,同时也要在已经布局的数据中心和算力中心附近,积极布局分布式可再生能能源,而且要源网荷储一体化考虑,在满足总量需求的同时,尽可能通过微网实现就地峰谷平衡,减少弃风弃光。除了大型的风光电站,与城乡建筑、农业设施等结合的分布式BIPV(光伏建筑一体化)、光储直柔一体化等也应被更多关注。
/
由于风光发电的不稳定性,在足够的发电装机容量之外,就近布局的储能设施是非常重要的要素。在常见的锂电储能之外,还有成本更低更安全但需要适宜条件的抽水储能,适合时空转移储运的氢储能。另一个常被忽略的重要要素,就是新能源汽车的分布式储能能力,也是我国未来能源领域最大的潜在优势所在。我国光伏、电动汽车和锂电产能都是遥遥领先,随着电池充放电次数和寿命不断提高,数亿辆电车利用峰谷电价差储能并反向回供电网,基本可以实现零成本用车甚至盈利,也同时会完全解决调峰问题。这需要电价政策、基础设施建设、政策支持和用户行为等多方面的配合。这也是为什么本文标题是《算力的尽头是电动车》。整个算力网络、输电网络、分布式能源网络,与车辆/充电网络的高度耦合,也许才是解决我国未来能源问题的终极解药。
/
此外,AI与电力系统还有另一层关系:其本身也是电力系统高效调度的保证。人工智能通过其强大的数据处理和分析能力,为电网和可再生能源网络的高效调度提供了多种解决方案。从预测和优化到自动化控制,再到能源存储管理和需求响应,AI技术的应用不仅提高了电网的运行效率,还有助于实现能源系统的绿色低碳转型。AI甚至可以使AI推理和训练计算任务本身,变成电网最需要的可动态响应的需求,从沉重的增量负荷,成为削峰填谷和时空平衡的灵药。
/

谷歌案例:新型碳智能计算平台

我们在可持续发展方面的最新进展是由一个工程师小组开发的,这是一个新的碳智能计算平台。我们为超大规模(意味着非常大)的数据中心设计并部署了这个首创的系统,将许多计算任务的时间安排到风能和太阳能等低碳能源最充足的时候。无需额外的计算机硬件即可完成此操作,并且不会影响人们全天候依赖的搜索、地图和 YouTube 等 Google 服务的性能。改变非紧急计算任务的时间安排(例如在 Google Photos 上创建新的过滤功能、YouTube 视频处理或在 Google Translate 中添加新单词)有助于减少电网的碳足迹,让我们更接近 24×7 无碳能源。

/
/
每天,在每个 Google 数据中心,我们的碳智能平台都会比较第二天的两种类型的预测。其中一项预测是当地电网平均每小时碳强度在一天中将如何变化。另一项预测了数据中心在同一时期执行其计算任务所需的每小时电力资源。然后,我们使用这两个预测来优化每小时策略,以使计算任务与低碳电力供应时间保持一致。早期结果表明碳意识负荷转移是有效的。我们的试点结果表明,通过转移计算工作,我们可以增加消耗的低碳能源量。
/
/
我们试点的数据说明了新系统如何将计算从我们的基线(虚线)转移到更好地与一天中碳密集度较低的时间(例如清晨和傍晚(实线))保持一致,此时风能最充足。灰色阴影代表一天中电网上存在更多碳密集型能源的时间。
/
综上,随着AI技术的迅速发展,我们正面临着日益增长的电力需求,这不仅对电网构成挑战,也为可再生能源的整合和利用提出了新的机遇。其重点并不是电力的总量不足,而是供需的时空不平衡。在这个背景下,电动车不仅是新能源应用的一个重要方向,更可能是实现能源网络与算力网络相互支撑、共同发展的关键链接。通过智能调度和技术创新,可以有效地平衡能源供需,提高系统的整体效率和可持续性。解决这些复杂问题的关键在于多领域的协同创新和战略统筹,构建相互促进、可持续的能源-算力一体健康发展的未来。
/
除此之外,这一复合系统的复杂性还表现在水、土地等资源的统筹。此外,明显效率低下的Transformer架构是否会长期维持Scaling up,如果会被更优雅的算法取代,也许就不需要为能源和碳排放而如此忧虑。其训练阶段的算力集中也并非没有技术上的解决方案。这些就不在这里展开讨论了。
/
(本文作者:王鹏 腾讯研究院资深专家)
前沿杂志
互联网前沿61

2022年,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。

2023-05-12

全站精选