近来,AI算力新秀CoreWeave在自己的推特上共享了一则音讯:该公司刚刚经过典当英伟达H100GPU的办法获得了23亿美元的融资,将用这笔钱来购买更多的H100GPU,以便在年底前再树立10个新数据中心。
一位供职于国内某互联网大厂的朋友在转发该音讯后评论道:“曾经只听说过地产公司经过典当房子来拿借款,然后用贷来的钱继续盖房子。这种典当GPU借钱,再拿借来的钱继续买GPU的做法却是榜首次看到。”
一般来说,相同的一件电子产品,年底时的价格会比年头低上一大截。所以简直不会有人购买电子产品来进行保值,金融机构也很少会乐意承受电子产品作为典当品。可是,这些经历在GPU面前失灵了。今时今天,好像整个商场都在争抢GPU,在eBay渠道上,英伟达H100GPU芯片的价格现已被炒到了每张4.5万美元,而在两三个月前,它的价格仍是在3.6万美元左右。
GPU终究是什么?为什么在AI年代,GPU会成为人们竞相争抢的硬通货?它的价值来自哪里?又能坚持多长的时刻?在GPU硬通货化的背面,又存在着什么更深的隐喻?且让咱们逐个说来。
GPU的由来
咱们知道,GPU是英文“图形处理器”(graphicprocessingunit)的缩写。从这个姓名就不难知道,GPU本来并不是用来履行AI相关的使命,而是用来处理图形的。
从上世纪80年代开端,跟着核算机辅佐运用(CAD)、地理信息体系(GIS)等技能的开展,用核算机处理图形的需求开端呈现添加。特别是电子游戏职业的异军突起,更是为核算机图形处理培养了巨大的用户集体。可是,作为核算机处理中心的元件CPU在处理图形时功率并不高,这就导致了专业处理图形使命的核算元件的呈现。
1983年,《核算机国际》(ComputerWorld)杂志上刊登的一篇介绍Tek-tronix的图形终端的文章里首先呈现了GPU一词。可是,此GPU非彼GPU,它的全称是graphicprocessorunit。这一类所谓的GPU尽管能够处理2D图画,但因为其时还缺少光影转化(trans-formandlighting,简称T&L)组件,因而它们还无法独立处理3D图形,有必要调配CPU运用。直到1990年代,图形处理元件加入了T&L组件,现在人们所了解的GPU才正式呈现。
关于终究谁才是现在意义上GPU的发明者,业界一向存在着争议。一种观念以为,GPU的发明权应该归于美国硅图公司(SiliconGraphics,简称SGI)。1996年,SGI推出了能够完结硬件T&L的图形处理器,现已具有了现在人们以为的GPU的首要功用。不过,因为它首要是被用在任天堂的主机上,所以许多人并不乐意供认它是真实的GPU。另一种观念则以为,榜首块GPU是由一家名为3Dlabs的英国公司推出的。1997年时,它在一块双芯片处理器中加入了带有T&L功用的引擎,并将这块处理器冠以了“几许处理器”(GeometryPro-cessorUnit,简称也是GPU)的姓名。可是,因为3Dlabs专心于CAD的狭小商场,影响并不大,因而将其以为是GPU发明者的人也不多。
比较于SGI和3Dlabs,一个认可度更高的GPU发明者是英伟达。在上世纪90年代的半导体商场上,英伟达其实算是一个后来者。其时,这个商场上的根本格式是AMD和英特尔两大巨子坚持,而它们抢夺的焦点是CPU。在那几年中,英特尔的飞跃系列CPU和AMD的Am386、Am486系列CPU可谓是你方唱罢我上台,战得不亦乐乎,其他企业只能坐看神仙打架。
1993年,就在整个商场都以为很难在巨子强占的商场中抢到时机时,供职于LSILogic的黄仁勋却挑选了辞去职务下海,创建了英伟达。不过,黄仁勋看好的并不是CPU,而是图形加快卡。在其时看来,这好像是一个非常冷门的事务。尽管跟着PC和游戏机的遍及,不少人知道到了图形处理的重要性,但其间的大部分人以为这个使命应该由CPU而不是专门的图形处理硬件来完结。
但黄仁勋并不这么以为,他坚持看好图形处理硬件的未来。在很大程度上,他的这个判别来自于对其时游戏职业的调查。1993年,一款名为《德军总部3D》(Wolfstein3D)的游戏横空出世,引发了商场对3D游戏的极大爱好。但事实上,《德军总部3D》并不是真3D,它仅仅用2D贴图假装出了3D效果。在黄仁勋看来,已然独自的CPU不足以支撑真3D游戏,那么要完结它们就只能选用辅佐的加快硬件。当然,尽管其时看好硬件加快商场潜力的人不多,但也不只黄仁勋一人。比方,英伟达前期最重要的竞赛者3dfx公司也很早押注了这个商场,并一度凭借着其首先推出的巫毒(Voodoo)加快卡雄霸全球商场。
应该说,黄仁勋命运的确不错,在创业初期就收到了日本游戏机公司世嘉的芯片研制订单,并得到了700万美元资金支撑。但这种命运并没有继续多久,因为他在3D图画技能上挑选的失误,没能兼容微软新拟定的DirectX规范,导致了初代产品NV1出师不利,销量惨白。
在经过一番调整后,英伟达总算步入了正轨。靠着世嘉公司付出的研制费用,英伟达开发出了Riva128。坦白讲,单论功用,Riva128并不如巫毒,但3dfx却犯了一个丧命的过错——坚持自己的开发东西GlideAPI,回绝运用DirectX。而英伟达则及时吸取教训,挑选了拥抱微软、拥抱DirectX。很显然,在微软控制PC体系的年代,这个战略是非常正确的,Riva128也因而而大卖。
1998年,英伟达与台积电达到协作,开端运用“无工厂”(Fabless)形式。之后,英伟达只担任芯片的规划和出售,出产则彻底交托给台积电来代工。经过这种形式,英伟达得以轻装上阵,将更多的精力投放到研制和商场研讨中,然后推出了一系列爆款产品。运用这些产品,英伟达总算在图形加快商场上站稳了脚跟。
不过,黄仁勋的野心当然不止于此。在他看来,图形加快硬件不应该仅仅CPU的帮手,应该有自己的独立人物。在这种理念的指导下,英伟达于1999年推出了它的GeForce256显卡。这款显卡不只将T&L功用整合到了其间,完结了独立于CPU的T&L处理,集成了立方环境原料贴图、极点混合、纹路紧缩和凹凸映射贴图、两层纹路四像素、256位烘托引擎等先进技能,还一同规划了可编程加快功用。在这些技能特质的加持之下,GeForce256对一些高端3D游戏的支撑才能要远胜于其时盛行的3D图形加快卡,问世后一炮而红,敏捷成为了广阔发烧友宠爱的游戏神器。英伟达也捉住时机,运用广告攻势,顺势将“具有集成T&L、三角形设置/裁剪和烘托引擎,能够每秒至少处理 1000万个多边形的单芯片处理器”界说为了GPU——假如严厉依照这个界说,那么英伟达就的确是GPU的发明者了。
英伟达敏捷成为了这个商场上的胜利者和引领者。2000年,它更是将最首要的竞赛对手3dfx直接收买,进一步安定了自己的商场霸主方位。所谓前史是由胜利者书写的,时至今天,当咱们在查找引擎上查找谁是GPU的发明者时,英伟达就成了默许的答案。
从游戏之友到AI神器
那么,GPU又是怎样从一款游戏神器变成AI神器的呢?在对这个问题进行阐明前,咱们需求先对GPU的结构进行一些简略的介绍。
从总体上看,无论是CPU仍是GPU,都包含运算器(ArithmeticandLogicUnit,简称ALU)、控制单元(ControlUnit,简称CL)、高速缓存器(Cache)和动态随机存取存储器(DRAM)。可是,这些成分在两者中的构成份额是不同的。在CPU傍边,控制单元和存储单元占的份额很大,而作为核算单位的ALU份额则很小;而在GPU傍边则正好相反。
这种结构上的差异决议了CPU和GPU功用上的差异。因为CPU在控制和存储的才能上比较强,因而就能进行比较复杂的核算,不过能够一同履行的线程很少。而GPU则相反,许多的核算单位让它能够一同履行多线程的使命,但每一个使命都比较简略。打个比方,CPU是一个通晓数学的博士,微积分、线性代数样样都会,但尽管如此,让他做一万道四则运算也很难;而GPU呢,则是一群只会四则运算的小学生,尽管他们不会微积分和线性代数,但人多力量大,假如一同开干,一万道四则运算分分钟就能搞定。
因为在图形处理的进程中会触及许多不同颜色单元的图形和颜色的改换,所以GPU的特质就让它先六合合适被作为图形处理的硬件运用。而当深度学习鼓起之后,人工智能专家们很快就发现,GPU也很合适用来练习神经和运用网络模型。因为在深度学习模型中,最首要的运算便是矩阵运算和卷积,而这些运算从根本上都能够分解为简略的加法和乘法。如此一来,GPU就找到了新的“工作”空间,开端被广泛地运用于人工智能,摇身一变,从游戏神器变成了AI神器。
关于英伟达这个GPU商场的王者,AI范畴的上述意向简直是为它送来了一块天上掉下的馅饼。它也顺势捉住了这个时机。2007年,英伟达提出了GPGPU,即“通用意图GPU”(GeneralPurposeGPU)架构,将本来专用于图形处理的GPU改造成了更合适AI运算的GPU。与此一同,英伟达还推出了GPGPU的核算一致架构(ComputeU-nifiedDeviceArchitecture,CUDA)渠道,答应程序员运用类 C言语编写GPU的并行核算代码,而且供给了许多的库函数和东西来协助优化 GPU核算。经过这些尽力,英伟达到功将GPU能处理的问题由图形扩展到了通用核算范畴,由此在商场上抢得了先机,首先从游戏范畴的硬件霸主转型成了AI范畴的“军火商”。
各大AI巨子为抢占大模型商场抢破头时,这位“军火商”却坐收渔人之利,成为了这场大战最大的赢家——不只赚得盆满钵满,让自己的市值突破了万亿美元大关,还凭借着其对GPU进行分配的权利,在某种程度上成为了左右AI大战终究走向的暗地之手。
从AI神器到硬通货
现在咱们回到本文最初的问题:为什么GPU并没有遵从一般半导体产品的价格下降规则,反而成为了一件硬通货?
在商场经济的条件下,能够让某种产品的价格坚持昂扬且坚硬的原因只需一个,那便是需求超过了供给。要了解GPU为何能够成为硬通货,就有必要对其供求情况有所了解。
1、GPU的需求情况
什么人在购买GPU呢?关于这个问题,马斯克曾给出过一个答复:“在现在这个时刻点,好像一切人和他们的狗都在处处找GPU。”马斯克的这个答复当然是带有戏弄的,可是整个AI圈的确都在为GPU而张狂。
最近在交际新闻网站Raddit上热传的一篇文章曾对几个大公司的GPU需求量做过一个核算。依据这篇文章,OpenAI在练习GPT-4时曾运用了10000到25000张英伟达A100GPU;脸书在练习AI时运用了大约21000张A100;特斯拉运用了约7000张A100;Midjourney的开发者StabilityAI大约运用了5000张A100。此外,阿联酋阿布扎比技能创新研讨所开发的Falcon-40B用了384张A100进行练习;AI草创公司Inflection则正在运用3500张H100GPU来练习功用足以对抗GPT-3.5的大模型。而依据马斯克的爆料,OpenAI正在练习的GPT-5所运用的H100GPU或许达到了3万到5万张。除此之外,还有很多草创企业也都需求GPU,需求量从几百张到几千张不等。一切这些需求加总在一同,就构成了非常巨大的数字。
这儿需求阐明的是,在GPU商场上,不同类型的GPU的需求不同非常大。现在,商场上最受欢迎的GPU便是英伟达的H100。依据英伟达方面的介绍,这款专门为人工智能规划的GPU芯片选用了新一代的Hopper架构,具有800亿个晶体管,无论是在深度学习模型的练习仍是推理方面,都具有非常强壮的才能。在各种第三方的测验傍边,H100也获得了非常好的成果。例如,在近期举办的一次MLPerfAI测验中,英伟达H100集群一举在悉数八个项目中都获得了榜首,仅用11分钟就完结了一遍GPT-3的练习,用8秒就完结了一遍BERT模型的练习。
得益于H100的优异功用,所以简直一切AI企业都对其凶相毕露。依据网上热传的一个估量:OpenAI或许需求5万张H100;脸书或许需求2.5万张;Inflection需求2.2万张;微软的Azure云、谷歌云、亚马逊的AWS,以及Oracle这四大云服务商或许各需求3万张;Lambda、CoreWeave以及其他私有云或许一共需求10万张;Anthropic、Helsing、Mistral、Character等企业或许各需求1万张——将上面这些需求加总在一同,H100的总需求量就超过了43万张。需求指出的是,上述估量数字还没有包含我国的大型科技企业,以及包含JP摩根在内的很多金融企业的需求。假如将这些企业的需求量考虑在内,H100的需求量将更是惊人。
或许有人会问,相同是GPU,为什么H100会要比其他类型的GPU,比方A100更受欢迎呢?这其实既是一个技能问题,也是一个经济问题。总体上讲,尽管同为GPU,可是不同类型的GPU之间的首要功用是不同的。大致上讲,在AI范畴,GPU的用处首要有两种:一是推理(inference),即用练习好的模型生成咱们需求的成果和内容;二是练习(training),即运用样本数据来练习AI模型。因为使命不同,所以在规划进程中有必要组织不同的架构来对它们进行支撑。一般来说,推理进程一般需求高效的核算才能和低推迟的响应速度,因而推理芯片的规划重视高效的核算单元和能耗控制;而练习进程则需求更高的核算才能和存储才能,因而练习芯片的规划重视高度并行化和大规模存储。
得益于更为优异的架构规划,H100无论是在推理才能仍是练习才能上都要比A100更优。测验成果表明,它的16位推理速度大约是A100的3.5倍,16位练习速度则大约是A100的2.3倍。而从本钱上看,H100大约是A100的1.5到2倍。由此可见,尽管H100的价格要比A100更贵,但从性价比看,H100则具有更大的优势。
这儿特别需求指出的是,当Chat-GPT的爆火之后,大批企业都投入了大模型的开发。关于这些企业而言,能够更早地开发出品质优异的大模型就能为自己在竞赛中获得更为有利的方位,这就激发了它们对能够以更快速度练习模型的东西的巴望。
2、GPU的供给情况
已然现在价格现已被炒上了天,那么供给商就应该捉住这个时机卖卖卖吧。但有意思的是,各大GPU供给商迟迟不添加供给,逼得一些AI企业甚至不得不到二手商场去收买旧的GPU。非不肯也,实不能也。
关于包含GPU在内的半导体产品而言,整个供给链能够分为三段:上游首要是指EDA、IP授权以及GPU芯片规划,中游首要是指GPU的制造和封装测验,下流首要是集成商和终端出售。其间,现在GPU卡口最严峻的部分就出在供给链的中游。
众所周知,芯片的出产关于工艺的要求非常高,因而契合出产条件的制造商很少。以英伟达的H100为例,正如咱们前面说到的,在英伟达选用了“无工厂”形式之后,其制造就悉数托付给了台积电。可是,即使是对台积电而言,也只需N5、N5P、N4和N4P四个制程节点(注:制程节点指的是电路铸造的制程工艺节点。一般以纳米来衡量,例如N5指的便是5纳米制程节点。制程节点越小,在一块晶圆上能够制造的集成电路就越多。)能够用来进行H100的制造。而因为台积电的制造工艺杰出,所以苹果、高通等公司都在托付其进行代工,因而英伟达就不得不需求和这些公司一同共用以上制程节点。除此之外,在封装环节,台积电也面临着产能的约束。这些要素加在一同,就导致了H100在供给链的中游面临着非常紧的瓶颈。
与此一同,还需求注意的一点是,GPU的组件供给也在必定程度上约束着它的供给。仍以H100为例,其运用的要害组件高带宽存储器(HighBandwidthMemory,简称HBM)就面临着很严峻的供给约束。现在,英伟达在H100上运用的HBM简直都来自于韩国企业SK海力士半导体公司(SKHynix)。可是,SK海力士出产HBM的才能是有限的,这就对H100的产值构成了直接的约束。有风闻说英伟达或许从三星和美光收购一部分HBM,但这两家企业的产能依然是有限的,因而扩展收购规模终究能够在多大程度上缓解HBM的紧缺依然是一个问题。
归纳以上剖析,咱们能够看到,尽管面临着GPU需求的暴升,但因为供给链的约束,GPU的供给量很难在短期内呈现严重提高。现在看来,由生成式AI所带动的算力需求添加还会继续较长的一段时刻,因而至少在这段时刻内,GPU的求过于供还会继续存在。在需求规律的效果之下,这就导致了GPU这种半导体产品呈现了非常失常的价格继续上升。因而,在融资傍边,它也就得以扮演起了典当品的人物。
从财富之源到权利之杖
当人们津津有味于GPU居然能够成为硬通货,在金融商场上作为典当品的时分,很或许疏忽了别的一层更深的隐喻,即跟着GPU在AI年代效果的日益杰出,它好像正在成为AI范畴的权利之源。
7月25日,微软发布了它2023财年第四季度的财报。得益于和OpenAI的协作,微软的云事务在本财季呈现了大幅的添加,带动了公司营收情况的明显改进。与去年比较,其营收同比添加了8%,净利润的同比涨幅更是达到了20%。在展现自己所获得的骄人成果的一同,微软也在财报中提示了一些潜在的危险,其间之一便是GPU危险。微软指出,GPU现已成为了支撑其云事务敏捷添加的要害原材料,假如GPU的供给不能确保,则其服务质量或许会遭到很大影响。
为了缓解对GPU的渴求,微软可谓是竭尽全力。一方面,它直接向英伟达方面示好,要求收购更多的GPU。另一方面,它也想了一些迂回的办法。比方,在不久之前,它就和CoreWeave——也便是本文最初说到的那家典当H100来借钱买H100的算力供给商达到了协议,约好将在未来几年内继续向后者供给金额数十亿的出资,一同建造云核算的基础设施。其原因在于CoreWeave和英伟达联系甚密,在不久前的B轮融资中,就得到了英伟达的出资。凭借着这层联系,英伟达方面承诺会优先对CoreWeave供给GPU的供给。因而,关于微软来说,出资CoreWeave便是和英伟达套了近乎,然后有时机让它得到更多的H100和A100的运用权。看看微软现在这番良苦的用心,再联想英伟达创业之初为求生存不得不屈服于微软创建的规范,真不由让人感叹三十年河东,三十年河西。
当然,咱们还能够举出更多的GPU供给商控制AI之战的事例。一个典型的比如是咱们前面起到过的Inflection。这家由DeepMind联合创始人穆斯塔法·苏莱曼(MustafaSuleyman)兴办并担任CEO的公司最近可谓风头正劲。和其他大模型公司不同,Inflection并不想发明无所不能的通用人工智能(AGI),而是将注意力会集在了个人智能(PI)范畴。它的首要产品——名为Pi的谈天机器人功用也很单一,现在只需谈天。很显然,在现在树立的AI模型中,这款产品并不拔尖。可是,便是这样一家看似平平无奇的公司,其估值却达到了40亿美元。除了它具有的名贵智力资源外,一个重要的原因便是GPU。不久前,Inflection揭露宣告,它将打造一个具有2.2万块H100芯片的超级核算集群,以支撑新一代AI大模型的练习和布置。这个集群的集成数量现已彻底逾越了脸书于5月宣告的方案。
Inflection是怎样做到的呢?只需咱们看一下它的出资人,答案就当即揭晓了。是的,在它的出资人中,就有英伟达。别的值得一提的是,Inflection在打造这个集群的进程中,还有一个重要的协作者——CoreWeave。而正如咱们现已看到的,它也是英伟达的利益共同体。由此可知,Inflection得以爆火的背面,英伟达以及它手中的GPU应该起了要害的效果。
记住本年3月,各大生成式AI公司激战正酣的时分,曾有一位记者来采访我,她问:“依您看来,这场AI大战的最终赢家会是谁?微软,谷歌,仍是OpenAI?”我其时的答复是:“我不知道它们傍边谁会赢,但最终的赢家里必定有英伟达!”现在看来,这个答复是彻底正确的。不过,假如现在她再问我这个问题,我会在答案上再加一句:或许,它还能用GPU投票,决议谁会是赢家。