托管數(shù)據(jù)中心的標準結(jié)構(gòu)是擁有數(shù)十個甚至數(shù)百個客戶同時運行不同的應(yīng)用。但英偉達提供了對一種新型數(shù)據(jù)中心的洞察,該數(shù)據(jù)中心運行的應(yīng)用,而且只有一個客戶在使用它。
“人工智能工廠”的出現(xiàn)
這是一種新型的數(shù)據(jù)中心,這種新型的數(shù)據(jù)中心與過去的數(shù)據(jù)中心不同,過去的數(shù)據(jù)中心有很多應(yīng)用運行,由很多不同的租戶使用相同的基礎(chǔ)設(shè)施”。
這些新的數(shù)據(jù)中心托管很少的應(yīng)用,基本上由一個租戶使用,它處理數(shù)據(jù),訓(xùn)練模型,然后生成令牌并生成人工智能。我們將這些新數(shù)據(jù)中心稱為“人工智能工廠”。
我們看到人工智能工廠隨處可見。我的猜測是,幾乎每個主要地區(qū)都會有,每個主要國家肯定都會有自己的人工智能云。因此,我們正處于這種拐點、這種計算轉(zhuǎn)型的開始。
這種趨勢目前正在印度、瑞典、日本和法國發(fā)生。人工智能要想真正有效,就必須符合語言和文化標準。日本的人工智能需求與瑞典的需求不同。這就是為什么人工智能數(shù)據(jù)中心和單租戶人工智能工廠僅限于個別國家。
評估部署人工智能的規(guī)模
Amazon和Google等大型云服務(wù)提供商以及Equinix等主要主機托管提供商的數(shù)據(jù)中心往往非常龐大,有一個足球場那么大??紤]到NvidiaHopper處理器的巨大功耗,這些人工智能工廠的規(guī)模將與麥當勞相當。
典型的數(shù)據(jù)中心機架功率預(yù)算在6kW至8kW范圍內(nèi),但如果希望部署針對運行LLM而優(yōu)化的服務(wù)器,則單個服務(wù)器消耗約11KW的功率,這相當于大約14臺通用服務(wù)器的平均功耗。
在這種情況下,在典型的數(shù)據(jù)中心中只能運行有限數(shù)量的GPU服務(wù)器,例如DGXH100,如果你有一個1MW的數(shù)據(jù)中心,可以在里面部署大約50臺DGXH100服務(wù)器。要將人工智能大規(guī)模部署到大量并發(fā)用戶,將需要大型此類服務(wù)器集群。這意味著典型的數(shù)據(jù)中心只能滿足有限數(shù)量的客戶的需求,而且很可能只能滿足單個客戶的需求。
人工智能工廠的未來
對于人工智能工廠等單一用途GPU環(huán)境來說,最具成本效益的設(shè)計將是專門為更高密度和液體冷卻而設(shè)計的專用數(shù)據(jù)中心,并且位置最適合人工智能企業(yè)。
人工智能集群的功耗將成為數(shù)據(jù)中心擁有大量服務(wù)器的限制因素,而且其中一些數(shù)據(jù)中心很可能專門用于人工智能。圍繞人工智能的安全和監(jiān)管框架也可能推動這一趨勢。生成式人工智能和通用人工智能的發(fā)展引發(fā)了一些安全和合規(guī)性問題,因此企業(yè)可能會決定從高度安全的專用設(shè)施運行此類工作負載。
人工智能工廠與數(shù)據(jù)中心
由于人工智能功率密度是傳統(tǒng)數(shù)據(jù)中心的五到十倍,人工智能工廠的規(guī)模不會達到傳統(tǒng)數(shù)據(jù)中心的大小,傳統(tǒng)數(shù)據(jù)中心的面積已超過一百萬平方英尺。
傳統(tǒng)數(shù)據(jù)中心和人工智能工廠之間的另一個區(qū)別是它們的位置。巨型數(shù)據(jù)中心往往建在可再生能源旁邊的偏遠地區(qū),而人工智能工廠則可以建在市中心或大城市地區(qū)以及擁有大量可用電力的現(xiàn)有設(shè)施中。
目前,有大量辦公和零售空間未得到充分利用,變得非常非常有吸引力的是一座廢棄的建筑或未充分利用的城市空間,或者是一個偏僻的舊倉庫的一部分,它們已經(jīng)擁有電力,可以在其中放下一些人工智能設(shè)備,一些液體冷卻并插入電源去。
盡管無法預(yù)測數(shù)據(jù)中心行業(yè)的未來,但人工智能的快速增長暗示,隨著數(shù)字基礎(chǔ)設(shè)施運營商爭先恐后地滿足不斷增長的需求,人工智能工廠可能很快就會成為必需品。