在過(guò)去兩年里,我更多地參與了使用大型語(yǔ)言模型(LLM)而非傳統(tǒng)系統(tǒng)的生成式人工智能項(xiàng)目。我開(kāi)始懷念無(wú)服務(wù)器云計(jì)算。它們的應(yīng)用范圍從增強(qiáng)會(huì)話(huà)式人工智能到提供跨行業(yè)的復(fù)雜分析解決方案,以及其他許多功能。許多企業(yè)在云平臺(tái)上部署這些模型,因?yàn)橛鞋F(xiàn)成的公共云提供商生態(tài)系統(tǒng),這是阻力最小的途徑。然而,這樣做的成本并不便宜。
云還提供了其他許多好處,如可擴(kuò)展性、效率和高級(jí)計(jì)算能力(按需GPU)。LLM在公共云平臺(tái)上的部署過(guò)程有一些鮮為人知的秘密,這些秘密可能會(huì)對(duì)成功與否產(chǎn)生重大影響。也許是因?yàn)槟軌蛱幚鞮LM的人工智能專(zhuān)家并不多,也因?yàn)槲覀冏鲞@方面的應(yīng)用時(shí)間不長(zhǎng),所以我們的知識(shí)存在很多空白。
接下來(lái),讓我們來(lái)探討一下在云上部署LLM的三個(gè)鮮為人知的“秘密”,這些秘密甚至可能連您的人工智能工程師都不知道。
管理成本效率和可擴(kuò)展性
使用云平臺(tái)部署LLM的主要吸引力之一是能夠根據(jù)需要擴(kuò)展資源。我們不需要成為優(yōu)秀的容量規(guī)劃者,因?yàn)樵破脚_(tái)擁有我們可以通過(guò)點(diǎn)擊鼠標(biāo)或自動(dòng)分配的資源。
但是,我們可能即將犯與第一次使用云計(jì)算時(shí)同樣的錯(cuò)誤。在擴(kuò)展的同時(shí)管理成本并非一項(xiàng)任何人都能輕松掌握的技能。因?yàn)樵品?wù)通常根據(jù)所消耗的計(jì)算資源收費(fèi);消耗的越多,付出的就越多??紤]到GPU的成本更高(并且消耗更多的能量),這是公共云提供商關(guān)注的核心LLM問(wèn)題。
為此,請(qǐng)確保您使用了成本管理工具,包括云平臺(tái)提供的工具和可靠的第三方成本管理和監(jiān)控參與者提供的工具。同時(shí),您可以通過(guò)實(shí)現(xiàn)自動(dòng)擴(kuò)展和調(diào)度,選擇合適的實(shí)例類(lèi)型,或者使用可搶占的實(shí)例來(lái)優(yōu)化成本。另外,請(qǐng)記住持續(xù)監(jiān)控部署,以便根據(jù)使用情況調(diào)整資源,而不是僅僅使用預(yù)測(cè)的負(fù)載。這意味著要不惜一切代價(jià)避免過(guò)度配置。
多租戶(hù)環(huán)境中的數(shù)據(jù)隱私
部署LLM通常涉及處理大量數(shù)據(jù)和訓(xùn)練過(guò)的知識(shí)模型,其中可能包含敏感或?qū)S袛?shù)據(jù)。使用公共云的風(fēng)險(xiǎn)在于,您有在相同物理硬件上運(yùn)行的以處理實(shí)例形式存在的“鄰居”。因?yàn)楣苍拼_實(shí)存在這樣的風(fēng)險(xiǎn):在存儲(chǔ)和處理數(shù)據(jù)時(shí),公共云數(shù)據(jù)中心中運(yùn)行在相同物理硬件上的另一個(gè)虛擬機(jī)可能會(huì)以某種方式訪(fǎng)問(wèn)數(shù)據(jù)。
所有多租戶(hù)系統(tǒng)都存在這種風(fēng)險(xiǎn),甚至規(guī)模越小的云提供商——比如許多只在一個(gè)國(guó)家運(yùn)營(yíng)的云提供商——就越有可能出現(xiàn)這個(gè)問(wèn)題。您需要緩解這一風(fēng)險(xiǎn)。
秘訣在于選擇符合嚴(yán)格安全標(biāo)準(zhǔn)的云提供商,這些標(biāo)準(zhǔn)可以證明其具備靜態(tài)和傳輸中的加密、身份和訪(fǎng)問(wèn)管理(IAM)以及隔離策略。當(dāng)然,最好實(shí)現(xiàn)安全策略和安全技術(shù)堆棧,以降低在云上使用LLM的多租戶(hù)風(fēng)險(xiǎn)。
處理有狀態(tài)(stateful)模型部署
LLM大多是有狀態(tài)的,這意味著它們維護(hù)從一個(gè)交互到下一個(gè)交互的信息。這個(gè)屬性提供了一個(gè)新的好處:在持續(xù)學(xué)習(xí)場(chǎng)景中不斷提高效率。然而,在云環(huán)境中管理這些模型的有狀態(tài)屬性是很棘手的一件事,因?yàn)樵谠骗h(huán)境中,實(shí)例可能是臨時(shí)的或設(shè)計(jì)為無(wú)狀態(tài)的。
支持有狀態(tài)部署的編排工具(如Kubernetes)很有幫助。它們可以利用LLM的持久存儲(chǔ)選項(xiàng),并被配置為跨會(huì)話(huà)維護(hù)和操作它們的狀態(tài)。您將需要它來(lái)支持LLM的連續(xù)性和性能。
隨著生成式人工智能的爆炸式增長(zhǎng),在云平臺(tái)上部署LLM已成定勢(shì)。我擔(dān)心的是,我們會(huì)在此過(guò)程中錯(cuò)過(guò)一些很容易解決的問(wèn)題,從而犯下巨大的、代價(jià)高昂的錯(cuò)誤,而這些錯(cuò)誤大多是可以避免的。