OpenAI的GPT-4和Anthropic的Claude 2等大語言模型(LLM)已經(jīng)憑借其生成人類級文本的功能激發(fā)了公眾的想象力。企業(yè)也同樣熱情高漲,許多企業(yè)在探索如何利用LLM改進產(chǎn)品和服務(wù)。然而,一大瓶頸嚴重制約了最先進的LLM在生產(chǎn)環(huán)境中的采用,那就是速率限制。有一些方法可以突破這種速率限制,但如果沒有計算資源方面的改進,真正的進步可能不會到來。
承擔成本
公共LLM API允許用戶訪問OpenAI和Anthropic等公司的模型,對每分鐘可以處理的token(文本單位)的數(shù)量、每分鐘的請求數(shù)量以及每天的請求數(shù)量施加了嚴格的限制。
對OpenAI GPT-4的API調(diào)用目前限制為每分鐘3個請求(RPM)、每天200個請求,以及每分鐘最多10000個token(TPM)。最高檔允許10000 RPM和300000 TPM的限制。
針對每分鐘需要處理數(shù)百萬個token的大型生產(chǎn)級應(yīng)用程序,這種速率限制使得企業(yè)使用最先進的LLM實際上行不通。請求不斷增多,需要幾分鐘乃至幾小時,無法進行任何實時處理。
大多數(shù)企業(yè)仍在竭力安全有效地大規(guī)模采用LLM。但是即使它們解決了數(shù)據(jù)敏感性和內(nèi)部流程方面的挑戰(zhàn),速率限制也成為一個頑固的障礙。隨著產(chǎn)品使用和數(shù)據(jù)的積累,圍繞LLM開發(fā)產(chǎn)品的初創(chuàng)公司很快就會遇到瓶頸,但擁有龐大用戶群的大企業(yè)受到的限制最大。如果沒有特殊的訪問機制,它們的應(yīng)用程序根本無法運行。
該怎么辦?
規(guī)避速率限制
一條路子是完全繞過速率限制技術(shù)。比如說,有些特定用途的生成式AI模型沒有LLM瓶頸??偛课挥谟=虻某鮿?chuàng)公司Diffblue依賴沒有速率限制的強化學習技術(shù)。它在一件事上做得非常好,非常有效,可能覆蓋數(shù)百萬行代碼。它自主創(chuàng)建Java單元測試的速度是開發(fā)人員的250倍,編譯速度是開發(fā)人員的10倍。
由Diffblue Cover編寫的單元測試使您能夠快速了解復(fù)雜的應(yīng)用程序,從而使大企業(yè)和初創(chuàng)公司都能夠滿懷信心地進行創(chuàng)新,這對于將遺留應(yīng)用程序遷移到云端是理想選擇。它還可以自主地編寫新代碼、改進現(xiàn)有代碼、加速CI/CD管道,在不需要人工審查的情況下深入洞察與變更相關(guān)的風險。這不賴。
當然,一些公司不得不依賴LLM。它們又有什么選擇?
增加計算資源
一種選擇就是請求提高公司的速率限制。到目前為止這個做法不錯,但潛在的問題是,許多LLM提供商實際上沒有額外的能力好提供。這是問題的癥結(jié)所在。GPU可用性取決于來自臺積電等代工廠的硅圓片總數(shù)。占主導(dǎo)地位的GPU制造商英偉達無法采購足夠的芯片來滿足AI工作負載帶來的爆炸式需求,大規(guī)模推理需要成千上萬個GPU組合在一起。
增加GPU供應(yīng)量的最直接方法是建造新的半導(dǎo)體制造工廠,即所謂的晶圓廠。但是一座新的晶圓廠造價高達200億美元,需要數(shù)年才能建成。英特爾、三星代工、臺積電、德州儀器等主要芯片制造商正在美國建設(shè)新的半導(dǎo)體生產(chǎn)設(shè)施。眼下,所有人只能等待。
因此,利用GPT-4的實際生產(chǎn)部署很少。真正部署GPT-4的環(huán)境范圍有限,它們使用LLM作為輔助功能,而不是作為核心產(chǎn)品組件。大多數(shù)公司仍在評估試點和概念驗證。在考慮速率限制之前,本身就需要將LLM集成到企業(yè)工作流程中。
尋找答案
GPU制約限制了GPT-4的處理能力,這促使許多公司使用其他生成式AI模型。比如說,AWS擁有自己的專門用于訓練和推理的芯片(一旦訓練好就運行模型),從而為客戶提供了更大的靈活性。重要的是,并不是每個問題都需要最強大、最昂貴的計算資源。AWS提供了一系列更便宜、更容易調(diào)優(yōu)的模型,比如Titan Light。一些公司在探索替代方案,比如對Meta的Llama 2等開源模型進行微調(diào)。針對涉及檢索增強生成(RAG)、需要將上下文附加到提示并生成響應(yīng)的簡單用例,功能較弱的模型就足夠了。
另一些技術(shù)也有所幫助,比如跨多個具有較高限制的舊LLM并行處理請求、數(shù)據(jù)分塊和模型蒸餾。有幾種技術(shù)可以降低推理的成本、提高速度。量化降低了模型中權(quán)重的精度,權(quán)重通常是32位浮點數(shù)。這不是一種新方法。比如說,谷歌的推理硬件張量處理單元(TPU)只適用于權(quán)重被量化為8位整數(shù)的模型。該模型失去了一些準確性,但變得小巧得多,運行起來更快。
一種名為“稀疏模型”的新流行技術(shù)可以降低訓練和推理的成本,耗費的人力比模型蒸餾更少。LLM好比是許多較小語言模型的集合。比如說,當您用法語向GPT-4詢問問題時,只需要使用模型的法語處理部分,稀疏模型就利用了這個特點。
您可以做稀疏訓練,只需要訓練模型的法語子集,也可以做稀疏推理,只運行模型的法語部分。與量化一起使用時,這可以從LLM中提取更小的專用模型,這種模型可以在CPU而不是GPU上運行。GPT-4之所以出名,是由于它是一個通用文本生成器,而不是更狹窄、更特定的模型。
在硬件方面,專門針對AI工作負載的新處理器架構(gòu)有望提高效率。Cerebras已經(jīng)研制了一種巨大的晶圓級引擎,針對機器學習進行了優(yōu)化,而Manticore正在改造制造商丟棄的“廢棄”GPU芯片,以提供實用的芯片。
最終,最大的成效將來自需要更少計算的下一代LLM。結(jié)合經(jīng)過優(yōu)化的硬件,未來的LLM可以突破目前的速率限制障礙。目前,眾多渴望的公司競相要求利用LLM的功能,生態(tài)系統(tǒng)不堪重負。那些希望在AI領(lǐng)域開辟新道路的人可能需要等到GPU供應(yīng)進一步趨緩之后。具有諷刺意味的是,這些限制可能恰恰有助于撇除圍繞生成式AI的一些泡沫炒作,讓這個行業(yè)有時間適應(yīng)積極的模式,以便高效經(jīng)濟地使用它。