ChatGPT讓人們興奮不已,為什么蘋(píng)果、亞馬遜、摩根大通、德意志銀行、三星和埃森哲等這么多企業(yè)都禁止使用它呢?主要是由于擔(dān)心部署像ChatGPT這樣的外部大型語(yǔ)言模型(LLM),可能導(dǎo)致敏感數(shù)據(jù)被傳輸和存儲(chǔ)在企業(yè)安全環(huán)境之外。
生成式人工智能(GenAI)在企業(yè)中的有效性取決于能否根據(jù)公司自己的數(shù)據(jù)成功訓(xùn)練大型語(yǔ)言模型(LLM),這些數(shù)據(jù)包括從電子郵件到財(cái)務(wù)報(bào)表的所有內(nèi)容。這種專(zhuān)門(mén)的訓(xùn)練確保人工智能對(duì)話(huà)的準(zhǔn)確性和相關(guān)性。然而,企業(yè)數(shù)據(jù)的私有性質(zhì)以及嚴(yán)格遵守?cái)?shù)據(jù)隱私、治理和法規(guī)遵從性的需求帶來(lái)了重大挑戰(zhàn)。管理不善可能導(dǎo)致數(shù)據(jù)泄露和品牌損害等代價(jià)高昂的后果。
ChatGPT在企業(yè)應(yīng)用方面準(zhǔn)備不足的五大原因是:
準(zhǔn)確性:為了獲得準(zhǔn)確的結(jié)果,使用特定于業(yè)務(wù)的數(shù)據(jù)對(duì)人工智能模型進(jìn)行微調(diào)至關(guān)重要。然而,OpenAI目前還沒(méi)有提供一種直接用這些數(shù)據(jù)訓(xùn)練ChatGPT的方法。用戶(hù)必須快速開(kāi)發(fā)自己提示模板,并針對(duì)獨(dú)立的GPT-3.5模型進(jìn)行培訓(xùn),該模型既不與其他客戶(hù)共享,也不用于訓(xùn)練其他模型。微調(diào)數(shù)據(jù)必須正確分類(lèi)、準(zhǔn)備、標(biāo)記,如果數(shù)據(jù)敏感,還需要考慮識(shí)別功能,所有這些都必須在數(shù)據(jù)輸入之前進(jìn)行。為微調(diào)而上傳的數(shù)據(jù)將由OpenAI無(wú)限期保留,直到客戶(hù)刪除這些文件。
透明度:人工智能領(lǐng)域通常對(duì)學(xué)習(xí)和改進(jìn)保持高度開(kāi)放的標(biāo)準(zhǔn)。然而,隨著GPT-4的發(fā)布,OpenAI選擇使其源代碼專(zhuān)有,并對(duì)同行評(píng)審保留技術(shù)細(xì)節(jié)。缺乏透明度阻礙了研究人員和數(shù)據(jù)科學(xué)家對(duì)結(jié)果進(jìn)行核實(shí)和驗(yàn)證,對(duì)需要完全透明和開(kāi)源訪(fǎng)問(wèn)以進(jìn)行徹底評(píng)估的企業(yè)構(gòu)成了挑戰(zhàn)。
消費(fèi)者數(shù)據(jù)隱私:ChatGPT通過(guò)數(shù)據(jù)隱私協(xié)議(DPA)處理消費(fèi)者數(shù)據(jù)隱私,以滿(mǎn)足GDPR請(qǐng)求。然而,DPA并沒(méi)有完全涵蓋關(guān)鍵行業(yè)法規(guī)(如醫(yī)療保健行業(yè)的PHI/HIPAA、信用卡處理行業(yè)的PCI/DSS或金融服務(wù)行業(yè)的SEC和FINRA)所需的更復(fù)雜的數(shù)據(jù)隱私要求。某些法規(guī)僅禁止某些形式的衍生數(shù)據(jù)處理,但將大部分衍生數(shù)據(jù)排除在DPA保護(hù)之外,引發(fā)了額外的擔(dān)憂(yōu)。
安全性:OpenAI及其云合作伙伴保持著高安全標(biāo)準(zhǔn),但ChatGPT的專(zhuān)有性質(zhì)及其數(shù)據(jù)使用引發(fā)了對(duì)數(shù)據(jù)泄露和泄露的擔(dān)憂(yōu)。沒(méi)有提供企業(yè)級(jí)的安全特性,如細(xì)粒度的、基于角色的訪(fǎng)問(wèn)控制和主動(dòng)的“權(quán)限管理”解決方案。OpenAI平臺(tái)缺乏端到端加密,這意味著OpenAI員工可能可以訪(fǎng)問(wèn)數(shù)據(jù)和對(duì)話(huà),并且沒(méi)有數(shù)據(jù)屏蔽或敏感數(shù)據(jù)發(fā)現(xiàn)工具等數(shù)據(jù)混淆解決方案來(lái)幫助數(shù)據(jù)準(zhǔn)備。
數(shù)據(jù)治理:有效的企業(yè)數(shù)據(jù)管理需要遵守廣泛的行業(yè)和政府法規(guī)。除了信息生命周期管理(ILM)和SOC 2合規(guī)性之外,企業(yè)數(shù)據(jù)還必須遵守PHI/HIPAA、PCI-DSS、SEC、FINRA、FDA和FISMA等標(biāo)準(zhǔn)。不斷發(fā)展的人工智能相關(guān)法規(guī),如歐盟的2021年人工智能法案和美國(guó)的人工智能權(quán)利法案,增加了復(fù)雜性。
鑒于這些挑戰(zhàn),企業(yè)正在部署新的基礎(chǔ)設(shè)施解決方案,以滿(mǎn)足生成式人工智能應(yīng)用程序的數(shù)據(jù)驅(qū)動(dòng)需求。為了管理企業(yè)數(shù)據(jù)暴露的風(fēng)險(xiǎn),必須采取嚴(yán)格的數(shù)據(jù)保護(hù)措施,以確保在利用人工智能技術(shù)的好處的同時(shí)滿(mǎn)足消費(fèi)者數(shù)據(jù)隱私和安全目標(biāo)。
各行各業(yè)的公司不得不考慮運(yùn)行自己的私有LLM,以滿(mǎn)足監(jiān)管合規(guī)義務(wù)。支持機(jī)器學(xué)習(xí)和高級(jí)數(shù)據(jù)準(zhǔn)備以安全訓(xùn)練模型的云數(shù)據(jù)管理平臺(tái)正變得越來(lái)越重要。跟蹤這些平臺(tái)中的工作流、實(shí)驗(yàn)、部署和相關(guān)工件,可以為機(jī)器學(xué)習(xí)運(yùn)營(yíng)(MLOP)提供集中的模型注冊(cè)表,并提供監(jiān)管監(jiān)督所需的審計(jì)跟蹤、再現(xiàn)性和控制。
人工智能數(shù)據(jù)結(jié)構(gòu)需要完整的數(shù)據(jù)工程能力,包括端到端安全、數(shù)據(jù)隱私、實(shí)時(shí)處理、數(shù)據(jù)治理、元數(shù)據(jù)管理、數(shù)據(jù)準(zhǔn)備和機(jī)器學(xué)習(xí)。無(wú)論是使用私有LLM還是像ChatGPT這樣的公共模型,集中式MLOP都可以確保數(shù)據(jù)工程師控制整個(gè)機(jī)器學(xué)習(xí)生命周期。
雖然ChatGPT已經(jīng)產(chǎn)生了重大影響,但它在企業(yè)中的集成取決于成功的數(shù)據(jù)治理和數(shù)據(jù)工程流程。正如德意志銀行發(fā)言人Sen Shanmugasivam所指出的那樣,盡管受到禁令的限制,該銀行仍在積極探索如何以“安全和合規(guī)的方式”使用生成式人工智能工具。企業(yè)對(duì)生成式人工智能和機(jī)器學(xué)習(xí)的興趣正在飆升,但企業(yè)運(yùn)營(yíng)將需要數(shù)據(jù)治理標(biāo)準(zhǔn)和保障措施,以確保企業(yè)人工智能的安全未來(lái)。