GenAI的迅速出現(xiàn)使更多的人能夠釋放數(shù)據(jù)的力量,以獲得新的見解和更好的決策,但允許更廣泛地訪問數(shù)據(jù)需要一種數(shù)據(jù)治理戰(zhàn)略。能夠平衡這些看似對立的趨勢的企業(yè)——數(shù)據(jù)民主化,同時(shí)對數(shù)據(jù)保持強(qiáng)有力的治理——將通過釋放獨(dú)特的數(shù)據(jù)驅(qū)動(dòng)洞察力,在市場上脫穎而出。
根據(jù)Gartner的數(shù)據(jù),到2026年,超過80%的企業(yè)將使用GenAI API和模型,或在生產(chǎn)中部署啟用GenAI的應(yīng)用程序,而去年這一比例不到5%。GenAI的自然語言界面允許非技術(shù)用戶,從部門負(fù)責(zé)人到一線工作人員,更輕松地訪問和使用數(shù)據(jù)。這在獲取信息和技能方面創(chuàng)造了公平的競爭環(huán)境,Gartner稱這是“本十年最具顛覆性的趨勢之一”。
如果公司要避免隱私、安全和數(shù)據(jù)質(zhì)量方面的風(fēng)險(xiǎn)增加,以這種方式實(shí)現(xiàn)數(shù)據(jù)民主化就會(huì)使強(qiáng)有力的治理變得更加關(guān)鍵,這意味著準(zhǔn)確地知道你擁有什么數(shù)據(jù)、駐留在哪里、誰有權(quán)訪問這些數(shù)據(jù)以及每種類型的用戶被允許如何使用這些數(shù)據(jù),但一個(gè)企業(yè)如何在不壓制創(chuàng)新的情況下實(shí)施全面控制?
在較高級別上,理想的方法是將數(shù)據(jù)統(tǒng)一到一個(gè)綜合存儲(chǔ)庫中,多個(gè)團(tuán)隊(duì)和工作組可以輕松、安全地訪問該存儲(chǔ)庫,統(tǒng)一數(shù)據(jù)使企業(yè)能夠集中管理并擴(kuò)大對數(shù)據(jù)的訪問,同時(shí)最大限度地降低復(fù)雜性并優(yōu)化成本。
在現(xiàn)實(shí)中,這可能是具有挑戰(zhàn)性的,因?yàn)閿?shù)據(jù)主權(quán)法律要求將某些數(shù)據(jù)保存在特定的國家或地區(qū)。在這種情況下,企業(yè)應(yīng)該努力消除孤島,并在其數(shù)據(jù)平臺(tái)上應(yīng)用一致的治理框架。
除此之外,幾種特定的方法和技術(shù)有助于確保企業(yè)可以保持強(qiáng)大的治理,同時(shí)仍然通過GenAI擴(kuò)大對數(shù)據(jù)的訪問,其中一些是適用于任何環(huán)境的基本治理實(shí)踐,但當(dāng)GenAI進(jìn)一步民主化數(shù)據(jù)訪問時(shí),它們變得更加重要。
針對隱私和法規(guī)遵從性的精細(xì)控制
隨著越來越多的員工訪問更多的數(shù)據(jù),個(gè)人身份信息(PII)可能被泄露或被錯(cuò)誤的用戶看到的潛在風(fēng)險(xiǎn)只會(huì)增加,精細(xì)的控制策略以及匿名化和身份識(shí)別技術(shù)對于確保法規(guī)遵從性和防止數(shù)據(jù)被錯(cuò)誤的人訪問至關(guān)重要。
在我們分析雪花數(shù)據(jù)云趨勢的新《數(shù)據(jù)趨勢2024》報(bào)告中,我們注意到治理功能的使用顯著增加,這些功能在提供對數(shù)據(jù)的精細(xì)控制的同時(shí),還適當(dāng)?shù)貙⑵涮峁┙o更多的用戶,用于更多的用例,例如,在截至2024年1月31日的12個(gè)月中,應(yīng)用的掩碼或行訪問策略的使用量與去年同期相比增加了98%,與此同時(shí),分配了掩碼策略的列數(shù)增長了97%。
然而,值得注意的是,針對受策略保護(hù)的對象運(yùn)行的查詢總數(shù)上升了142%,這個(gè)數(shù)字意義重大,因?yàn)樗砻髁己玫臄?shù)據(jù)治理不是說“不”和限制數(shù)據(jù)使用。盡管看到越來越多的治理通過使用標(biāo)簽和屏蔽政策,但報(bào)告指出,使用這些數(shù)據(jù)所做的工作量正在迅速上升。
在某些情況下,員工可能希望檢查他們不能被授予直接訪問權(quán)限的數(shù)據(jù)集,在這種情況下,差異隱私是一項(xiàng)強(qiáng)大的技術(shù),因?yàn)樗试S用戶通過查看數(shù)據(jù)集內(nèi)的模式來共享和探索數(shù)據(jù)集,而不會(huì)泄露任何個(gè)人用戶的PII。更進(jìn)一步,數(shù)據(jù)凈化室允許多方在不向彼此披露原始數(shù)據(jù)的情況下就數(shù)據(jù)進(jìn)行協(xié)作,數(shù)據(jù)凈化室通常用于在不同企業(yè)之間共享數(shù)據(jù),但我們正在看到內(nèi)部使用的技術(shù)來滿足日益增長的監(jiān)管和隱私需求,它可以成為在GenAI界面環(huán)境中探索PII數(shù)據(jù)的有效技術(shù)。
一致、協(xié)調(diào)的安全性
安全應(yīng)該構(gòu)建在數(shù)據(jù)平臺(tái)的結(jié)構(gòu)中,而不是試圖稍后為個(gè)別數(shù)據(jù)集和用戶固定它,支持對話界面的技術(shù)不應(yīng)該復(fù)制數(shù)據(jù)上的身份和其他核心權(quán)限,這將導(dǎo)致脆弱的設(shè)置。如果兩個(gè)或多個(gè)系統(tǒng)都在跟蹤誰可以訪問哪些數(shù)據(jù),則出錯(cuò)和未經(jīng)授權(quán)訪問的可能性會(huì)大大增加。
在保護(hù)GenAI用例的數(shù)據(jù)方面發(fā)揮關(guān)鍵作用的技術(shù)包括持續(xù)的風(fēng)險(xiǎn)監(jiān)控和保護(hù)、基于角色的訪問控制(RBAC)和細(xì)粒度授權(quán)策略?;诮巧臉?biāo)記和基于標(biāo)記的掩碼策略允許你通過將掩碼策略分配給標(biāo)記,然后在一個(gè)或多個(gè)數(shù)據(jù)庫對象上設(shè)置該標(biāo)記,從而在列級別保護(hù)數(shù)據(jù)。
數(shù)據(jù)孤島是良好治理的敵人
將數(shù)據(jù)的副本或片段存儲(chǔ)在不同的系統(tǒng)中,使得跟蹤誰可以訪問哪些信息以及保持訪問和控制策略的一致性變得極其困難,這就是為什么數(shù)據(jù)孤島是強(qiáng)大治理的敵人。
數(shù)據(jù)孤島還使得很難確保員工查詢的是最新、最準(zhǔn)確的數(shù)據(jù),這可能會(huì)導(dǎo)致代價(jià)高昂的錯(cuò)誤。為了通過GenAI實(shí)現(xiàn)對數(shù)據(jù)的廣泛訪問,企業(yè)需要一個(gè)單一的真實(shí)來源,以確保所有員工都在查看相同的信息,并且可以在所有數(shù)據(jù)中全面應(yīng)用和更新控制和策略。
確保數(shù)據(jù)質(zhì)量以獲得準(zhǔn)確的結(jié)果
即使你消除了孤島并擁有適當(dāng)?shù)臋?quán)限,也不能保證員工訪問的信息是正確的,數(shù)據(jù)質(zhì)量框架基于應(yīng)用于表中特定列或一組列的可配置數(shù)據(jù)質(zhì)量規(guī)則,可以幫助檢測質(zhì)量問題并確保準(zhǔn)確的信息。
此外,到目前為止,我們都知道,GenAI有時(shí)會(huì)產(chǎn)生幻覺,并產(chǎn)生實(shí)際上沒有根據(jù)的答案,這對于企業(yè)使用來說是不可接受的。企業(yè)可以通過將大型語言模型(LLM)與他們知道值得信任的數(shù)據(jù)源相結(jié)合來解決這一問題,例如內(nèi)部客戶數(shù)據(jù)庫或來自可信第三方提供商的經(jīng)過審查的數(shù)據(jù)集。
這些受信任的數(shù)據(jù)源可以使用需要LLM定制(如微調(diào))或不需要LLM定制(如即時(shí)工程或檢索增強(qiáng)生成(RAG))的過程合并。無論是哪種情況,這些技術(shù)都有助于確保員工收到準(zhǔn)確、高質(zhì)量的結(jié)果,同時(shí)遵守內(nèi)部云環(huán)境中內(nèi)置的治理標(biāo)準(zhǔn)。
數(shù)據(jù)訪問和通用搜索的威力
GenAI治理的一個(gè)重要方面是讓員工很容易找到合適的數(shù)據(jù)集和數(shù)據(jù)產(chǎn)品來幫助他們進(jìn)行分析,人工智能如此強(qiáng)大的一個(gè)原因是,它允許員工在不通過中央團(tuán)隊(duì)的情況下與數(shù)據(jù)交互,但這需要這些員工知道他們可以獲得什么數(shù)據(jù),以及如何找到這些數(shù)據(jù)。
搜索功能提供了這一功能,允許用戶查找和查詢數(shù)據(jù)集和數(shù)據(jù)產(chǎn)品,這一搜索功能本身可以由LLM提供支持,使數(shù)據(jù)搜索更加直觀-這是我們在Snowflake開發(fā)的,作為我們通用搜索的一部分。
治理是數(shù)據(jù)民主化的基礎(chǔ)
商業(yè)用戶渴望更廣泛地利用他們組織的數(shù)據(jù),而GenAI最終使這成為可能。多虧了LLMS和自然語言處理,財(cái)務(wù)、人力資源、銷售和運(yùn)營等領(lǐng)域的員工現(xiàn)在可以針對自己的角色制定問題,并獲得他們做出更明智決策所需的答案。
但要滿足企業(yè)的安全和法規(guī)遵從性需求,這只能在具有強(qiáng)大治理的環(huán)境中發(fā)生,治理越強(qiáng),你的員工就越能自由地瀏覽數(shù)據(jù),而不會(huì)給公司帶來額外的風(fēng)險(xiǎn),GenAI為真正的數(shù)據(jù)民主化打開了大門,而良好的治理是使之成為可能的基礎(chǔ)。