久久亚洲一区二区三区四区,亚洲熟妇av一区二区三区色堂,国产精品免费大片,精品无码久久久久久久久曰韩邻居

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

大語(yǔ)言模型在推薦系統(tǒng)中的探索與應(yīng)用

來(lái)自華為諾亞方舟實(shí)驗(yàn)室的王奕超老師今天給我們帶來(lái)了關(guān)于大語(yǔ)言模型在推薦系統(tǒng)中的探索與應(yīng)用的分享,將從數(shù)據(jù)、模型和流程三個(gè)層面展開(kāi),介紹華為在推薦系統(tǒng)領(lǐng)域的兩個(gè)重要項(xiàng)目,并回答關(guān)于用戶推理知識(shí)構(gòu)造、特征交叉和在線服務(wù)流程的具體問(wèn)題。通過(guò)這些前瞻性的探索和應(yīng)用,推薦系統(tǒng)的性能和用戶體驗(yàn)有望得到顯著提升。

大語(yǔ)言模型

一、背景和問(wèn)題

1.推薦系統(tǒng)

讓我們從一個(gè)具體例子——電影推薦系統(tǒng)開(kāi)始。推薦系統(tǒng)的輸入主要是用戶的交互行為,如點(diǎn)擊或觀看過(guò)的電影。這些行為反映了用戶的偏好。除此之外,還有物品的特征信息,比如電影的年代、類(lèi)別和演員等屬性信息,以及用戶的一些特征,比如年齡和性別等。推薦系統(tǒng)會(huì)根據(jù)這些輸入信息,結(jié)合當(dāng)前用戶請(qǐng)求的一些上下文信息(如電影榜單、時(shí)間和地點(diǎn)等),為用戶提供評(píng)分推薦。

2.大語(yǔ)言模型

根據(jù)前面的介紹,我們可以了解到當(dāng)前的推薦系統(tǒng),特別是在電影或電商等領(lǐng)域,往往是一個(gè)相對(duì)封閉的系統(tǒng)。這類(lèi)系統(tǒng)通?;谔囟☉?yīng)用場(chǎng)景的日志數(shù)據(jù)進(jìn)行模型訓(xùn)練,并部署于該場(chǎng)景提供服務(wù),與外界系統(tǒng)交互有限。然而,理想的推薦系統(tǒng)應(yīng)是一個(gè)開(kāi)放系統(tǒng),能夠與外界進(jìn)行交互,利用實(shí)時(shí)、事實(shí)的知識(shí)信息來(lái)提升推薦效果。大語(yǔ)言模型,特別是那些在互聯(lián)網(wǎng)量級(jí)語(yǔ)料中訓(xùn)練出的模型,具備豐富的世界知識(shí)和邏輯推理能力,這些能力恰好可以彌補(bǔ)傳統(tǒng)推薦系統(tǒng)的不足。它們不僅可以用于補(bǔ)充推薦系統(tǒng)的測(cè)試編碼、模型打分等功能,還在流程控制等方面展現(xiàn)出巨大的潛力。在運(yùn)用大語(yǔ)言模型時(shí),我們可以考慮在訓(xùn)練階段進(jìn)行微調(diào)或固定參數(shù),而在推理階段,則可以選擇僅使用推薦系統(tǒng)或直接將大語(yǔ)言模型作為推薦系統(tǒng)的推理器。這些策略的具體實(shí)施將在后續(xù)分析中詳細(xì)展開(kāi)。

總之,大語(yǔ)言模型為推薦系統(tǒng)的優(yōu)化提供了新的思路和方法,我們期待在未來(lái)的研究和實(shí)踐中,能夠進(jìn)一步挖掘其潛力,提升推薦系統(tǒng)的性能和用戶體驗(yàn)。歡迎大家就相關(guān)話題進(jìn)行閱讀、了解和討論。

隨著大語(yǔ)言模型的引入,推薦系統(tǒng)將逐漸從封閉走向開(kāi)放,引入豐富的世界知識(shí)。當(dāng)前,推薦系統(tǒng)主要基于物品間的關(guān)聯(lián)、用戶與物品的交互信號(hào)等統(tǒng)計(jì)信息進(jìn)行推薦。然而,在代模型時(shí)代,推薦形態(tài)將發(fā)生變化,已初現(xiàn)端倪。利用大模型的廣泛知識(shí)和強(qiáng)大邏輯推理能力,推薦系統(tǒng)將向生成式方向發(fā)展,不僅生成推薦結(jié)果,還涉及中間態(tài)的行為,如特征生成、推理過(guò)程及新流程的拆解,為用戶提供更加個(gè)性化和全面的推薦體驗(yàn)。

大語(yǔ)言模型具備推薦系統(tǒng)所缺乏的兩大關(guān)鍵能力。首先,它擁有豐富的事實(shí)性和常識(shí)性知識(shí),能提供電影深入細(xì)節(jié)、故事情節(jié)、觀影感受及導(dǎo)演信息等,這些信息在推薦系統(tǒng)語(yǔ)料之外。其次,大語(yǔ)言模型能基于現(xiàn)有知識(shí),對(duì)物品、用戶行為及偏好進(jìn)行常識(shí)性推理,包括物品關(guān)聯(lián)、用戶行為分析等,尤其擅長(zhǎng)處理復(fù)雜場(chǎng)景下的用戶行為,這些都是當(dāng)前推薦系統(tǒng)所不具備的能力。

二、LLM4Rec探索及應(yīng)用

1.KAR:利用大語(yǔ)言模型開(kāi)放知識(shí)輔助推薦系統(tǒng)

接下來(lái),將介紹近期探索的大語(yǔ)言模型在推薦系統(tǒng)中的應(yīng)用與分析。首先,傳統(tǒng)推薦系統(tǒng)較為封閉,僅依賴(lài)推薦域內(nèi)知識(shí)和協(xié)同信號(hào)進(jìn)行推薦,對(duì)用戶偏好的學(xué)習(xí)存在局限。同時(shí),推薦上下文信息通過(guò)離散編碼建模,難以直觀理解,尤其在處理冷門(mén)物品或數(shù)據(jù)稀疏問(wèn)題上表現(xiàn)不佳。

大語(yǔ)言模型則擁有通用外部知識(shí),能了解用戶與物品背景,具備邏輯推理能力,深入理解用戶行為動(dòng)機(jī)及社會(huì)因素。然而,它也面臨三大局限性:一是缺乏推薦領(lǐng)域知識(shí),特別是協(xié)同信號(hào);二是處理復(fù)雜推理問(wèn)題性能不佳,如預(yù)測(cè)用戶偏好需多步推理;三是實(shí)時(shí)性能難以滿足工業(yè)推薦系統(tǒng)需求。這些問(wèn)題是大語(yǔ)言模型在推薦系統(tǒng)應(yīng)用中需要解決的關(guān)鍵點(diǎn)。

當(dāng)前,利用大語(yǔ)言模型進(jìn)行推薦的工作主要分為兩類(lèi)。一類(lèi)是將大語(yǔ)言模型作為推薦系統(tǒng)的編碼器,對(duì)物品描述、用戶評(píng)論等文本信息進(jìn)行編碼,增強(qiáng)用戶和物品的表征,但并未生成新信息,僅是對(duì)推薦域內(nèi)知識(shí)的編碼。另一類(lèi)則是直接將語(yǔ)言模型作為推薦主體,利用其在互聯(lián)網(wǎng)語(yǔ)料庫(kù)上訓(xùn)練得到的通用能力進(jìn)行推薦,然而效果通常不及傳統(tǒng)算法模型,尤其在特征交叉和協(xié)同信號(hào)方面的重要性已被廣泛驗(yàn)證。

此外,大語(yǔ)言模型在推薦系統(tǒng)中的推理速度較慢,計(jì)算成本高,難以滿足工業(yè)推薦系統(tǒng)的實(shí)時(shí)性要求。同時(shí),由于模型參數(shù)量大、所需數(shù)據(jù)多,模型更新也難以實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí),這對(duì)推薦效果產(chǎn)生了顯著影響。因此,在大模型時(shí)代,如何平衡推薦效果與實(shí)時(shí)性仍是重要課題。

針對(duì)大語(yǔ)言模型在推薦系統(tǒng)中的應(yīng)用,我們面臨的主要挑戰(zhàn)是如何有效提取并預(yù)存其知識(shí),以便被傳統(tǒng)模型更好地利用。這涉及到大語(yǔ)言模型在復(fù)合推理問(wèn)題上的局限性,即雖能準(zhǔn)確回答子問(wèn)題,但難以直接解決復(fù)雜問(wèn)題。為解決此問(wèn)題,我們借鑒了因式分解的思路,將知識(shí)生成分解為多個(gè)子任務(wù),由大語(yǔ)言模型逐一推理。

以電影推薦為例,我們首先識(shí)別影響用戶興趣的關(guān)鍵因素,如電影類(lèi)別、導(dǎo)演、演員及獲獎(jiǎng)情況等,并將這些信息融入提示詞模板中。模板分為用戶偏好推理和物品事實(shí)性推理兩部分,前者包含用戶描述、觀影歷史等,后者則結(jié)合場(chǎng)景感知因素。通過(guò)填充模板并向大語(yǔ)言模型提問(wèn),我們可獲得用戶行為偏好的深入理解,并同樣應(yīng)用于物品事實(shí)性分析,最終融合開(kāi)放與結(jié)構(gòu)化信息,提升推薦系統(tǒng)的準(zhǔn)確性和個(gè)性化程度。

這個(gè)過(guò)程分為三個(gè)階段,首先解決知識(shí)生成問(wèn)題,通過(guò)指令模板提問(wèn)生成關(guān)于用戶偏好和物品實(shí)時(shí)應(yīng)用的邏輯推理知識(shí)。由于推薦模型難以直接利用文本信息,需將知識(shí)適配為推薦系統(tǒng)可用的相對(duì)低緯度的dense向量,避免高維信息淹沒(méi)系統(tǒng)信號(hào)。因此,引入多專(zhuān)家網(wǎng)絡(luò)進(jìn)行信息提取、壓縮和映射,集成兩類(lèi)信息以增強(qiáng)知識(shí)魯棒性,解決原模型幻覺(jué)問(wèn)題。

接著進(jìn)入知識(shí)利用階段,推薦模型結(jié)構(gòu)靈活,可適配任何大語(yǔ)言模型生成的知識(shí)進(jìn)行推理。LLM進(jìn)行離線推理,生成離線知識(shí)及表征,拿到表征后,就放到傳統(tǒng)推薦模型中,知識(shí)適配器和傳統(tǒng)模型是一起訓(xùn)練的;推理時(shí),僅使用知識(shí)適配器和傳統(tǒng)推薦模型,顯著降低訓(xùn)練與推理成本,滿足時(shí)延需求。

我們的實(shí)驗(yàn)結(jié)果顯示,大語(yǔ)言模型在多種推薦算法上的通用性得到了驗(yàn)證。與未經(jīng)增強(qiáng)的結(jié)果相比,引入大語(yǔ)言模型后,AUC指標(biāo)顯著提升,表明開(kāi)放域知識(shí)對(duì)推薦領(lǐng)域有顯著增益。同時(shí),我們驗(yàn)證了方案的可落地性,發(fā)現(xiàn)推理復(fù)雜度與推薦模型相當(dāng),且KAR方案在推理時(shí)間上與Base模型相近,是實(shí)際工業(yè)場(chǎng)景中的可行選擇。

對(duì)比SOTA等預(yù)訓(xùn)練模型,我們實(shí)現(xiàn)了近1%的提升。效能分析表明,不同知識(shí)類(lèi)型對(duì)效果有顯著影響。融合用戶偏好與物品事實(shí)性知識(shí)的推理結(jié)果最為顯著。該方案已在華為多個(gè)場(chǎng)景上線,包括應(yīng)用市場(chǎng)、華為音樂(lè)等,主要用于物品側(cè)表征增強(qiáng),如音樂(lè)歌曲、廣告、應(yīng)用等,顯著提升了推薦效果,為全網(wǎng)帶來(lái)了價(jià)值提升。

2.Uni-CTR:利用大語(yǔ)言模型構(gòu)建多場(chǎng)景推薦底座

接下來(lái)介紹第二個(gè)工作,即利用大語(yǔ)言模型進(jìn)行跨域推薦的研究。多場(chǎng)景相比單場(chǎng)景具有顯著優(yōu)勢(shì),包括緩解數(shù)據(jù)稀疏問(wèn)題、實(shí)現(xiàn)場(chǎng)景間信息共享及高效性。然而,當(dāng)前多場(chǎng)景推薦系統(tǒng)仍面臨挑戰(zhàn):主要場(chǎng)景可能主導(dǎo)模型參數(shù),影響其他場(chǎng)景;語(yǔ)義信息利用及場(chǎng)景關(guān)系建模需進(jìn)一步探索;新增或淘汰場(chǎng)景對(duì)模型參數(shù)影響大。

大語(yǔ)言模型具備外部通用知識(shí)和邏輯推理能力,這在多場(chǎng)景建模中尤為重要。以電商和視頻場(chǎng)景為例,大語(yǔ)言模型能識(shí)別洗護(hù)用品成分、市場(chǎng)動(dòng)態(tài)及新聞等外部知識(shí),并通過(guò)邏輯推理,如用戶購(gòu)買(mǎi)運(yùn)動(dòng)器材后可能偏好體育視頻,實(shí)現(xiàn)場(chǎng)景間信息的自然泛化。我們將探索如何更好地利用這些能力,構(gòu)建通用的多場(chǎng)景推薦模型。

傳統(tǒng)的推薦算法模型通?;谔囟?lèi)型的數(shù)據(jù)。這些數(shù)據(jù)主要來(lái)源于表格,包含場(chǎng)景、用戶ID、點(diǎn)擊歷史等信息。同時(shí),物品數(shù)據(jù)則包括名稱(chēng)、品牌、價(jià)格等特征。這些特征通過(guò)One-Hot或Embedding編碼進(jìn)行建模,并依據(jù)行為信號(hào)不斷更新表征。這是傳統(tǒng)多場(chǎng)景推薦算法的基本框架。

在大語(yǔ)言模型的設(shè)置下,我們優(yōu)化了多商業(yè)場(chǎng)景的處理流程。首先,針對(duì)表格數(shù)據(jù),我們摒棄了傳統(tǒng)的編碼方式,構(gòu)建了基于自然語(yǔ)言描述的提示詞模板,以更直觀地表達(dá)DomainID、用戶及產(chǎn)品信息。這些模板將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言描述,隨后輸入大語(yǔ)言模型(如24層Transformer結(jié)構(gòu)的SharedBert)中。

在處理過(guò)程中,我們每隔幾層Transformer引入Leader網(wǎng)絡(luò)(三層Transformer Encoder Block),以提取不同層次的模型表征。Leader網(wǎng)絡(luò)專(zhuān)注于學(xué)習(xí)場(chǎng)景特有的信息,而中間的general network則旨在提取跨場(chǎng)景共享的通用信息。

對(duì)于多場(chǎng)景應(yīng)用,每個(gè)場(chǎng)景擁有獨(dú)立的網(wǎng)絡(luò)及對(duì)應(yīng)的預(yù)估網(wǎng)絡(luò)(如DSN),這些網(wǎng)絡(luò)根據(jù)場(chǎng)景特性進(jìn)行優(yōu)化。同時(shí),我們采用門(mén)控網(wǎng)絡(luò)融合大語(yǔ)言模型的通用表征與場(chǎng)景特有的新輸出,實(shí)現(xiàn)場(chǎng)景共性與特性的學(xué)習(xí)。

此外,該方案還具備zero-shot冷啟動(dòng)能力,能夠利用大語(yǔ)言模型的輸出預(yù)測(cè)新場(chǎng)景,解決冷啟動(dòng)問(wèn)題。新增場(chǎng)景時(shí),僅需增加相應(yīng)的網(wǎng)絡(luò)路徑,對(duì)主體網(wǎng)絡(luò)影響甚微。

我們將Amazon Review DataSet中的Fashion、Music Instruments和Gift Cards三個(gè)數(shù)據(jù)集作為不同場(chǎng)景,來(lái)驗(yàn)證我們的方案。這里主要對(duì)比了三種模型:?jiǎn)螆?chǎng)景獨(dú)立模型、傳統(tǒng)多場(chǎng)景模型,以及基于大語(yǔ)言模型的Multi-domainModel。其中,Uni-CTR是我們提出的創(chuàng)新方案。

實(shí)驗(yàn)結(jié)果顯示,Uni-CTR在各個(gè)場(chǎng)景均取得了顯著的效果提升,尤其是在Gift Cards場(chǎng)景上表現(xiàn)尤為突出。這一方案不僅解決了傳統(tǒng)多場(chǎng)景模型中某些場(chǎng)景性能提升而其他場(chǎng)景可能下降的問(wèn)題,還避免了主場(chǎng)景(如Fashion)對(duì)次場(chǎng)景性能產(chǎn)生的負(fù)面影響,實(shí)現(xiàn)了全面且均衡的性能提升。

我們同時(shí)考察了Uni-CTR的zero-shot能力,在新場(chǎng)景上測(cè)試模型效果。對(duì)于單場(chǎng)景和多場(chǎng)景模型,均選取最佳預(yù)測(cè)結(jié)果作為展示。Uni-CTR采用大語(yǔ)言模型的通用預(yù)測(cè)網(wǎng)絡(luò),在zero-shot場(chǎng)景下亦展現(xiàn)出顯著效果增益。

通過(guò)引入新場(chǎng)景并微調(diào),Uni-CTR也實(shí)現(xiàn)了效果顯著提升。我們對(duì)比這一重要場(chǎng)景模型參數(shù),分析不同參數(shù)量級(jí)語(yǔ)言模型(如TenonBot、Bot、Debota及SharedLama)的影響。實(shí)驗(yàn)表明,模型效果隨參數(shù)量增大而提升,驗(yàn)證了Signal的適用性。

此外,我們還探討了模型不同組件的影響,進(jìn)行效能分析。結(jié)果顯示,去除Leader和Backbone模型均導(dǎo)致效果下降,其中Backbone模型影響最為顯著。

三、挑戰(zhàn)和展望

接下來(lái),將從工業(yè)應(yīng)用的視角,探討當(dāng)前大語(yǔ)言模型在推薦系統(tǒng)面臨的挑戰(zhàn)與未來(lái)趨勢(shì)。

首先,面對(duì)的挑戰(zhàn)可分為三個(gè)層面:一是協(xié)同信號(hào)與語(yǔ)義信號(hào)的聯(lián)合建模,需提升單獨(dú)使用時(shí)的效果;二是輸入策略的挑戰(zhàn),包括如何利用大語(yǔ)言模型優(yōu)化用戶畫(huà)像、處理長(zhǎng)文本輸入及ID編碼的融合問(wèn)題;三是動(dòng)態(tài)數(shù)據(jù)如何有效融入模型,以及模型推理效率在工業(yè)級(jí)應(yīng)用中的挑戰(zhàn)。

展望未來(lái),主要從數(shù)據(jù)、模型和流程三個(gè)層面展開(kāi)工作:數(shù)據(jù)層面,致力于使推薦系統(tǒng)具備世界知識(shí)和邏輯推理能力,從封閉走向開(kāi)放;模型層面,從判別式模型向生成式模型發(fā)展,潛力在于直接生成用戶感興趣的內(nèi)容;流程層面,傳統(tǒng)多階段推薦流程或?qū)⒈唤y(tǒng)一模型取代,實(shí)現(xiàn)端到端的推薦結(jié)果生成。

總體而言,大語(yǔ)言模型對(duì)推薦系統(tǒng)產(chǎn)生了巨大影響,隨著產(chǎn)品形態(tài)的不斷迭代,它將為推薦搜索系統(tǒng)帶來(lái)全新變革。未來(lái),我們有更多想象空間值得探索,需要持續(xù)努力,以應(yīng)對(duì)挑戰(zhàn),把握機(jī)遇。

猜你喜歡