久久亚洲一区二区三区四区,亚洲熟妇av一区二区三区色堂,国产精品免费大片,精品无码久久久久久久久曰韩邻居

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

劃重點!因果推斷兩大算法框架解析

因果推斷兩大算法框架解析

一、整體框架

因果推斷的主要任務(wù)可分為三類。首先是因果結(jié)構(gòu)的發(fā)現(xiàn),即從數(shù)據(jù)中識別出變量之間的因果關(guān)系。其次是因果效應(yīng)的估計,即從數(shù)據(jù)中推斷一個變量對另一個變量的影響程度。需要注意的是,這種影響并非指相關(guān)性,而是指在對一個變量進(jìn)行干預(yù)時,另一個變量的數(shù)值或分布如何變化。最后是校正偏差,因為在許多任務(wù)中,各種因素可能導(dǎo)致開發(fā)樣本和應(yīng)用樣本的分布不同。在這種情況下,因果推斷可以幫助我們進(jìn)行校正偏差。

這些功能適用于多種場景,其中最典型的是決策場景。通過因果推斷,可以了解不同用戶對我們的決策行為的反應(yīng)。其次,在工業(yè)場景中,業(yè)務(wù)流程通常復(fù)雜且長,導(dǎo)致數(shù)據(jù)存在偏差。通過因果推斷清晰描述這些偏差的因果關(guān)系,可以幫助我們進(jìn)行糾偏。此外,許多場景對模型的魯棒性和解釋性要求很高。希望模型能夠基于因果關(guān)系進(jìn)行預(yù)測,因果推斷可以幫助構(gòu)建更為強大的解釋性模型。最后,決策結(jié)果的效果評估也很重要。雖然類似于決策場景,但這是在決策之后進(jìn)行的評估。因果推斷可以幫助更好地分析策略的實際效果。

接下來將介紹因果推斷中的兩個重要問題:如何判斷一個場景是否適合應(yīng)用因果推斷,以及因果推斷中的典型算法。

二、應(yīng)用場景評估(決策問題)

首先介紹應(yīng)用場景評估,判斷一個場景是否適合使用推斷主要涉及決策問題。

對于一個決策問題,首先需要明確其是什么,即在什么約束條件下做出什么動作,以達(dá)到最大化什么樣的目標(biāo)。接著需要考慮這個動作對目標(biāo)和約束是否產(chǎn)生影響,以及是否需要使用因果推斷模型進(jìn)行預(yù)測。舉例來說,在營銷產(chǎn)品時,我們通常會考慮在給定總預(yù)算的情況下,決定是否給每個用戶發(fā)放優(yōu)惠券或打折,以最大化銷量或銷售額。如果沒有預(yù)算約束,雖然折扣會影響最終的銷售額,但只要知道其是正向策略,就可以給所有人打折。這種情況下,雖然決策動作對目標(biāo)有影響,但無需使用因果推斷模型進(jìn)行預(yù)測。

以上是對決策問題的基本分析,此外還需觀察數(shù)據(jù)條件是否滿足。對于構(gòu)建因果模型,不同的因果算法對數(shù)據(jù)和任務(wù)的假設(shè)有不同的要求。

潛在結(jié)果類的模型有三個關(guān)鍵的假設(shè)。首先,個體的因果效應(yīng)必須是穩(wěn)定的,例如在探究發(fā)優(yōu)惠券對用戶購買概率的影響時,要保證一個用戶的行為不受其他用戶的影響,比如在線下比價或者受到不同折扣版本的優(yōu)惠券影響。第二個假設(shè)是,在給定的特征情況下,用戶的實際處理和潛在結(jié)果是獨立的,這個假設(shè)可以用來處理觀測不到的混雜。第三個假設(shè)是關(guān)于overlap的,即任何一種用戶都應(yīng)該給出不同的決策,否則就無法觀察到這種用戶在不同決策下的表現(xiàn)。

結(jié)構(gòu)因果類的模型所面臨的主要假設(shè)是變量之間的因果關(guān)系,這些假設(shè)往往難以證明。而使用Meta learning和基于樹的方法時,其假設(shè)通常是條件獨立的,即在給定特征的情況下,決策動作和潛在結(jié)果是獨立的。這個假設(shè)與前面提到的獨立性假設(shè)相似。

在實際業(yè)務(wù)場景中,了解先驗知識至關(guān)重要。首先,需要理解實際觀測數(shù)據(jù)的分配機制,即先前決策的基礎(chǔ)。當(dāng)無法獲得最準(zhǔn)確的數(shù)據(jù)時,可能需要依靠一些假設(shè)來進(jìn)行推斷。其次,業(yè)務(wù)經(jīng)驗可以指導(dǎo)我們確定哪些變量對于區(qū)分因果效應(yīng)的影響最為顯著,這對于進(jìn)行特征工程具有重要意義。因此,在處理實際業(yè)務(wù)時,結(jié)合觀測數(shù)據(jù)的分配機制和業(yè)務(wù)經(jīng)驗,能夠更好地應(yīng)對挑戰(zhàn),有效地進(jìn)行決策和特征工程。

三、典型的因果算法

第二個重要議題是因果推斷算法的選用。

首先是因果結(jié)構(gòu)發(fā)現(xiàn)類算法。這些算法的核心目標(biāo)是確定變量之間的因果關(guān)系。主要的研究思路主要可分為三類。第一類方法是根據(jù)因果圖中的節(jié)點網(wǎng)絡(luò)條件獨立性特點進(jìn)行判斷。另一類方法是定義一個評分函數(shù)來衡量因果圖的質(zhì)量。例如,通過定義似然函數(shù),尋求使得該函數(shù)最大化的有向無環(huán)圖,并將其作為因果圖。第三類方法則是引入了更多的信息。例如,假設(shè)兩個變量的實際數(shù)據(jù)生成過程遵循 a n m 型,即加性噪音模型,然后再求解這兩個變量之間的因果關(guān)系方向。

因果效應(yīng)的估計涉及多種算法,下面介紹幾種常見的算法:

首先是計量經(jīng)濟(jì)學(xué)中常提及的工具變量法、did方法和合成控制法。工具變量法的核心思想在于尋找與處理相關(guān)但與隨機誤差項無關(guān)的變量,即工具變量。此時工具變量與因變量之間的關(guān)系不受混雜的影響,可以將預(yù)測分為兩個階段:首先利用工具變量預(yù)測處理變量,然后利用預(yù)測的處理變量來預(yù)測因變量,得到的回歸系數(shù)即為平均處理效應(yīng)(ATE)。而DID方法和合成控制法則是針對面板數(shù)據(jù)而設(shè)計的方法,但在此不作詳細(xì)介紹。

另一種常見的方法是利用傾向得分來估計因果效應(yīng)。這種方法的核心是預(yù)測隱藏的分配機制,例如發(fā)放優(yōu)惠券與不發(fā)放優(yōu)惠券的概率。如果兩個用戶具有相同的優(yōu)惠券發(fā)放概率,但實際上一個用戶收到了優(yōu)惠券,另一個用戶沒有,那么我們可以認(rèn)為這兩個用戶在分配機制上是等價的,因此可以比較它們的效果?;谶@一點,可以推廣出一系列方法,包括匹配方法、分層方法和加權(quán)方法等。

還有一種方法是直接預(yù)測結(jié)果。即存在觀測不到的混雜情況下,也可以通過假設(shè)直接預(yù)測結(jié)果,并通過模型自動進(jìn)行調(diào)整。然而,這種方法可能引發(fā)一個問題:如果直接預(yù)測結(jié)果就足夠,那么問題就不存在了嗎?實際上,并非如此。

第四是結(jié)合傾向得分和潛在結(jié)果的思路,使用雙重穩(wěn)健和雙重機器學(xué)習(xí)的方法可能會更準(zhǔn)確。雙重穩(wěn)健和雙重機器學(xué)習(xí)將兩種方法結(jié)合在一起,其中任何一個部分的準(zhǔn)確性都可以確保最終結(jié)果的可靠性,從而提供了雙重保障。

另一種方法是結(jié)構(gòu)因果類的模型,基于因果關(guān)系構(gòu)建模型,如因果圖或結(jié)構(gòu)化方程。這種方法允許直接干預(yù)某個變量以獲得結(jié)果,并進(jìn)行反事實推斷。然而,這種方法的前提是我們已經(jīng)了解變量之間的因果關(guān)系,這往往是一個奢侈的假設(shè)。

Meta learning方法是一種重要的學(xué)習(xí)方法,其涵蓋了多種不同的類別。其中之一是S-learning,該方法將處理方法視為一個特征,直接輸入模型中。通過調(diào)整這個特征,我們可以觀察到不同處理方法下結(jié)果的變化。這種方法有時被稱為單模型學(xué)習(xí)者,因為我們?yōu)閷嶒灲M和對照組各建立了一個模型,然后通過修改特征來觀察結(jié)果。另一種方法是X-learning,其過程類似于S-learning,但額外考慮了交叉驗證的步驟,以更準(zhǔn)確地評估模型的性能。

樹形方法是一種直觀且簡單的方法,通過構(gòu)建樹狀結(jié)構(gòu)來分裂樣本,使得左右節(jié)點上的因果效應(yīng)差異最大化。然而,這種方法容易過擬合,因此在實踐中常常采用隨機森林等方法來減少過擬合的風(fēng)險。使用boosting方法可能會增加挑戰(zhàn),因為它更容易過濾掉一些信息,所以在使用時需要設(shè)計更復(fù)雜的模型以防止信息丟失。Meta learning方法和基于樹的算法通常也被稱為Uplift model。

因果表征是近年來在學(xué)術(shù)界取得一定成果的領(lǐng)域之一。該方法致力于解耦不同模塊,將影響因素分開,以更精確地識別混淆因素。通過分析影響因變量y和處理變量(treatment)的因素,可以識別出可能影響y和treatment的混淆因素,這些因素被稱為混淆因素。這種方法有望提高模型的端到端學(xué)習(xí)效果。以傾向得分為例,它常常在處理混淆因素時表現(xiàn)出色。然而,傾向得分的過分準(zhǔn)確有時并非有利。在同一傾向得分下,可能出現(xiàn)無法滿足重疊假設(shè)的情況,這是因為傾向得分可能包含一些與混淆因素相關(guān)但不影響y的信息。當(dāng)模型學(xué)習(xí)得過于準(zhǔn)確時,在加權(quán)匹配或分層處理時,可能會導(dǎo)致較大的誤差。這些誤差實際上并非由混淆因素引起,因此并不需要考慮。因果表征學(xué)習(xí)方法提供了解決這一問題的途徑,能夠更有效地處理因果關(guān)系的識別和分析。

四、因果推斷實際落地中的難點

因果推斷在實際應(yīng)用中面臨著諸多挑戰(zhàn)。

因果關(guān)系的弱化。在許多場景中,因果關(guān)系往往與隨機波動的噪音處于同一量級,這給建模工作帶來了巨大的挑戰(zhàn)。在這種情況下,建模的收益相對較低,因為因果關(guān)系本身并不明顯。然而,即使必須進(jìn)行建模,也需要采用具有更強學(xué)習(xí)能力的模型才能夠準(zhǔn)確捕捉到這種弱化的因果關(guān)系。同時,需要特別注意過擬合的問題,因為學(xué)習(xí)能力較強的模型可能會更容易受到噪音的影響,導(dǎo)致模型過度擬合數(shù)據(jù)。

第二個普遍存在的問題是數(shù)據(jù)條件的不足。這個問題的范圍較為廣泛,主要原因在于我們所使用的算法假設(shè)存在著許多不足之處,特別是在利用觀測數(shù)據(jù)進(jìn)行建模時,我們的假設(shè)可能并不完全成立。其中最典型的問題包括重疊假設(shè)可能無法滿足,我們的分配機制可能缺乏隨機性。更為嚴(yán)重的問題是,我們甚至沒有足夠的隨機測試數(shù)據(jù),這使得我們難以客觀地評估模型的表現(xiàn)。在這種情況下,如果仍然堅持進(jìn)行建模,而且模型性能優(yōu)于同比規(guī)則,那么我們可以借助一些業(yè)務(wù)經(jīng)驗來評估模型的決策是否合理。從業(yè)務(wù)角度出發(fā),對于一些假設(shè)不成立的情況,比如未觀測到的混雜因素,從理論上并沒有特別好的解決方法,但如果一定要使用模型,可以嘗試根據(jù)業(yè)務(wù)經(jīng)驗或進(jìn)行一些小規(guī)模的隨機測試來評估混雜因素的影響方向和程度。同時,將這些因素考慮到模型中,對于不滿足重疊假設(shè)的情況,雖然這在我們后面的列舉中作為第四個問題,但在此一并討論,我們可以通過一些算法來排除一些分配機制中的非混雜因素,即通過因果表示學(xué)習(xí)來緩解這一問題。

在處理這種復(fù)雜性時,決策動作顯得尤為重要。許多現(xiàn)有模型主要專注于解決二元問題,然而,若涉及多個處理方案,如何分配資源便成為一個更為復(fù)雜的問題。針對這一挑戰(zhàn),我們可以將多個處理方案分解成不同領(lǐng)域的子問題。此外,利用深度學(xué)習(xí)方法,我們可以將處理方案視為特征,并假設(shè)連續(xù)處理方案與結(jié)果之間存在某種函數(shù)關(guān)系。通過優(yōu)化這些函數(shù)的參數(shù),可以更好地解決連續(xù)決策問題,然而,這也引入了一些額外的假設(shè),如重疊問題。

分配機制固定。見上述分析。

另一個常見問題是目標(biāo)預(yù)測很多。在某些情況下,目標(biāo)預(yù)測受到多種因素的影響,而這些因素又與處理方案相關(guān)聯(lián)。為了解決這一問題,我們可以采用多任務(wù)學(xué)習(xí)的方法,盡管直接處理復(fù)雜的角色問題可能較為困難,但我們可以通過簡化問題,僅預(yù)測受處理方案影響最為關(guān)鍵的指標(biāo),逐步為決策提供參考。

最后,一些場景下進(jìn)行隨機測試的成本較高,而且效果回收周期較長。在模型上線之前,充分評估模型的效果變得尤為重要。在這種情況下,進(jìn)行小規(guī)模的隨機測試可以用來評估效果。盡管評估模型所需的樣本集比建模樣本集少得多,但如果甚至無法進(jìn)行小規(guī)模的隨機測試,那么我們可能只能通過業(yè)務(wù)解釋性來判斷模型決策結(jié)果的合理性。

五、案例-京東科技的額度決策模型

接下來以京東科技利用因果推斷技術(shù)制定信貸產(chǎn)品的輔助應(yīng)用為例,展示如何根據(jù)用戶特征和經(jīng)營目標(biāo)確定最佳信貸額度。在確定經(jīng)營目標(biāo)后,這些目標(biāo)通??梢约?xì)分為用戶表現(xiàn)的指標(biāo),如用戶的產(chǎn)品使用情況和借款行為。通過分析這些指標(biāo),可以計算出利潤、規(guī)模等經(jīng)營目標(biāo)。因此,額度決策過程分為兩步:首先利用因果推斷技術(shù)預(yù)測用戶在不同額度下的表現(xiàn),然后根據(jù)這些表現(xiàn)和經(jīng)營目標(biāo),采用各種方法來確定每個用戶的最佳信貸額度。

六、未來發(fā)展

未來的發(fā)展中將面對一系列挑戰(zhàn)與機遇。

首先,針對當(dāng)前因果模型存在的不足之處,學(xué)界普遍認(rèn)為需要大規(guī)模的模型來處理更為復(fù)雜的非線性關(guān)系。因果模型通常只處理二維數(shù)據(jù),并且大多數(shù)模型結(jié)構(gòu)相對簡單,因此未來的研究方向可能包括解決這一問題。

其次,研究者提出了因果表示學(xué)習(xí)的概念,強調(diào)了解耦和模塊化思想在表示學(xué)習(xí)中的重要性。通過從因果關(guān)系的角度理解數(shù)據(jù)生成過程,基于真實世界規(guī)律構(gòu)建的模型很可能具有更好的遷移能力和泛化性。

最后,研究者指出當(dāng)前的假設(shè)過于強大,很多情況下難以滿足實際需求,因此需要針對不同情境采用不同的模型。這也導(dǎo)致了模型落地的門檻相當(dāng)高。因此,尋找通用性強的萬金油算法具有巨大的價值。

猜你喜歡