集體智慧：LLM預(yù)測(cè)能力與人群可相互媲美

沃卡惠
行業(yè)資訊
2024-04-22 09:47:14
93

現(xiàn)在，AI系統(tǒng)的預(yù)測(cè)準(zhǔn)確率達(dá)到甚至超過(guò)了人群。

在不斷發(fā)展的人工智能（AI）領(lǐng)域，語(yǔ)言模型已取得了重大進(jìn)展，實(shí)現(xiàn)了曾經(jīng)被認(rèn)為人類(lèi)認(rèn)知才能實(shí)現(xiàn)的非凡成就。比如說(shuō)，Anthropic新的Claude 3語(yǔ)言模型似乎能夠意識(shí)到它被測(cè)試或被評(píng)估，這為AI領(lǐng)域原本惹人矚目的進(jìn)步另外增添了一層復(fù)雜性。

這個(gè)進(jìn)展特別值得注意的一個(gè)新領(lǐng)域是預(yù)測(cè)領(lǐng)域——對(duì)未來(lái)事件做出準(zhǔn)確預(yù)測(cè)的能力。

我們?cè)谶@篇博文中將深入研究一篇突破性的研究論文（https://arxiv.org/pdf/2402.19379.pdf），探究大語(yǔ)言模型（LLM）的預(yù)測(cè)能力，并將它們與人群預(yù)測(cè)這個(gè)參照標(biāo)準(zhǔn)進(jìn)行比較。這項(xiàng)研究由倫敦政治經(jīng)濟(jì)學(xué)院、麻省理工學(xué)院和賓夕法尼亞大學(xué)的研究人員共同進(jìn)行，研究結(jié)果刷新了我們對(duì)AI能力的理解，并揭示了LLM在現(xiàn)實(shí)場(chǎng)景中與人類(lèi)專(zhuān)業(yè)知識(shí)相媲美的潛力。

背景介紹

預(yù)測(cè)是指基于過(guò)去和現(xiàn)在的數(shù)據(jù)、趨勢(shì)和模式對(duì)未來(lái)事件做出預(yù)測(cè)，它在經(jīng)濟(jì)、政治、技術(shù)和科學(xué)等領(lǐng)域發(fā)揮著至關(guān)重要的作用。準(zhǔn)確的預(yù)測(cè)有助于更好的決策、資源分配和風(fēng)險(xiǎn)管理。

傳統(tǒng)上，最可靠的預(yù)測(cè)方法是“群體智慧”效應(yīng)，即利用一群不同的個(gè)體的集體知識(shí)。1907年，英國(guó)著名人類(lèi)學(xué)家Francis Galton對(duì)這一現(xiàn)象進(jìn)行了著名的論證，當(dāng)時(shí)他觀察到，一群人在縣集市上猜測(cè)的中位數(shù)準(zhǔn)確地預(yù)測(cè)了一頭牛的體重。從那以后，眾多研究已證實(shí)，將大量不同預(yù)測(cè)者的預(yù)測(cè)值匯總起來(lái)，可以得出非常準(zhǔn)確的結(jié)果。

然而，依靠人群進(jìn)行預(yù)測(cè)存在幾個(gè)局限性：

成本和時(shí)間：召集一群足夠龐大且多樣化的熟練預(yù)測(cè)者費(fèi)錢(qián)又費(fèi)時(shí)。

偏見(jiàn)和相關(guān)性：人類(lèi)判斷容易受到各種認(rèn)知偏見(jiàn)的影響，個(gè)人預(yù)測(cè)之間的相關(guān)性可能會(huì)削弱群體的集體準(zhǔn)確性。

可擴(kuò)展性：組織和管理大規(guī)模的人類(lèi)預(yù)測(cè)比賽操辦起來(lái)很復(fù)雜，很難擴(kuò)展。

AI預(yù)測(cè)的前景

近些年來(lái)，AI的快速發(fā)展（尤其是在自然語(yǔ)言處理領(lǐng)域）已經(jīng)引出了使用機(jī)器智能進(jìn)行預(yù)測(cè)的誘人前景。像GPT-3、GPT-4和Claude 3這樣的LLM在理解和生成類(lèi)似人類(lèi)的文本方面表現(xiàn)出了非凡的能力（Claude 3現(xiàn)在甚至知道它在接受測(cè)試），這促使研究人員調(diào)查L(zhǎng)LM對(duì)未來(lái)事件做出準(zhǔn)確預(yù)測(cè)的潛力。

然而之前的研究表明，與人群預(yù)測(cè)相比，各個(gè)LLM的表現(xiàn)常常不佳。比如說(shuō)，Schoenegger和Park在2023年發(fā)現(xiàn)，盡管GPT-4擁有出眾的語(yǔ)言技能，但其表現(xiàn)不如一個(gè)簡(jiǎn)單的無(wú)信息衡量基準(zhǔn)，即預(yù)測(cè)所有二元問(wèn)題的50%概率。

硅群體智慧

然而在這篇新論文中，Schoenegger等人假設(shè)，要釋放LLM的預(yù)測(cè)潛力，關(guān)鍵可能在于匯總來(lái)自多個(gè)不同模型的預(yù)測(cè)，這相當(dāng)于一種機(jī)器“群體智慧”效應(yīng)。為了測(cè)驗(yàn)這個(gè)想法，他們進(jìn)行了兩項(xiàng)研究：

研究1：LLM并聯(lián)vs.人群

在第一項(xiàng)研究中，研究人員從12個(gè)不同的LLM那里收集了多達(dá)31個(gè)二元問(wèn)題的預(yù)測(cè)，這些問(wèn)題來(lái)自預(yù)測(cè)平臺(tái)Metaculus上的一項(xiàng)實(shí)時(shí)預(yù)測(cè)比賽，925名人類(lèi)預(yù)測(cè)者也參與了為期3個(gè)月的比賽。LLM涵蓋廣泛的體系結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)集和微調(diào)方法，包括來(lái)自O(shè)penAI、Anthropic、谷歌、Meta等公司的模型。

圖1. 測(cè)試的模型

針對(duì)每個(gè)問(wèn)題，研究人員使用標(biāo)準(zhǔn)化的提示對(duì)每個(gè)LLM詢(xún)問(wèn)三次，提示包括問(wèn)題背景、解答標(biāo)準(zhǔn)以及作為“超級(jí)預(yù)測(cè)者”的應(yīng)答說(shuō)明。然后，他們算出了12個(gè)LLM中所有非缺失預(yù)測(cè)的中位數(shù)，以獲得“LLM群體”預(yù)測(cè)。

圖2. LLM并聯(lián)機(jī)制概況圖

結(jié)果是驚人的：LLM群體在所有問(wèn)題上的預(yù)測(cè)都達(dá)到了50%的無(wú)信息基準(zhǔn)（p = 0.026），并且在統(tǒng)計(jì)上與人群的準(zhǔn)確率沒(méi)有區(qū)別（p = 0.850）。探索性等效測(cè)試進(jìn)一步表明，LLM和人群在中等效應(yīng)大小范圍內(nèi)不相上下。

研究2：利用人類(lèi)認(rèn)知輸出改進(jìn)LLM預(yù)測(cè)

圖3. 第二項(xiàng)預(yù)測(cè)干預(yù)提示

第二項(xiàng)研究調(diào)查了是否可以通過(guò)為L(zhǎng)LM提供人群的中位數(shù)預(yù)測(cè)作為附加信息，進(jìn)一步提高其預(yù)測(cè)精度。研究人員專(zhuān)注于兩個(gè)最先進(jìn)的模型：GPT-4和Claude 2，并采用了模型內(nèi)設(shè)計(jì)，每個(gè)模型都進(jìn)行了初步預(yù)測(cè)，然后在接收人群中位數(shù)后進(jìn)行了更新預(yù)測(cè)。

兩個(gè)模型在接收人類(lèi)人群信息后都顯示出準(zhǔn)確性有了顯著提高，GPT-4的平均Brier評(píng)分（衡量預(yù)測(cè)誤差的指標(biāo)）從0.17降至0.14 （p = 0.003），Claude 2則從0.22降至0.15（p < 0.001）。當(dāng)人群中位數(shù)處于初始范圍內(nèi)時(shí)，這些模型也適當(dāng)?shù)乜s小了其預(yù)測(cè)區(qū)間，顯示了以合理的方式整合額外信息的能力。

圖4. 接收人類(lèi)預(yù)測(cè)前后，GPT-4（左）和Claude 2（右）的LLM預(yù)測(cè)。顏色區(qū)分首次預(yù)測(cè)高于、低于或介于人類(lèi)中位數(shù)預(yù)測(cè)的20個(gè)百分點(diǎn)。高亮顯示的變化和間隔是該組內(nèi)相應(yīng)的中位數(shù)預(yù)測(cè)。”

然而探索性分析顯示，僅僅將最初的機(jī)器預(yù)測(cè)與人類(lèi)中位數(shù)相平均，可以得到甚至比模型的更新預(yù)測(cè)更高的準(zhǔn)確率。這表明，雖然LLM可能受益于人類(lèi)認(rèn)知輸出，但其推理能力可能還沒(méi)有達(dá)到整合這類(lèi)信息的最佳調(diào)校水平。

影響和限制

這里的研究發(fā)現(xiàn)對(duì)預(yù)測(cè)和AI-人類(lèi)協(xié)作的未來(lái)具有重要意義：

可擴(kuò)展且經(jīng)濟(jì)有效的預(yù)測(cè)：通過(guò)利用“硅群體智慧”，組織可以比單獨(dú)依賴(lài)人群更快速、更廉價(jià)地獲得高質(zhì)量的預(yù)測(cè)。這可以使數(shù)據(jù)驅(qū)動(dòng)的決策在各個(gè)領(lǐng)域更容易獲得。

人類(lèi)和AI的互補(bǔ)優(yōu)勢(shì)：雖然LLM并聯(lián)可能與人群準(zhǔn)確性相當(dāng)，但這項(xiàng)研究也表明，人類(lèi)認(rèn)知輸出可以進(jìn)一步改善機(jī)器預(yù)測(cè)。這凸顯了人類(lèi)專(zhuān)家和AI系統(tǒng)在預(yù)測(cè)任務(wù)方面協(xié)同合作的潛力（這與另一項(xiàng)研究多少有點(diǎn)矛盾；另一項(xiàng)研究發(fā)現(xiàn)，AI在診斷疑難疾病方面的表現(xiàn)優(yōu)于人類(lèi)醫(yī)生，無(wú)論AI醫(yī)生的參與程度如何）。

促進(jìn)AI推理能力：該研究提供了LLM參與復(fù)雜推理（或至少看起來(lái)是推理）和信息整合的能力的證據(jù)，盡管還有進(jìn)一步優(yōu)化的空間。隨著模型不斷改進(jìn)，我們可能會(huì)看到它們?cè)陬A(yù)測(cè)性能方面取得更大的進(jìn)步。

然而，有必要承認(rèn)這項(xiàng)研究的局限性和注意事項(xiàng)：

該研究致力于短期（3個(gè)月）二元預(yù)測(cè)。需要做更多的工作來(lái)評(píng)估LLM在長(zhǎng)期預(yù)測(cè)和更復(fù)雜類(lèi)型的問(wèn)題上的表現(xiàn)。

LLM表現(xiàn)出了一種默認(rèn)偏差，即使在經(jīng)驗(yàn)基礎(chǔ)率接近均等的情況下，它們也往往預(yù)測(cè)概率> 50%。它們還顯示出了整體校準(zhǔn)欠佳，表明需要進(jìn)一步的改進(jìn)。

隨著LLM的訓(xùn)練數(shù)據(jù)變得越來(lái)越過(guò)時(shí)，如果沒(méi)有定期更新以跟上不斷變化的實(shí)際環(huán)境，預(yù)測(cè)準(zhǔn)確性可能會(huì)隨之下降。

結(jié)語(yǔ)

盡管存在這些局限性，這項(xiàng)研究還是意義重大，表明AI系統(tǒng)在某些預(yù)測(cè)領(lǐng)域具有匹配甚至超越人群集體智慧的潛力。通過(guò)利用“硅群體智慧”，我們可以讓高質(zhì)量的、數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)比以往任何時(shí)候更具可擴(kuò)展性、更普及。

當(dāng)然，LLM并不能完全取代人類(lèi)判斷，人類(lèi)專(zhuān)家在解釋、結(jié)合上下文處理和根據(jù)機(jī)器預(yù)測(cè)采取行動(dòng)方面將始終扮演至關(guān)重要的角色。但隨著AI能力不斷提升，越來(lái)越明顯的是，未來(lái)的預(yù)測(cè)將是人類(lèi)智能和機(jī)器智能之間密切合作和協(xié)同作用的結(jié)果。

有些人重視對(duì)我們所居住的復(fù)雜世界做出準(zhǔn)確、及時(shí)和可操作的預(yù)測(cè)，硅群體時(shí)代即將到來(lái)，這對(duì)他們來(lái)說(shuō)確實(shí)是令人興奮的前景。隨著研究人員不斷突破AI預(yù)測(cè)方面的極限，本人一定會(huì)替讀者密切關(guān)注這方面。

上一篇：人工智能時(shí)代的數(shù)據(jù)中心：洞察與策略

下一篇：人工智能在未來(lái)工廠中的作用