隨著大模型的發(fā)展,通用智能不斷迭代升級,應用模式也不斷創(chuàng)新,從簡單的Prompt應用、RAG(搜索增強生成)再到AI Agent(人工智能代理)。其中AI Agent一直是個火熱的話題,未來將無處不在。比爾蓋茨還宣稱終極技術競賽將圍繞著開發(fā)頂級AI代理。他說:“你再也不會去搜索網(wǎng)站或亞馬遜了......”。說明他看好人工智能給人機交互模式帶來的巨大變化,也認可AI Agent在當中扮演的重要角色。
AI Agent 是一個由人工智能驅(qū)動的虛擬助手,它能夠幫助實現(xiàn)流程自動化、生成見解、提升效率??梢宰鳛閱T工或合作伙伴幫助實現(xiàn)人類賦予的目標。
恒溫器就是一個簡單的AI Agent例子,它可以根據(jù)特定的時間調(diào)節(jié)加熱達到特定的溫度。它通過溫度傳感器和時鐘感知環(huán)境。它通過一個開關采取行動,可以根據(jù)實際溫度或時間打開或關閉加熱。恒溫器可以通過添加AI功能變成一個更復雜的AI代理,使其能夠從居住在房子里的人的習慣中學習。
AI Agent可以根據(jù)Agent的行為對感知智能和能力的影響模式,分為不同類型。
本文主要介紹6種不同的AI Agent。包括:
Simple reflex agents
Model-based agents
Goal-based agents
Utility-based agents
Learning agents
Hierarchical agents
1.Simple reflex agents:簡單反射代理
簡單的反射代理是一個可以根據(jù)預定義規(guī)則做出決策的AI系統(tǒng)。它只對當前的情況作出反應,而不考慮過去或未來的后果。
簡單的反射代理適合于具有穩(wěn)定的規(guī)則和直接行動的環(huán)境,因為它的行為純粹是反應性的,對環(huán)境變化能夠即時做出響應。
(1) 原理:
簡單反射代理通過遵循條件、操作規(guī)則來執(zhí)行其功能,該規(guī)則指定在特定條件下要采取的操作。
(2) 例子:
一個基于規(guī)則的系統(tǒng),用于實現(xiàn)智能客服。如果客戶的消息包含“密碼重置”的關鍵字,則系統(tǒng)可以自動生成包含關于重置密碼的指令的預定義響應。
(3) 優(yōu)勢:
簡易:易于設計和實施,計算資源需求少,無需大量培訓或復雜的硬件。
實施:能夠?qū)崟r響應環(huán)境變化。
高可靠:在提供輸入的傳感器準確且規(guī)則設計良好的情況下具備高可靠性。
(4) 弱勢:
如果輸入傳感器有故障或規(guī)則設計不當,則容易出錯。
沒有記憶或狀態(tài),這限制了它們的適用范圍。
無法處理部分未明確編程的環(huán)境變化。
受限于一組特定的操作,無法適應新的情況。
2.Model-based agents:基于模型的代理
基于模型的代理,基于當前的感知和表示不可觀察單詞的內(nèi)部狀態(tài)來執(zhí)行動作。它基于兩個因素來更新其內(nèi)部狀態(tài):
世界是如何獨立于Agent而演化的
Agent的行動如何影響世界
(1) 原理:
基于模型的代理遵循條件+動作規(guī)則,該規(guī)則指定在給定情況下要采取的適當動作。但與簡單的反射代理不同,基于模型的代理還使用其內(nèi)部狀態(tài)來評估決策和行動過程中的條件。
基于模型的代理分四個階段運行:
感知:它通過傳感器感知世界的當前狀態(tài)。
模型:它根據(jù)所見構建世界的內(nèi)部模型。
原因:它使用自己的世界模型來決定如何根據(jù)一組預定義的規(guī)則或規(guī)則行事。
行為:代理人執(zhí)行其選擇的行為。
(2) 例子:
基于模型的代理最好的例子之一是:Amazon Bedrock。Amazon Bedrock是一項使用基礎模型來模擬運營、獲得見解并做出明智的決策,以實現(xiàn)有效的規(guī)劃和優(yōu)化的服務。
通過各種模型Bedrock可以獲得洞察力,預測結(jié)果并做出明智的決策。它不斷使用真實數(shù)據(jù)改進其模型,使其能夠適應和優(yōu)化其運營。
然后,Amazon Bedrock針對不同的場景進行規(guī)劃,并通過模擬和調(diào)整模型參數(shù)來選擇最佳策略。
(3) 優(yōu)勢:
基于對世界的理解做出快速有效的決策。
通過構建世界的內(nèi)部模型,更好地做出準確的決策。
通過更新內(nèi)部模型來適應環(huán)境變化。
通過使用其內(nèi)部狀態(tài)和規(guī)則來確定條件。
(4) 弱勢:
建設和維護模型的計算成本可能很高。
這些模型可能無法很好地捕捉真實世界環(huán)境的復雜性。
模型無法預測可能出現(xiàn)的所有潛在情況。
模型需要經(jīng)常更新以保持最新。
模型可能在理解能力和解釋能力方面存在挑戰(zhàn)。
3.Goal-based agents:基于目標的代理
基于目標的代理是利用環(huán)境信息來實現(xiàn)特定目標的人工智能智能體。他們使用搜索算法在給定的環(huán)境中找到實現(xiàn)目標的最有效路徑。
這些代理也稱為基于規(guī)則的代理,因為它們遵循預定義的規(guī)則來實現(xiàn)目標,并根據(jù)特定條件采取特定行動。
基于目標的代理易于設計,可以處理復雜的任務。它們可以用于各種應用,如機器人、計算機視覺和自然語言處理等。
與基本模型不同,基于目標的代理可以根據(jù)其期望的結(jié)果或目標來確定決策和行動過程的最佳路徑。
(1) 原理:
給定一個計劃,基于目標的代理會試圖選擇最佳策略來實現(xiàn)目標,然后使用搜索算法來找到到達目標的有效路徑。
基于目標的代理的工作模式可以分為五個步驟:
感知:智能體使用傳感器或其他輸入設備感知其環(huán)境,以收集有關其周圍環(huán)境的信息。
推理:智能體分析收集的信息,并決定最佳行動方案以實現(xiàn)其目標。
行動:智能體采取行動來實現(xiàn)其目標,例如移動或操縱環(huán)境中的對象。
評估:采取行動后,智能體評估其實現(xiàn)目標的進展,并在必要時調(diào)整其行動。
目標完成:一旦智能體實現(xiàn)了目標,它要么停止工作,要么開始為新的目標工作。
(2) 例子:
Google Bard 是一個學習的媒介。從某種意義上來說它也是一個基于目標的代理。作為一個基于目標的代理,它的目標是為用戶查詢并提供高質(zhì)量的響應。它選擇的行動可能有助于用戶找到他們所需要的信息,并實現(xiàn)他們獲得準確和有用的回復的預期目標。
(3) 優(yōu)勢:
易于理解和實施。
有效實現(xiàn)特定目標。
易于根據(jù)目標完成情況評估績效。
它可以與其他AI技術相結(jié)合,以創(chuàng)建更高級的代理。
非常適合定義明確的結(jié)構化環(huán)境。
它可用于各種應用,如:機器人、游戲和自動駕駛汽車。
(4) 弱勢:
局限于特定的目標。
無法適應不斷變化的環(huán)境。
對于具有太多變量的復雜任務無效。
需要豐富的領域知識來定義目標。
4.Utility-based agents:基于效用的代理
基于效用的代理是基于效用函數(shù)或價值最大化做出決策的AI代理。他們選擇具有最高預期效用的行動,這個選擇的結(jié)果決定了最終結(jié)果的好壞。這種模式更具靈活性、適應性地處理復雜情況下的任務。
基于效用的代理通常用于必須在多個選項中進行比較和選擇,例如:資源如何分配、任務如何調(diào)度、游戲如何進行。
(1) 原理:
基于效用的代理旨在選擇導致高效用狀態(tài)的行為。為了實現(xiàn)這一點,它需要對其環(huán)境進行建模,可以是簡單的,也可以是復雜的。
然后,根據(jù)概率分布和效用函數(shù)評估每個可能結(jié)果的期望效用。
最后,選擇具有最高期望效用的動作,并在每個時間步長重復此過程。
(2) 例子:
Anthropic Claude是一個人工智能工具,其目標是幫助持卡人最大限度地提高他們使用卡片的獎勵,是一個基于效用的代理。
為了實現(xiàn)其目標,它采用了一個效用函數(shù),將代表成功或幸福的數(shù)值分配給不同的狀態(tài)(持卡人面臨的情況,如:購買、支付賬單、兌換獎勵等)。然后比較每個狀態(tài)下不同行為的結(jié)果,并根據(jù)其效用值進行權衡決策。
此外,它使用啟發(fā)式和人工智能技術來簡化和改進決策。
(3) 優(yōu)勢:
可處理廣泛的決策問題
從經(jīng)驗中學習并調(diào)整其決策策略
為決策類應用提供統(tǒng)一、客觀的框架
(4) 弱勢:
需要一個準確的環(huán)境模型,否則會導致決策錯誤
計算成本高,需要大量計算
沒有考慮道德或倫理因素
人類很難理解和驗證其過程
5.Learning agents:學習代理
學習代理是一種可以從過去的經(jīng)驗中學習并提高模型性能的模式。最初的代理具備基礎的知識,并通過機器自動適應學習,不斷成長。
學習代理包括四個主要組件:
學習元素:它負責學習,并根據(jù)從環(huán)境中獲得的經(jīng)驗進行改進。
Citric:它通過代理的表現(xiàn)為預定義的標準向?qū)W習元素提供反饋。
績效要素:它根據(jù)來自學習要素和評論家的信息選擇并執(zhí)行外部行動。
問題生成器:它建議采取行動,為學習元素創(chuàng)造新的信息體驗,以提高其性能。
(1) 原理:
AI學習代理遵循一個基于反饋的觀察、學習和行動的閉環(huán)。他們與環(huán)境互動,從反饋中學習,并為未來的互動修正自己的行為。
以下是這個閉環(huán)的工作過程:
觀察:學習代理通過傳感器或其他輸入觀察其環(huán)境。
學習:智能體使用算法和統(tǒng)計模型分析數(shù)據(jù),從對其行為和性能的反饋中學習。
行動:基于它所學到的,智能體在其環(huán)境中采取行動,以決定如何行動。
反饋:智能體通過獎勵、懲罰或環(huán)境提示接收有關其行為和表現(xiàn)的反饋。
適應:使用反饋,代理改變其行為和決策過程,更新其知識并適應其環(huán)境。
這個循環(huán)的過程會隨著時間的推移而重復,使代理能夠不斷提高其性能并適應不斷變化的環(huán)境。
(2) 例子:
AutoGPT是學習代理的一個很好的例子,假設你想買一部智能手機。所以,你給予AutoGPT一個提示,讓它對十大智能手機進行市場研究,提供關于它們利弊的見解。
為了完成你的任務,AutoGPT將通過探索各種網(wǎng)站和來源來分析十大智能手機的利弊。使用子代理程序評估網(wǎng)站的真實性。最后,它會生成一份詳細的報告,總結(jié)調(diào)查結(jié)果,并列出十大智能手機公司的利弊。
(3) 優(yōu)勢:
Agent可以根據(jù)人工智能決策將想法轉(zhuǎn)化為行動
學習代理可以遵循基本的命令,如:口頭指令、執(zhí)行任務
與執(zhí)行預定義操作的經(jīng)典代理不同,學習代理可以隨著時間的推移而進化
人工智能代理考慮效用測量,使其更加現(xiàn)實
(4) 弱勢:
可能產(chǎn)生傾向于有偏見或不正確的決策
開發(fā)和維護成本高
需要大量計算資源
依賴大量數(shù)據(jù)
缺乏人類的直覺和創(chuàng)造力功能
6.Hierarchical agents:層級代理
層級代理是一種層次化結(jié)構,可以包含高級代理、低級代理,高級代理監(jiān)督低級代理。但是,這些級別可能會根據(jù)系統(tǒng)的復雜性而有所不同。
分層代理的應用場景如:機器人、制造、運輸?shù)?。它擅長協(xié)調(diào)、處理多任務和子任務。
(1) 原理:
分層代理的工作方式就像一個公司的組織。它們將任務組織在由不同級別組成的結(jié)構化層次結(jié)構中,其中更高級別的代理監(jiān)督并將目標分解為更小的任務。
隨后,較低級別的代理執(zhí)行這些任務并提供進度報告。
在復雜系統(tǒng)的情況下,可能會有中級代理人協(xié)調(diào)較低級別代理人與較高級別代理人的活動。
(2) 例子:
Google的UniPi就是一種創(chuàng)新的AI分層代理,它利用文本和視頻作為通用接口,使其能夠在各種環(huán)境中學習各種任務。
UniPi包括一個生成指令和演示的高級策略和一個執(zhí)行任務的低級策略。高級策略適應各種環(huán)境和任務,而低級策略通過模仿和強化學習進行學習。
這種層次結(jié)構使UniPi能夠有效地將高級推理和低級執(zhí)行相結(jié)合。
(3) 優(yōu)勢:
分層代理通過將任務分配給最合適的代理并避免重復工作來提供資源效率。
等級結(jié)構通過建立明確的權力和方向來加強溝通。
分層強化學習(HRL)通過降低動作復雜性和增強探索來改善代理決策。它采用高級操作來簡化問題并促進代理學習。
層次分解通過更簡潔和可重用地表示整個問題,提供了最小化計算復雜性的好處。
(4) 弱勢:
使用層次結(jié)構解決問題時會出現(xiàn)復雜性。
固定的層次結(jié)構限制了在變化或不確定環(huán)境中的適應性,阻礙了智能體調(diào)整或?qū)ふ姨娲桨傅哪芰Α?/p>
分層代理遵循自上而下的控制流,即使較低級別的任務已經(jīng)就緒,也會導致瓶頸和延遲。
層次結(jié)構可能缺乏跨不同問題域的可重用性,需要為每個域創(chuàng)建新的層次結(jié)構,這既耗時又依賴于專業(yè)知識。
由于需要標記的訓練數(shù)據(jù)和精細的算法設計,訓練分層代理具有一定挑戰(zhàn)性。由于其復雜性,應用標準的機器學習技術來提高性能變得更加困難。
總結(jié)
隨著最近大語言模型的快速迭代升級,AI代理已不再是新事物,當我們把多個代理放在一起,創(chuàng)造一個團隊的代理能力將遠遠超過一個單獨的代理。從維持家庭溫度的簡單反射代理到駕駛汽車的更高級代理,AI代理將無處不在。未來每個人都可以更容易地創(chuàng)建自己的代理和自己的代理團隊。它使人們能夠在幾分鐘內(nèi)完成可能需要幾小時或幾天的任務!