生成式AI是人類一種人工智能技術,可以生成各種類型的內容,包括文本、圖像、音頻和合成數(shù)據(jù)。那么什么是人工智能?人工智能和機器學習之間的區(qū)別是什么?有哪些技術特征?
人工智能是一門學科,是計算機科學的一個分支,研究智能代理的創(chuàng)建,這些智能代理是可以推理、學習和自主行動的系統(tǒng)。
從本質上講,人工智能與構建像人類一樣思考和行動的機器的理論和方法有關。在這個學科中,機器學習ML,它是人工智能的一個領域。它是根據(jù)輸入數(shù)據(jù)訓練模型的程序或系統(tǒng),經(jīng)過訓練的模型可以從新的或從未見過的數(shù)據(jù)中做出有用的預測,這些數(shù)據(jù)來自于訓練模型的統(tǒng)一數(shù)據(jù)。
機器學習賦予計算機無需顯示編程即可學習的能力。最常見的兩類機器學習模型是無監(jiān)督和監(jiān)督ML模型。兩者之間的主要區(qū)別在于,對于監(jiān)督模型,我們有標簽,標記數(shù)據(jù)是帶有名稱、類型或數(shù)字等標簽的數(shù)據(jù),無監(jiān)督數(shù)據(jù)是沒有標記的數(shù)據(jù)。
該圖是監(jiān)督模型可能嘗試解決問題的事例。
例如,假設您是一家餐館的老板,你有賬單金額的歷史數(shù)據(jù),根據(jù)訂單類型,不同的人給了多少小費,根據(jù)訂單類是取貨還是送貨給了多少不同的人。在監(jiān)督學習中,模型從過去的事例中學習,以預測未來的值。因此這里的模型根據(jù)訂單是取貨還是送貨,使用總賬單金額來預測未來的消費金額。
這是無監(jiān)督模型可能試圖解決問題事例,在這里要查看任期和收入,然后將員工分組獲集群,看看是否有人在快速通道上。無監(jiān)督的問題都是關于查看原始數(shù)據(jù),并查看他是否自然分組,讓我們更深入一點以圖形方式展示。
上面這些概念是理解生成式AI的基礎。
在監(jiān)督學習中,測試數(shù)據(jù)值被輸入到模型中,該模型輸出預測,并將該預測與用于訓練模型的訓練數(shù)據(jù)進行比較。
如果預測的測試數(shù)據(jù)值和實際訓練數(shù)據(jù)值相距甚遠,則稱為錯誤,且該模型會嘗試減少此錯誤,直到預測值和實際值更接近為止。
我們已經(jīng)探討了人工智能和機器學習、監(jiān)督學習和無監(jiān)督學習之間的區(qū)別。那么,讓我們簡要探討一下深度學習的知識。
雖然機器學習是一個包含許多不同技術的廣泛領域,但深度學習是一種使用人工神經(jīng)網(wǎng)絡的機器學習,允許他們處理比機器學習更復雜的模式。
人工神經(jīng)網(wǎng)絡的靈感來自于人腦,它們有許多相互連接的節(jié)點或神經(jīng)元組成,這些節(jié)點或神經(jīng)元可以通過處理數(shù)據(jù)和做出預測來學習執(zhí)行任務。
深度學習模型通常具有多層神經(jīng)元。這使他們能夠學習比傳統(tǒng)機器學習模型更復雜的模式。神經(jīng)網(wǎng)絡可以使用標記和未標記的數(shù)據(jù),這稱為半監(jiān)督學習。在半監(jiān)督學習中,神經(jīng)網(wǎng)絡在少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)上進行訓練。標記數(shù)據(jù)有助于神經(jīng)網(wǎng)絡學習任務的基本概念。而未標記的數(shù)據(jù)有助于神經(jīng)網(wǎng)絡泛化到新的例子。
在這個人工智能學科中的地位,這意味著使用人工神經(jīng)網(wǎng)絡,可以用監(jiān)督、非監(jiān)督和半監(jiān)督方法處理標記和未標記數(shù)據(jù)。大型語言模型也是深度學習的一個子集,深度學習模型或者一般意義上的機器學習模型。
深度學習可以分為判別式和生成式兩種。判別模型是一種用于分類或預測數(shù)據(jù)點標簽的模型。判別模型通常在標記數(shù)據(jù)點的數(shù)據(jù)集上進行訓練。他們學習數(shù)據(jù)點的特征和標簽之間的關系,一旦訓練了判別模型,它就可以用來預測新數(shù)據(jù)點的標簽。而生成模型根據(jù)現(xiàn)有數(shù)據(jù)的學習概率分布生成新的數(shù)據(jù)實例,因此生成模型產出新的內容。
生成模型可以輸出新的數(shù)據(jù)實例,而判別模型可以區(qū)分不同類型的數(shù)據(jù)實例。
該圖顯示了一個傳統(tǒng)的機器學習模型,區(qū)別在于數(shù)據(jù)和標簽之間的關系 ,或者你想要預測的內容。底部圖片顯示了一個生成式AI模型,嘗試學習內容模式,以便生成輸出新內容。
當輸出外標簽是數(shù)字或概率時為非生成式AI,例如垃圾郵件、非垃圾郵件。當輸出是自然語言為生成式AI,例如語音、文本、圖像視頻。
模型輸出是所有輸入的函數(shù),如果Y是數(shù)字,如預測的銷售額,則它不是GenAI。如果Y是一個句子,就像定義銷售一樣。它是生成性的,因為問題會引發(fā)文本響應。他的反應將基于該模型已經(jīng)訓練過的所有海量大數(shù)據(jù)。
總而言之,傳統(tǒng)的、經(jīng)典的有監(jiān)督和無監(jiān)督學習過程,采用訓練代碼和標簽數(shù)據(jù)來構建模型。根據(jù)用例或問題,模型可以為你提供預測,它可以對某些東西進行分類或聚集,使用此勢力展示生成該過程的穩(wěn)健程度。
GenAI過程可以獲取所有數(shù)據(jù)類型的訓練代碼、標簽數(shù)據(jù)和未標簽數(shù)據(jù),構建基礎模型,然后基礎模型可以生成新內容。例如文本、代碼、圖像、音頻、視頻等。
從傳統(tǒng)編程到神經(jīng)網(wǎng)絡,再到生成模型, 我們已經(jīng)走了很長一段路。在傳統(tǒng)的編程中,我們過去不得不編碼區(qū)分貓的規(guī)則。類型是動物,腿有4條,耳朵有2個,毛皮是有的等等。
在神經(jīng)網(wǎng)絡的浪潮中,我們可以給網(wǎng)絡提供貓和狗的圖片。并詢問這是一只貓。他會預測出一只貓。在生成式AI浪潮中,我們作為用戶,可以生成我們自己的內容。
無論是文本、圖像、音頻、視頻等等,例如Python語言模型或對話應用程序語言模型等模型。從互聯(lián)網(wǎng)上的多個來源獲取非常大的數(shù)據(jù)。構建可以簡單的通過提問來使用的基礎語言模型。所以,當你問他什么是貓時,他可以告訴你他所了解的關于貓的一切。
GenAI生成式AI是一種人工智能技術,它根據(jù)從現(xiàn)有內容中學到的知識來創(chuàng)建新內容,從現(xiàn)有內容中學習的過程稱為訓練。并在給出提示時創(chuàng)建統(tǒng)計模型,使用該模型來預測預期的響應可能是什么,并生成新的內容。
從本質上講,它學習數(shù)據(jù)的底層結構內容,然后可生成與訓練數(shù)據(jù)相似的新樣本。如之前所述,生成語言模型可以利用他從展示的事例中學到的知識,并根據(jù)該信息創(chuàng)建全新的東西。
大型語言模型是一種生成式人工智能,因為他們以自然發(fā)音的語言形式生成新穎的文本組合,生成圖像模型,將圖像作為輸入,并可以輸出文本、另一幅圖像或視頻。例如,在輸出文本下,你可以獲得視覺問答,而在輸出圖像下生成圖像補全,并在輸出視頻下生成動畫。
生成語言模型,以文本作為輸入,可以輸出更多的文本、圖像、音頻或決策。例如,在輸出文本下生成問答,并在輸出圖像下生成視頻。
我們已經(jīng)說過,生成語言模型通過訓練數(shù)據(jù)了解模式和語言,然后給定一些文本,他們會預測接下來會發(fā)生什么。
生成語言模型是模式匹配系統(tǒng),他們根據(jù)您提供的數(shù)據(jù)了解模式。根據(jù)他從訓練數(shù)據(jù)中學到的東西,他提供了如何完成這句話的預測。它接受了大量文本數(shù)據(jù)的訓練,能夠針對各種提示和問題進行交流,并生成像人類的文本。
在transformer中,Hallucin是由模型生成的單詞或短語,通常是無意義的或語法錯誤的。幻覺可能由多種因素引起,包括模型沒有在足夠的數(shù)據(jù)上訓練,或者模型是在嘈雜或骯臟的數(shù)據(jù)上訓練的,又或者沒有給模型足夠的上下文,還存在,沒有給模型足夠的約束。
他們還可以使模型更有可能生成不正確或誤導性的信息,例如雜TPT3.5有時可能生成的信息未必正確。提示詞是作為輸入提供給大型語言模型的一小段文本。并且它可以用于多種方式控制模型的輸出。
提示設計是創(chuàng)建提示的過程,該提示將從大型語言模型生成所需的輸出內容。如之前所述,LLM在很大程度上取決于你輸入的訓練數(shù)據(jù)。他分析輸入數(shù)據(jù)的模式和結構,從而進行學習。但是通過訪問基于瀏覽器的提示,用戶可以生成自己的內容。
我們已經(jīng)展示了基于數(shù)據(jù)的輸入類型的路線圖,以下是相關的模型類型。
文本到文本模型。采用自然語言輸入并生成文本輸出。這些模型被訓練學習文本之間的映射。例如,從一種語言到另一種語言的翻譯。
文本到圖像模型。因為文本到圖像模型是在大量圖像上訓練的。每個圖像都帶有簡短的文本描述。擴散是用于實現(xiàn)此目的的一種方法。
文本到視頻和文本到3D。文本到視頻模型只在文本輸入生成視頻內容,輸入文本可以是從單個句子到完整腳本的任何內容。輸出是與輸入文本相對應的視頻類似的文本到3D模型生成對應于用戶文本描述的三位對象。例如,這可以用于游戲或其他3D世界。
文本到任務模型。經(jīng)過訓練,可以根據(jù)文本輸入執(zhí)行定義的任務或操作。此任務可以是廣泛的采取操作。例如回答問題、執(zhí)行搜索、進行預測或采取某種操作,也可以訓練文本到任務模型來指導外B問或通過可以更改文檔。
基礎模型是在大量數(shù)據(jù)上進行預訓練的大型AI模型。目的在適應或微調各種下游任務,例如情感分析、圖像、字幕和對象識別。
基礎模型有可能徹底改變許多行業(yè),包括醫(yī)療保健、金融和客戶服務等,它們可用于檢測預測,并提供個性化的客戶支持。OpenAI提供了一個包含基礎的模型源語言,基礎模型包括用于聊天和文本的。
視覺基礎模型包括穩(wěn)定擴散,可以有效的從文本描述生成包質量圖像。假設你有一個案例,需要收集有關客戶對您的產品或服務的感受。
生成式AI Studio,在開發(fā)者來看,讓您無需編寫任何代碼即能輕松設計和構建應用程序。它有一個可視化編輯器,可以輕松創(chuàng)建和編輯應用程序內容。還有一個內置的搜索引擎,允許用戶在應用程序內搜索信息。
還有一個對話式人工智能引擎,可以幫助用戶使用自然語言與應用程序進行交互。您可以創(chuàng)建自己的數(shù)字助理、自定義搜索引擎、知識庫、培訓應用程序等等。
模型部署工具可幫助開發(fā)人員使用多種不同的部署選項,將在模型部署到生產環(huán)境中。而模型監(jiān)控工具幫助開發(fā)人員使用儀表板和許多不同的度量來監(jiān)控ML模型在生產中的性能。
如果把生成式AI應用開發(fā)看作一個復雜拼圖的組裝,其需要的數(shù)據(jù)科學、機器學習、編程等每一項技術能力就相當于拼圖的每一塊。
沒有技術積累的企業(yè)理解這些拼圖塊本身就已經(jīng)是很困難的事,將它們組合在一起就變成了一項更為艱巨的任務。但如果有服務方能給這些技術能力薄弱的傳統(tǒng)企業(yè)提供一些預拼好的拼圖部分,這些傳統(tǒng)企業(yè)就能夠更容易、更快速地完成整幅拼圖。
從國內市場真實的情況來看,生成式AI的發(fā)展既不像當初追風口的從業(yè)者預估的那樣樂觀,也沒有唱衰者形容的那么悲觀。
企業(yè)用戶追求應用的穩(wěn)健性、經(jīng)濟性、安全性和可用性,這和大語言模型等生成式AI在訓練過程中不惜花費高昂算力成本達成更高的能力是完全不同的路徑。
這背后一個核心的問題是,在想象空間更大的企業(yè)級生成式AI領域,最重要的不是大模型能力有多強,而是如何能夠從基礎模型演變成各個領域中的具體應用,從而賦能整個經(jīng)濟社會的發(fā)展。