知識圖與大型語言模型的協(xié)同作用

沃卡惠
行業(yè)資訊
2024-05-17 09:03:54
314

從非結(jié)構(gòu)化文本中提取有價值的見解是金融行業(yè)的關(guān)鍵應(yīng)用。然而，這項任務(wù)往往超出了簡單的數(shù)據(jù)提取，需要高級推理能力。

一個典型的例子是確定信貸協(xié)議中的到期日，這通常涉及破譯一個復(fù)雜的指令，如“到期日應(yīng)在生效日期三周年之前的最后一個工作日”。這種級別的復(fù)雜推理對大型語言模型(LLM)提出了挑戰(zhàn)。它需要結(jié)合外部知識，如假日日歷，以準確地解釋和使用給定的指示。集成知識圖是一種很有前途的解決方案，具有幾個關(guān)鍵優(yōu)勢。

Transformer的出現(xiàn)徹底改變了文本矢量化，實現(xiàn)了前所未有的精度。這些嵌入封裝了深刻的語義含義，超越了以前的方法，這就是為什么大型語言模型(LLM)在生成文本方面如此出色的原因。

LLM進一步展示了推理能力，盡管有局限性：他們推理的深度往往會迅速下降。然而，將知識圖與這些向量嵌入相結(jié)合可以顯著提高推理能力。這種協(xié)同利用嵌入的固有語義豐富性，將推理能力提升到無與倫比的高度，標志著人工智能的重大進步。

在金融領(lǐng)域，LLM主要通過檢索增強生成(RAG)來使用，這種方法將新的、訓練后的知識注入LLM。這個過程包括對文本數(shù)據(jù)進行編碼，為有效檢索建立索引，對查詢進行編碼，并使用類似的算法獲取相關(guān)段落。然后將這些檢索到的段落與查詢一起使用，作為LLM生成響應(yīng)的基礎(chǔ)。

這種方法大大擴展了LLM的知識基礎(chǔ)，使其對財務(wù)分析和決策非常寶貴。雖然檢索增強生成標志著重大的進步，但它也有局限性。

一個關(guān)鍵的缺點在于通道向量可能無法完全掌握查詢的語義意圖，從而導(dǎo)致忽略了重要的上下文。出現(xiàn)這種疏忽的原因是，嵌入可能無法捕捉到理解查詢的全部范圍所必需的某些推斷連接。

此外，將復(fù)雜的段落濃縮成單個向量可能會導(dǎo)致細微差別的喪失，模糊了分布在句子中的關(guān)鍵細節(jié)。

還有就是匹配過程單獨處理每個段落，缺乏可以連接不同事實的聯(lián)合分析機制。這種缺失阻礙了模型從多個來源聚合信息的能力，而聚合信息對于生成來自不同上下文信息達成全面而準確的響應(yīng)通常是必需的。

改進檢索增強生成框架的努力有很多，從優(yōu)化塊大小到使用父塊檢索器、假設(shè)問題嵌入和查詢重寫。雖然這些策略提供了改進，但它們不會導(dǎo)致革命性的結(jié)果變化。另一種方法是通過擴展上下文窗口來繞過檢索增強生成，就像Google Gemini躍升到100萬個令牌容量一樣。然而，這帶來了新的挑戰(zhàn)，包括在擴展的背景下不一致的焦點和大量的信息，通常是數(shù)千倍的成本增加。

將知識圖與密集向量結(jié)合起來是最有希望的解決方案。雖然嵌入有效地將不同長度的文本壓縮為固定維向量，從而能夠識別語義相似的短語，但它們有時無法區(qū)分關(guān)鍵的細微差別。例如，“來自銀行的現(xiàn)金和到期”和“現(xiàn)金和現(xiàn)金等價物”產(chǎn)生幾乎相同的向量，這表明相似性忽略了實質(zhì)性差異。后者包括有息實體，如“資產(chǎn)支持證券”或“貨幣市場基金”，而“銀行到期”指的是無息存款。

知識圖能捕獲概念之間復(fù)雜的相互關(guān)系。這培養(yǎng)了更深層次的上下文洞察力，通過概念之間的聯(lián)系強調(diào)了額外的獨特特征。例如，美國公認會計準則知識圖譜清楚地將“現(xiàn)金和現(xiàn)金等價物”、“銀行計息存款”和“銀行到期”的總和定義為“現(xiàn)金和現(xiàn)金等價物”。

通過整合這些詳細的上下文線索和關(guān)系，知識圖顯著提高了LLM的推理能力。它們可以在單個圖中實現(xiàn)更精確的多級推理，并促進跨多個圖的聯(lián)合推理。

上一篇：生成式AI時代下的企業(yè)，該如何充分挖掘數(shù)據(jù)價值？

下一篇：如何在數(shù)據(jù)利用與保護間找到完美平衡？