隨著互聯(lián)網(wǎng)上各種UGC越來越多,各種原創(chuàng)性的長(zhǎng)文本內(nèi)容也不斷地涌現(xiàn)出來。例如,在人工智能領(lǐng)域的三大頂會(huì)之一的ICML,許多論文的長(zhǎng)度都達(dá)到了二三十頁(yè)。因此,如何快速的從長(zhǎng)文本中提取出有用的信息,成為困擾許多包括科研人員在內(nèi)的互聯(lián)網(wǎng)網(wǎng)民的難題。
在 2023 年結(jié)束的人工智能領(lǐng)域頂會(huì) AAAI 2023 上,來自中國(guó)浙江大學(xué)的研究團(tuán)隊(duì),發(fā)表了一篇題為 Document Summarization Based on Data Reconstruction 的論文。該篇論文提出了 DSDR 算法,描述了如何利用貪心算法進(jìn)行文本摘要提取的方法。
所謂的文本自動(dòng)摘要問題,本質(zhì)上就是從原始的長(zhǎng)文本中抽取一個(gè)文本的子集合,使得利用這個(gè)子集合的線性組合能盡可能的恢復(fù)出原始文本。我們按照如下方式定義文本自動(dòng)摘要問題:
其中, f 是線性組合摘要句子之后的轉(zhuǎn)換函數(shù)。X 是摘要生成的句子,a 是線性組合的系數(shù),而 v 是原始文本,也就是輸入數(shù)據(jù)。
首先,f 可以是線性組合,也就是:
因此,文本自動(dòng)摘要問題轉(zhuǎn)換成為了下述問題:
上述損失函數(shù)公式,等價(jià)于下面的公式:
利用貪心算法,我們?cè)O(shè)計(jì)了如下?lián)p失函數(shù):
整個(gè)算法的偽代碼流程如下所示:
在上面介紹的算法中,線性組合的系數(shù) a 有可能是負(fù)數(shù),為了保證 a 非負(fù),我們重構(gòu)了算法的損失函數(shù):
經(jīng)過重新設(shè)計(jì)之后,算法的偽代碼如下:
通過對(duì)比實(shí)驗(yàn),我們發(fā)現(xiàn)新設(shè)計(jì)的算法,取得了優(yōu)異的實(shí)驗(yàn)結(jié)果:
文本自動(dòng)摘要,對(duì)于閱讀長(zhǎng)篇幅的文本,比如博士畢業(yè)論文、咨詢報(bào)告、審計(jì)報(bào)告等內(nèi)容,非常有幫助。對(duì)于趕時(shí)間的當(dāng)代人來說,文本自動(dòng)摘要無疑是隨身辦公的文書利器。希望通過本文,廣大的互聯(lián)網(wǎng)從業(yè)者能夠有所收獲。