当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质技术方案

技术编号:29401123 阅读:15 留言:0更新日期:2021-07-23 22:38
本发明专利技术公开了一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质,所述方法包括:步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi‑LSTM模型以及自注意力机制构建句子编码器得到句子向量;步骤2:针对待处理的文档,利用Bi‑LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;步骤3:基于所述篇章向量对句子进行分类得到候选句子;步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。本发明专利技术引入自注意力机制以及语篇结构提高了摘要提取的准确性。

【技术实现步骤摘要】
一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质
本专利技术属于文本处理
,具体涉及一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质。
技术介绍
由于互联网上可用数据的数量正在迅速增加,出现了对有效摘要系统的需求,该摘要系统要能够快速,高效地检索重要信息。作为一种补救措施,文本摘要可通过在保留最重要的关键信息的同时生成源文本的简短版本来解决信息过载问题。文本摘要可以分为抽取式和生成式(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。抽取式摘要技术是从主要文本中提取最重要的短语,这些短语代表整个文本。因此,需要对句子之间的联系有一个全面的了解,以产生高质量的摘要(MunotN,GovilkarSS(2014)Comparativestudyoftextsummarizationmethods.InternationalJournalofComputerApplications102(12))。生成式摘要技术会生成原始文本中不存在的新单词或短语(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。因此,与生成式方法相比,抽取式方法产生的摘要在语法和语言上的精确度要高得多(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)。相比之下,生成式方法的特征在于它们是通过模拟人类的总结方式去生成摘要的。最近提出了一些混合系统,通过抽取和重写符合摘要要求的句子来组合这两种方法(GehrmannS,DengY,RushAM(2018)Bottom-upabstractivesummarization,XuJ,DurrettG(2019)Neuralextractivetextsummarizationwithsyntacticcompression)。但是,与其他非混合系统相比,这些方法无法达到所需的水平。传统的抽取式摘要系统基于复杂的特征提取方法来评估句子。这些特征用于摘要决策中,以选择所提取特征所涵盖的最相关的句子(BaralisE,CaglieroL,JabeenS,FioriA,ShahS(2013)Multi-documentsummarizationbasedontheyagoontology.ExpertSystemswithApplicationsAnInternationalJournal40(17):6976–6984,ConroyJM,O’learyDP(2001)Textsummarizationviahiddenmarkovmodels.In:Proceedingsofthe24thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pp406–407,CarbonellJ,GoldsteinJ(1998)Theuseofmmr,diversity-basedrerankingforreorderingdocumentsandproducingsummaries.In:Proceedingsofthe21stannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pp335–336)。这些方法的性能在很大程度上依赖于劳动强度大的特征工程。深度神经网络最近已经实现了许多自然语言处理任务的最新技术,包括情感分析,机器翻译和文本摘要。Singh和Gupta(SinghAK,GuptaM,VarmaV(2017)Hybridmemnetforextractivesummarization.In:Proceedingsofthe2017ACMonConferenceonInformationandKnowledgeManagement,pp2303–2306)提出了一种混合抽取摘要技术,该技术依赖于卷积bi-LSTM网络与记忆网络的集成。Nallapati和Zhai(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)提供了一个包含两层RNN单词和句子级别的抽取模型。该模型的总结基于几个标准,例如句子的位置和内容。注意机制的出现促进了抽取性摘要模型的发展。Cheng和Lapata(ChengJ,LapataM(2016)Neuralsummarizationbyextractingsentencesandwords.arXivpreprintarXiv:160307252)使用这种机制来创建一个基于注意力机制的分层模型,该模型包括篇章编码器和句子编码器。尽管这些模型有效,但它们的共同局限性有以下几点。(1)与其他部分相比,篇章的开头会受到更多关注。(2)整个句子中的所有单词尽管具有结构上的关联性,但在全连接层中均受到同等关注。从而导致抽取式摘要模型还有待进一步的研究以提高其可靠性。其中,如何更加有效以及准确地实现抽取式摘要的形成,是本专利技术研究以及关注的。
技术实现思路
本专利技术的目的是提供一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质,所述方法引入修辞结构理论RST,将文本单元构建成语篇结构,提取结构中核心的EDU形成文档的最终摘要,更加准确地抽取了文档中核心内容,得到可靠性更高的摘要。一方面,本专利技术提供的一种语篇结构的层次文本摘要获取方法,包括如下步骤:步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;步骤2:针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;步骤3:基于所述篇章向量对句子进行分类得到候选句子;步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。本文档来自技高网
...

【技术保护点】
1.一种语篇结构的层次文本摘要获取方法,其特征在于:包括如下步骤:/n步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;/n步骤2:针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;/n步骤3:基于所述篇章向量对句子进行分类得到候选句子;/n步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;/n其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。/n

【技术特征摘要】
1.一种语篇结构的层次文本摘要获取方法,其特征在于:包括如下步骤:
步骤1:将待处理的文档中句子的单词编码成词向量,并针对每个句子,利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量;
步骤2:针对待处理的文档,利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量;
步骤3:基于所述篇章向量对句子进行分类得到候选句子;
步骤4:将候选句子输入基于RST构建的摘要提取器提取出核心EDU,并将所有候选句子的核心EDU拼接为文本摘要;
其中,将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树,层次树的叶子节点EDU表示被分割的文档单元。


2.根据权利要求1所述的方法,其特征在于:步骤4中将候选句子输入基于RST构建的摘要提取器提取出核心EDU的过程如下:
步骤4-1:将候选句子分割为文档单元,再利用文本单元构成语篇结构的层次树;
每个文档单元分别作为层次树的叶子节点EDU;
步骤4-2:将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置进而得到嵌入位置向量




表示在EDU中嵌入字词的位置,pi为POS标签,是异或运算符号,EDU对应的文档单元中单词集合表示为{w1,w2,..wp},wj为单词集合中第j个单词,p为文档单元中单词个数,emb为词嵌入公式符号;
步骤4-3:将步骤4-2中的嵌入位置向量输入bi-LSTM层得到单词向量再以平均池化计算得到EDU的另一表达Ede;



式中,为单词向量中第j个单词向量;
步骤4-4:将候选句子对应的所有EDU的另一表达Ede输入bi-LSTM层得到



其中,q为候选句子对应的EDU个数;
步骤4-5:依据步骤4-1中的层次树以及所有EDU对应的计算出每个EDU的得分,按照如下公式计算:



其中,S为EDU的得分,为构建层次树中,EDU对应的前l、x+1个子树的解析表达,W为模型参数,为紧接编码器输出得到的隐层向量,子树的解析表达通过平均池化得到:



其中,第x+1个子树的解析表达中的所有EDU表示为:(ei,ei+1,...,ej),等于第x+1个子树中EDU对应在的值;
步骤4-6:依据每个EDU的得分选择核心EDU,其中,得分越高,对应EDU越重要。


3.根据权利要求1所述的方法,其特征在于:步骤1中利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量的过程如下:
步骤1-1:将句子中单词的词向量输入Bi-LSTM模型获取句子的正向和反向向量,并作为LSTM的隐层状态;
步骤1-2:利用自注意力机制将步骤1-1中LSTM的隐层状态作为输入变量,得到权重向量,再结合步骤1-1中的所述LSTM的隐层状态与所述权重向量得到句子向量;
si=vsHs
si为第i个句子的句子向量,vs为权重向量,Hs为步骤1-1中LSTM的隐层状态;
所述权重向量vs表示...

【专利技术属性】
技术研发人员:埃比段俊文王建新刘姝玥
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1