一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质技术方案

技术编号：29401123 阅读：15 留言：0更新日期：2021-07-23 22:38

本发明专利技术公开了一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质，所述方法包括：步骤1：将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi‑LSTM模型以及自注意力机制构建句子编码器得到句子向量；步骤2：针对待处理的文档，利用Bi‑LSTM模型以及自注意力机制构建篇章编码器得到篇章向量；步骤3：基于所述篇章向量对句子进行分类得到候选句子；步骤4：将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要；其中，将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树，层次树的叶子节点EDU表示被分割的文档单元。本发明专利技术引入自注意力机制以及语篇结构提高了摘要提取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质
本专利技术属于文本处理
，具体涉及一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质。
技术介绍
由于互联网上可用数据的数量正在迅速增加，出现了对有效摘要系统的需求，该摘要系统要能够快速，高效地检索重要信息。作为一种补救措施，文本摘要可通过在保留最重要的关键信息的同时生成源文本的简短版本来解决信息过载问题。文本摘要可以分为抽取式和生成式(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。抽取式摘要技术是从主要文本中提取最重要的短语，这些短语代表整个文本。因此，需要对句子之间的联系有一个全面的了解，以产生高质量的摘要(MunotN,GovilkarSS(2014)Comparativestudyoftextsummarizationmethods.InternationalJournalofComputerApplications102(12))。生成式摘要技术会生成原始文本中不存在的新单词或短语(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniq...

【技术保护点】
1.一种语篇结构的层次文本摘要获取方法，其特征在于：包括如下步骤：/n步骤1：将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量；/n步骤2：针对待处理的文档，利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量；/n步骤3：基于所述篇章向量对句子进行分类得到候选句子；/n步骤4：将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要；/n其中，将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树，层次树的叶子节点EDU表示被分割的文档单元。/n

【技术特征摘要】
1.一种语篇结构的层次文本摘要获取方法，其特征在于：包括如下步骤：
步骤1：将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量；
步骤2：针对待处理的文档，利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量；
步骤3：基于所述篇章向量对句子进行分类得到候选句子；
步骤4：将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要；
其中，将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树，层次树的叶子节点EDU表示被分割的文档单元。

2.根据权利要求1所述的方法，其特征在于：步骤4中将候选句子输入基于RST构建的摘要提取器提取出核心EDU的过程如下：
步骤4-1：将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树；
每个文档单元分别作为层次树的叶子节点EDU；
步骤4-2：将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置进而得到嵌入位置向量

表示在EDU中嵌入字词的位置，pi为POS标签，是异或运算符号，EDU对应的文档单元中单词集合表示为{w1，w2，..wp}，wj为单词集合中第j个单词，p为文档单元中单词个数，emb为词嵌入公式符号；
步骤4-3：将步骤4-2中的嵌入位置向量输入bi-LSTM层得到单词向量再以平均池化计算得到EDU的另一表达Ede；

式中，为单词向量中第j个单词向量；
步骤4-4：将候选句子对应的所有EDU的另一表达Ede输入bi-LSTM层得到

其中，q为候选句子对应的EDU个数；
步骤4-5：依据步骤4-1中的层次树以及所有EDU对应的计算出每个EDU的得分，按照如下公式计算：

其中，S为EDU的得分，为构建层次树中，EDU对应的前l、x+1个子树的解析表达，W为模型参数，为紧接编码器输出得到的隐层向量，子树的解析表达通过平均池化得到：

其中，第x+1个子树的解析表达中的所有EDU表示为：(ei，ei+1，...，ej)，等于第x+1个子树中EDU对应在的值；
步骤4-6：依据每个EDU的得分选择核心EDU，其中，得分越高，对应EDU越重要。

3.根据权利要求1所述的方法，其特征在于：步骤1中利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量的过程如下：
步骤1-1：将句子中单词的词向量输入Bi-LSTM模型获取句子的正向和反向向量，并作为LSTM的隐层状态；
步骤1-2：利用自注意力机制将步骤1-1中LSTM的隐层状态作为输入变量，得到权重向量，再结合步骤1-1中的所述LSTM的隐层状态与所述权重向量得到句子向量；
si＝vsHs
si为第i个句子的句子向量，vs为权重向量，Hs为步骤1-1中LSTM的隐层状态；
所述权重向量vs表示...

【专利技术属性】
技术研发人员：埃比，段俊文，王建新，刘姝玥，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人