基于领域词提取文本摘要的方法、装置、设备及介质制造方法及图纸

技术编号：37566048 阅读：14 留言：0更新日期：2023-05-15 07:46

本申请涉及一种基于领域词提取文本摘要的方法、装置、设备及介质。该方法包括：对各待处理句子进行相似度计算，并基于图排序对相似度矩阵进行图权重计算，得到第一句子序列；然后基于领域词库对各待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各待处理句子进行排序，得到第二句子序列；将第一句子序列与第二句子序列进行权重融合，抽取第一句子序列中待处理句子在第二句子序列中权重靠前的句子作为待处理领域文本的摘要。本申请适用于金融、医疗、工业等领域，所提取更具有领域意义的文本摘要。的文本摘要。的文本摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于领域词提取文本摘要的方法、装置、设备及介质

[0001]本申请涉及文本提取
，特别是涉及一种基于领域词提取文本摘要的方法、装置、设备及介质。

技术介绍

[0002]所谓摘要，是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切地记述文献重要内容的短文，即在保证能够反映原文档的重要内容的情况下，尽可能地保持简明扼要。质量良好的文摘能够在信息检索过程中发挥重要的作用，比如利用文本摘要参与索引，可以有效缩短检索的时间，同时也能减少检索结果中的冗余信息，提高用户体验。随着信息爆炸时代的到来，自动文摘逐渐成为自然语言处理领域的一项重要的研究课题。
[0003]传统的文本摘要提取方法主要分为抽取式和分布式的算法，抽取式算法主要是从原文中提取核心句组合作为摘要，生成式是通过原文生成新的短文本作为摘要。例如财经新闻看重内容数据的真实准确性，抽取式算法使用原文中的句子，相对完整的保留了原文中的原始信息，对于财经领域的数字地点关系等还原度高，不易出错。
[0004]然而，传统提取文本摘要的方式是使用textrank进行文本抽取计算，通过构建句子相似矩阵图能够计算出高权重句子，即核心关键句，但句子中涉及的领域含义并未被算法关注到，而在实际应用中，读者更关注领域意义突出的文本摘要，比如金融领域的读者更加关心文章提及的领域概念信息，句子中包含领域词汇会更加吸引读者注意，对文章领域内容的概括也具有更好的提炼效果。因此，传统的抽取式文本摘要方法提取的文本摘要核心句领域概念重要性不高，对于关注领域信息的读者参考性不强...

【技术保护点】

【技术特征摘要】
1.一种基于领域词提取文本摘要的方法，其特征在于，所述方法包括：对待处理领域文本进行处理，得到若干待处理句子；对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵；基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列；基于领域词库对各所述待处理句子中的领域词进行权重计算，并对每个待处理句子中所包含的领域词权重进行求和，得到每个待处理句子的权重；根据每个待处理句子的权重对各所述待处理句子进行排序，得到第二句子序列；将所述第一句子序列与所述第二句子序列进行权重融合，抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。2.根据权利要求1所述的基于领域词提取文本摘要的方法，其特征在于，对各所述待处理句子进行相似度计算，得到待处理句子之间的相似度矩阵之前还包括：采用领域文本数据对预训练语言模型进行训练，得到领域预训练语言模型；通过所述领域预训练语言模型对各待处理句子进行向量化表示，得到各所述待处理句子对应的句子向量；对各所述句子向量进行相似度计算，得到待处理句子之间的相似度矩阵。3.根据权利要求2所述的基于领域词提取文本摘要的方法，其特征在于，对各所述待处理句子进行相似度计算，得到句子之间的相似度矩阵，包括：采用余弦相似度算法对各所述待处理句子进行文本相似度计算，所述余弦相似度算法表示为：；其中，表示句子的向量；表示句子的向量；通过余弦相似度算法对句子进行相似度计算，得到句子之间的相似度矩阵。4.根据权利要求3所述的基于领域词提取文本摘要的方法，其特征在于，基于图排序对所述相似度矩阵进行图权重计算，得到第一句子序列，包括：将各所述待处理句子作为节点构建节点连接图，并将每个句子任意两两之间的相似度作为连接边权重，对当前句子进行权重计算；迭代传播各节点的权重，得到最终收敛的图权重；根据所述最终收敛的图权重进行降权排序，得到第一句子序列。5.根据权利要求4所述的基于领域词提取文本摘要的方法，其特征在于，对当前句子进行权重计算的公式表示为：；其中，表示句子的权重；表示句子的权重；、表示任意两节点；表示指向节点的点集合；表示节点指向任意点的集合；表示节点与节点的相似度；表示节点与节点...

【专利技术属性】
技术研发人员：丑晓慧，
申请(专利权)人：宁波深擎信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人