基于领域词提取文本摘要的方法、装置、设备及介质制造方法及图纸

技术编号:37566048 阅读:14 留言:0更新日期:2023-05-15 07:46
本申请涉及一种基于领域词提取文本摘要的方法、装置、设备及介质。该方法包括:对各待处理句子进行相似度计算,并基于图排序对相似度矩阵进行图权重计算,得到第一句子序列;然后基于领域词库对各待处理句子中的领域词进行权重计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个待处理句子的权重;根据每个待处理句子的权重对各待处理句子进行排序,得到第二句子序列;将第一句子序列与第二句子序列进行权重融合,抽取第一句子序列中待处理句子在第二句子序列中权重靠前的句子作为待处理领域文本的摘要。本申请适用于金融、医疗、工业等领域,所提取更具有领域意义的文本摘要。的文本摘要。的文本摘要。

【技术实现步骤摘要】
基于领域词提取文本摘要的方法、装置、设备及介质


[0001]本申请涉及文本提取
,特别是涉及一种基于领域词提取文本摘要的方法、装置、设备及介质。

技术介绍

[0002]所谓摘要,是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文,即在保证能够反映原文档的重要内容的情况下,尽可能地保持简明扼要。质量良好的文摘能够在信息检索过程中发挥重要的作用,比如利用文本摘要参与索引,可以有效缩短检索的时间,同时也能减少检索结果中的冗余信息,提高用户体验。随着信息爆炸时代的到来,自动文摘逐渐成为自然语言处理领域的一项重要的研究课题。
[0003]传统的文本摘要提取方法主要分为抽取式和分布式的算法,抽取式算法主要是从原文中提取核心句组合作为摘要,生成式是通过原文生成新的短文本作为摘要。例如财经新闻看重内容数据的真实准确性,抽取式算法使用原文中的句子,相对完整的保留了原文中的原始信息,对于财经领域的数字地点关系等还原度高,不易出错。
[0004]然而,传统提取文本摘要的方式是使用textrank进行文本抽取计算,通过构建句子相似矩阵图能够计算出高权重句子,即核心关键句,但句子中涉及的领域含义并未被算法关注到,而在实际应用中,读者更关注领域意义突出的文本摘要,比如金融领域的读者更加关心文章提及的领域概念信息,句子中包含领域词汇会更加吸引读者注意,对文章领域内容的概括也具有更好的提炼效果。因此,传统的抽取式文本摘要方法提取的文本摘要核心句领域概念重要性不高,对于关注领域信息的读者参考性不强

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够强化领域概念、使提取的本文摘要为核心句的基于领域词提取文本摘要的方法、装置、设备及介质;通过基于图排序算法的句子权重计算得到第一句子序列,然后基于领域词分布的句子权重计算得到第二句子序列,最后将第一句子序列与第二句子序列进行权重融合,提取更具有领域意义的文本摘要。
[0006]一种基于领域词提取文本摘要的方法,包括:对待处理领域文本进行处理,得到若干待处理句子;对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵;基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列;基于领域词库对各所述待处理句子中的领域词进行权重计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个待处理句子的权重;根据每个待处理句子的权重对各所述待处理句子进行排序,得到第二句子序列;将所述第一句子序列与所述第二句子序列进行权重融合,抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。
[0007]其中一个实施例中,对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵之前还包括:采用领域文本数据对预训练语言模型进行训练,得到领域预训练语言模型;通过所述领域预训练语言模型对待处理句子进行向量化表示,得到各所述待处理句子对应的句子向量;对各所述句子向量进行相似度计算,得到待处理句子之间的相似度矩阵。
[0008]其中一个实施例中,对各所述待处理句子进行相似度计算,得到句子之间的相似度矩阵,包括:采用余弦相似度算法对各所述待处理句子进行文本相似度计算,所述余弦相似度算法表示为:;其中,表示句子的向量;表示句子的向量;通过余弦相似度算法对句子进行相似度计算,得到句子之间的相似度矩阵。
[0009]其中一个实施例中,基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列,包括:将各所述待处理句子的每个句子作为节点构建节点连接图,并将每个句子任意两两之间的相似度作为连接边权重,对当前句子进行权重计算;迭代传播各节点的权重,得到最终收敛的图权重;根据所述最终收敛的图权重进行降权排序,得到第一句子序列。
[0010]其中一个实施例中,对当前句子进行权重计算的公式表示为:;其中,表示句子的权重;表示句子的权重;、表示任意两节点;表示指向节点的点集合;表示节点指向任意点的集合;表示节点与节点的相似度;表示节点与节点的相似度;表示阻尼系数 ;表示指向的节点。
[0011]其中一个实施例中,基于领域词库对各所述待处理句子中的领域词进行权重计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个待处理句子的权重,包括:基于领域词库对各所述待处理句子中的领域词进行识别匹配,生成领域词分布图;根据所述领域词分布图对各所述待处理句子中的领域词权重进行计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个句子的权重。
[0012]其中一个实施例中,根据所述领域词分布图对各所述待处理句子中的领域词权重进行计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个句子的权重,包括:
基于所述领域词分布图对各所述待处理句子中的领域词权重进行计算,所述领域词权重的计算表示为:;对每个待处理句子中所包含的领域词权重进行求和,得到每个句子的权重,为:;其中,表示连接边的数量;表示 领域词的数量;表示个领域词;表示第个领域词的权重。
[0013]一种基于领域词提取文本摘要的装置,包括:第一句子序列计算模块,用于对待处理领域文本进行处理,得到若干待处理句子;对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵;基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列;第二句子序列计算模块,用于基于领域词库对各所述待处理句子中的领域词进行权重计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个待处理句子的权重;根据每个待处理句子的权重对各所述待处理句子进行排序,得到第二句子序列;摘要提取模块,用于将所述第一句子序列与所述第二句子序列进行权重融合,抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。
[0014]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:步骤102,对待处理领域文本进行处理,得到若干待处理句子;对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵;基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列;步骤104,基于领域词库对各所述待处理句子中的领域词进行权重计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个待处理句子的权重;根据每个待处理句子的权重对各所述待处理句子进行排序,得到第二句子序列;步骤106,将所述第一句子序列与所述第二句子序列进行权重融合,抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。
[0015]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:步骤102,对待处理领域文本进行处理,得到若干待处理句子;对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵;基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列;步骤104,基于领域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域词提取文本摘要的方法,其特征在于,所述方法包括:对待处理领域文本进行处理,得到若干待处理句子;对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵;基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列;基于领域词库对各所述待处理句子中的领域词进行权重计算,并对每个待处理句子中所包含的领域词权重进行求和,得到每个待处理句子的权重;根据每个待处理句子的权重对各所述待处理句子进行排序,得到第二句子序列;将所述第一句子序列与所述第二句子序列进行权重融合,抽取所述第一句子序列中待处理句子在所述第二句子序列中权重靠前的待处理句子作为所述待处理领域文本的摘要。2.根据权利要求1所述的基于领域词提取文本摘要的方法,其特征在于,对各所述待处理句子进行相似度计算,得到待处理句子之间的相似度矩阵之前还包括:采用领域文本数据对预训练语言模型进行训练,得到领域预训练语言模型;通过所述领域预训练语言模型对各待处理句子进行向量化表示,得到各所述待处理句子对应的句子向量;对各所述句子向量进行相似度计算,得到待处理句子之间的相似度矩阵。3.根据权利要求2所述的基于领域词提取文本摘要的方法,其特征在于,对各所述待处理句子进行相似度计算,得到句子之间的相似度矩阵,包括:采用余弦相似度算法对各所述待处理句子进行文本相似度计算,所述余弦相似度算法表示为:;其中,表示句子的向量;表示句子 的向量;通过余弦相似度算法对句子进行相似度计算,得到句子之间的相似度矩阵。4.根据权利要求3所述的基于领域词提取文本摘要的方法,其特征在于,基于图排序对所述相似度矩阵进行图权重计算,得到第一句子序列,包括:将各所述待处理句子作为节点构建节点连接图,并将每个句子任意两两之间的相似度作为连接边权重,对当前句子进行权重计算;迭代传播各节点的权重,得到最终收敛的图权重;根据所述最终收敛的图权重进行降权排序,得到第一句子序列。5.根据权利要求4所述的基于领域词提取文本摘要的方法,其特征在于,对当前句子进行权重计算的公式表示为:;其中,表示句子的权重;表示句子的权重;、表示任意两节点;表示指向节点的点集合;表示节点指向任意点的集合;表示节点与节点 的相似度;表示节点与节点...

【专利技术属性】
技术研发人员:丑晓慧
申请(专利权)人:宁波深擎信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1