一种文本摘要的提取方法、装置、终端设备和存储介质制造方法及图纸

技术编号:32021008 阅读:31 留言:0更新日期:2022-01-22 18:39
本申请适用于人工智能技术领域,提供一种文本摘要的提取方法、装置、终端设备和存储介质。该方法包括:获取待处理文本;分别提取所述待处理文本包含的各个句子的句向量和词向量;采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;根据所述任意两两句子之间的相似度构建有向带权图;基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。采用该方法能够提高文本摘要提取的准确率。该方法能够提高文本摘要提取的准确率。该方法能够提高文本摘要提取的准确率。

【技术实现步骤摘要】
一种文本摘要的提取方法、装置、终端设备和存储介质


[0001]本申请涉及人工智能
,提供一种文本摘要的提取方法、装置、终端设备和存储介质。

技术介绍

[0002]文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,目前通常采用TextRank算法进行文本摘要的提取。TextRank是一种用于文本的基于图的排序算法,通过把文本分割成若干组成句子,构建有向带权图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。然而,采用TextRank算法提取文本摘要时仅仅采用字符的相似度来计算句子的相似度,却忽略了句子中的语义信息以及句子中每个词在全局中的重要程度信息,因此计算得到的句子的相似度是不准确的,进而导致在循环迭代时提取到的文本摘要的准确率较低。

技术实现思路

[0003]有鉴于此,本申请提出一种文本摘要的提取方法、装置、终端设备和存储介质,能够提高文本摘要提取的准确率。
[0004]第一方面,本申请实施例提供了一种文本摘要的提取方法,包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要的提取方法,其特征在于,包括:获取待处理文本;分别提取所述待处理文本包含的各个句子的句向量和词向量;采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;根据所述任意两两句子之间的相似度构建有向带权图;基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。2.如权利要求1所述的方法,其特征在于,所述采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,包括:根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,其中,所述第一句子和所述第二句子为所述各个句子中的任意两个句子;根据所述第一句子的句向量和所述第二句子的句向量,计算得到第二句向量相似度;根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度。3.如权利要求2所述的方法,其特征在于,所述根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,包括:分别计算所述第一句子包含的每个词语的TF

IDF值,以及所述第二句子包含的每个词语的TF

IDF值;以对应的TF

IDF值作为权重,对所述第一句子的词向量进行加权求和操作,得到所述第一句子的目标句向量;以对应的TF

IDF值作为权重,对所述第二句子的词向量进行加权求和操作,得到所述第二句子的目标句向量;计算所述第一句子的目标句向量和所述第二句子的目标句向量之间的余弦距离,并基于所述余弦距离确定所述第一句向量相似度。4.如权利要求2所述的方法,其特征在于,所述根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度,包括:使用以下公式计算得到所述第一句子和所述第二句子之间的相似度:Similarity
12
=a*Similarity1+b*Similarity2其中,Similarity
12
表示所述第一句子和所述第二句子之间的相似度,Similarity1表示所述第一句向量相似度,Simi...

【专利技术属性】
技术研发人员:宋威
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1