一种文本摘要的提取方法及装置制造方法及图纸

技术编号:24091469 阅读:25 留言:0更新日期:2020-05-09 08:16
本申请提供了一种文本摘要的提取方法及装置,其中,该方法包括:获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。本申请中,能够从待分析文本中提取出更好的表征待分析文本涵义的目标句子,提高文本摘要提取的准确度。

A method and device for extracting text Abstract

【技术实现步骤摘要】
一种文本摘要的提取方法及装置
本申请涉及信息
,尤其是涉及一种文本摘要的提取方法及装置。
技术介绍
随着互联网技术的不断发展,在为广大用户提供丰富信息的同时,网络上的数据量也与日俱增,为了使用户能够获取目标信息,需要对一些文本信息进行摘要提取处理。现有技术中,可以通过网页排名(PageRank)的方法对文本信息进行摘要提取,PageRank是谷歌(Google)公司创办人拉里佩奇专利技术的一种基于图的排序模型,可以将数据之间的关系用图的形式表示,PageRank的研究对象可以是网页、社交网络中的用户乃至文章中的句子或词语,其应用范围十分广泛。但是,申请人在研究中发现,现有技术中,利用PageRank的方法提取出的文本摘要往往不能够准确地表达出文本的主要信息,造成按照该方法得到的文本摘要存在一定的偏差。
技术实现思路
本申请至少提供一种文本摘要的提取方法及装置,能够减少文本摘要的提取过程中产生的误差。第一方面,本申请实施例提供了一种文本摘要的提取方法,包括:获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。一种可选实施方式中,所述获取待分析文本各个句子中的关键词,包括:对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。一种可选实施方式中,所述针对每个所述句子,得到该句子中各个关键词的权重,包括:基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。一种可选实施方式中,所述基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量,包括:基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。一种可选实施方式中,所述基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数,包括:基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。一种可选实施方式中,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。一种可选实施方式中,还包括:针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;基于所述待分析文本中各个句子与标题之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数;基于各个所述句子的重要性分数,从各个句子中确定目标句子。一种可选实施方式中,所述基于各个所述句子的重要性分数,从各个句子中确定目标句子,包括:按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。第二方面,本申请实施例还提供一种文本摘要的提取装置,该文本摘要的提取装置包括:获取模块、第一确定模块、第二确定模块以及第三确定模块,其中:所述获取模块,用于获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;所述第一确定模块,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;所述第二确定模块,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;所述第三确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。一种可选实施方式中,所述获取模块,用于获取待分析文本各个句子中的关键词时,具体用于:对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。一种可选实施方式中,所述获取模块,用于针对每个所述句子,得到该句子中各个关键词的权重时,具体用于:基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。一种可选实施方式中,所述第一确定模块,用于基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量时,具体用于:基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。一种可选实施方式中,所述第二确定模块,用于基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数时,具体用于:基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;基于待分析文本中每两个句子之间的相似度,确定所述待分析文本中各个句子分别对应的重要性分数。一种可选实施方式中,所述第三确定模块,用于基于各个所述句子的重要性分数,从各个句子中确定目标句子时,具体用于:按照各个所述句子的重要性分数从大到小的顺序,从各个句子中确定预设数量的句子作为所述目标句子。一种可选实施方式中,所述文本摘要的提取装置还包括,第四确定模块、第五确定模块以及第六确定模块,其中:所述第四确定模块,用于针对具有标题的待分析文本,基于所述待分析文本中各个句子与标题,确定所述待分析文本中各个句子与标题之间的相似度;...

【技术保护点】
1.一种文本摘要的提取方法,其特征在于,包括:/n获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;/n基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;/n基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;/n基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。/n

【技术特征摘要】
1.一种文本摘要的提取方法,其特征在于,包括:
获取待分析文本中各个句子的关键词,并针对每个所述句子,得到该句子中各个关键词的权重;
基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量;
基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数;
基于各个所述句子的重要性分数,从各个句子中确定目标句子,并将所述目标句子确定为所述待分析文本的文本摘要。


2.根据权利要求1所述的方法,其特征在于,所述获取待分析文本各个句子中的关键词,包括:
对所述待分析文本中各个句子进行分词处理,得到各个句子分别对应的分词词汇;
针对每个所述句子,从该句子对应的分词词汇中,确定该句子的关键词;
所述关键词包括:所述分词词汇中的名词、动词、以及形容词中一种或者多种。


3.根据权利要求1所述的方法,其特征在于,所述针对每个所述句子,得到该句子中各个关键词的权重,包括:
基于各个关键词在所述句子中的顺序,针对任意连续的N个关键词,建立所述任意连续的N个关键词中,每两个关键词之间建立关联关系;
针对该句子中的任一关键词,基于该任一关键词与其他关键词之间的关联关系,确定以该任一关键词为起点的第一关联关系数,以及以该任一关键词为终点的第二关联关系数;
基于所述第一关联关系数、所述第二关联关系数,得到该任一关键词的权重;
基于得到的任一关键词的权重,进行多轮迭代,直至达到预设迭代截止条件。


4.根据权利要求1所述的方法,其特征在于,所述基于该句子中各个关键词的词向量,以及该句子中所述各个关键词的权重,确定该句子所对应的句子向量,包括:
基于该句子中各个关键词的权重,对该句子中各个关键词的词向量进行加权平均处理,得到该句子对应的句子向量。


5.根据权利要求1所述的方法,其特征在于,所述基于所述待分析文本中各个句子分别对应的句子向量,确定各个句子的重要性分数,包括:
基于所述待分析文本中各个句子分别对应的句子向量,计算待分析文本中每两个句子之间的相似度;
基...

【专利技术属性】
技术研发人员:李函擎
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1