一种文本摘要抽取方法、装置及存储设备制造方法及图纸

技术编号:23085110 阅读:23 留言:0更新日期:2020-01-11 01:10
本发明专利技术公开了一种文本摘要抽取方法、装置及计算机存储设备,首先获取待抽取文本;接着对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;之后确定所述若干个短句中每一个短句对应的多维短句特征;进一步地,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

A method, device and storage device of text Abstract extraction

【技术实现步骤摘要】
一种文本摘要抽取方法、装置及存储设备
本专利技术涉及文本处理
,尤其涉及一种文本摘要抽取方法、装置及计算机存储设备。
技术介绍
获取文本摘要属于一种应用广泛的文本技术。在实际应用中,获取文本摘要的技术方案大体可以分为抽取式方法和生成式方法两种。目前,抽取式方法应用较为广泛,而生成式方法由于不成熟故应用较少。即使是应用较为广泛的抽取式方法,目前也会受到应用文本类型的限制,并没有一套相对通用的策略。
技术实现思路
本专利技术实施例为了有效克服现有获取文本摘要的技术方案中所存在的上述缺陷,创造性地提供一种文本摘要抽取方法、装置及计算机存储设备。根据本专利技术实施例第一方面,提供一种文本摘要抽取方法,该方法包括:获取待抽取文本;对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定所述若干个短句中每一个短句对应的多维短句特征;利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。根据本专利技术一实施方式,对所述待抽取文本进行预处理,包括:根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。根据本专利技术一实施方式,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。根据本专利技术一实施方式,所述在根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理。根据本专利技术一实施方式,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。根据本专利技术一实施方式,所述确定所述若干个短句中每一个短句对应的多维短句特征包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。根据本专利技术一实施方式,确定所述若干个短句中每一个短句对应的文本排序特征,包括:将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用文本排序textrank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。根据本专利技术一实施方式,确定所述若干个短句中每一个短句对应的位置特征,包括:确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。根据本专利技术一实施方式,确定所述若干个短句中每一个短句对应的与首句的相似度特征,包括:将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。根据本专利技术一实施方式,所述利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句,包括:计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。根据本专利技术第二方面,还提供一种文本摘要抽取装置,所述装置包括:获取模块,用于获取待抽取文本;预处理模块,用于对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定模块,用于确定所述若干个短句中每一个短句对应的多维短句特征;筛选模块,用于利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;拼接处理模块,用于根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。根据本专利技术一实施方式,所述预处理模块包括:短句切割单元,用于根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;短句预处理单元,用于对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。根据本专利技术一实施方式,所述短句预处理单元对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。根据本专利技术一实施方式,所述预处理模块还包括文本预处理单元,用于在所述短句切割单元根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,对所述待抽取文本进行文本预处理。根据本专利技术一实施方式,所述文本预处理单元对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。根据本专利技术一实施方式,所述确定模块具体用于,确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。根据本专利技术一实施方式,所述确定模块具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用textrank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。根据本专利技术一实施方式,所述确定模块具体用于,确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外本文档来自技高网...

【技术保护点】
1.一种文本摘要抽取方法,其特征在于,所述方法包括:/n获取待抽取文本;/n对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;/n确定所述若干个短句中每一个短句对应的多维短句特征;/n利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;/n根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。/n

【技术特征摘要】
1.一种文本摘要抽取方法,其特征在于,所述方法包括:
获取待抽取文本;
对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;
确定所述若干个短句中每一个短句对应的多维短句特征;
利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;
根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。


2.根据权利要求1所述的方法,其特征在于,对所述待抽取文本进行预处理,包括:
根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;
对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;
其中,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:
将所述待抽取文本中表示日期的文本内容设位特殊标志位;
将所述待抽取文本中的数字设为特殊标志位;
将所述待抽取文本中括号内的文本设为特殊标志位;
去除所述待抽取文本中的停用词。


3.根据权利要求2所述的方法,其特征在于,所述在根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理;
其中,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:
将所述待抽取文本中的繁体中文转换为简体中文;
将所述待抽取文本中的全角字符转换为半角字符;
将所述待抽取文本中的断句符设为特殊标志位;
相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。


4.根据权利要求1所述的方法,其特征在于,所述确定所述若干个短句中每一个短句对应的多维短句特征包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。


5.根据权利要求4所述的方法,其特征在于,确定所述若干个短句中每一个短句对应的文本排序特征,包括:
将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;
利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;
将所计算得到的所述若...

【专利技术属性】
技术研发人员:祝文博雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1