一种文本摘要抽取方法、装置及存储设备制造方法及图纸

技术编号：23085110 阅读：29 留言：0更新日期：2020-01-11 01:10

本发明专利技术公开了一种文本摘要抽取方法、装置及计算机存储设备，首先获取待抽取文本；接着对所述待抽取文本进行预处理，得到用于表征所述待抽取文本的文本信息的若干个短句；之后确定所述若干个短句中每一个短句对应的多维短句特征；进一步地，利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句；最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理，得到所述待抽取文本对应的文本摘要。

A method, device and storage device of text Abstract extraction

全部详细技术资料下载

【技术实现步骤摘要】
一种文本摘要抽取方法、装置及存储设备
本专利技术涉及文本处理
，尤其涉及一种文本摘要抽取方法、装置及计算机存储设备。
技术介绍
获取文本摘要属于一种应用广泛的文本技术。在实际应用中，获取文本摘要的技术方案大体可以分为抽取式方法和生成式方法两种。目前，抽取式方法应用较为广泛，而生成式方法由于不成熟故应用较少。即使是应用较为广泛的抽取式方法，目前也会受到应用文本类型的限制，并没有一套相对通用的策略。
技术实现思路
本专利技术实施例为了有效克服现有获取文本摘要的技术方案中所存在的上述缺陷，创造性地提供一种文本摘要抽取方法、装置及计算机存储设备。根据本专利技术实施例第一方面，提供一种文本摘要抽取方法，该方法包括：获取待抽取文本；对所述待抽取文本进行预处理，得到用于表征所述待抽取文本的文本信息的若干个短句；确定所述若干个短句中每一个短句对应的多维短句特征；利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句；根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理，得到所述待抽取文本对应的文本摘要。根据本专利技术一实施方式，对所述待抽取文本进行预处理，包括：根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割，得到多个短句；对所得到的多个短句进行短句预处理，得到用于表征所述待抽取文本的文本信息的若干个短句。根据本专利技术一实施方式，所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一：将所述待抽取文本中表示...

【技术保护点】
1.一种文本摘要抽取方法，其特征在于，所述方法包括：/n获取待抽取文本；/n对所述待抽取文本进行预处理，得到用于表征所述待抽取文本的文本信息的若干个短句；/n确定所述若干个短句中每一个短句对应的多维短句特征；/n利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句；/n根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理，得到所述待抽取文本对应的文本摘要。/n

【技术特征摘要】
1.一种文本摘要抽取方法，其特征在于，所述方法包括：
获取待抽取文本；
对所述待抽取文本进行预处理，得到用于表征所述待抽取文本的文本信息的若干个短句；
确定所述若干个短句中每一个短句对应的多维短句特征；
利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句；
根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理，得到所述待抽取文本对应的文本摘要。

2.根据权利要求1所述的方法，其特征在于，对所述待抽取文本进行预处理，包括：
根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割，得到多个短句；
对所得到的多个短句进行短句预处理，得到用于表征所述待抽取文本的文本信息的若干个短句；
其中，所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一：
将所述待抽取文本中表示日期的文本内容设位特殊标志位；
将所述待抽取文本中的数字设为特殊标志位；
将所述待抽取文本中括号内的文本设为特殊标志位；
去除所述待抽取文本中的停用词。

3.根据权利要求2所述的方法，其特征在于，所述在根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前，所述方法还包括：对所述待抽取文本进行文本预处理；
其中，所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一：
将所述待抽取文本中的繁体中文转换为简体中文；
将所述待抽取文本中的全角字符转换为半角字符；
将所述待抽取文本中的断句符设为特殊标志位；
相应的，根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括：根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。

4.根据权利要求1所述的方法，其特征在于，所述确定所述若干个短句中每一个短句对应的多维短句特征包括：确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。

5.根据权利要求4所述的方法，其特征在于，确定所述若干个短句中每一个短句对应的文本排序特征，包括：
将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量；
利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度；
将所计算得到的所述若...

【专利技术属性】
技术研发人员：祝文博，雷欣，李志飞，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人