一种摘要文本抽取方法及装置制造方法及图纸

技术编号:33464190 阅读:19 留言:0更新日期:2022-05-19 00:43
本申请提供一种摘要文本抽取方法及装置,所述方法包括:生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。落是否为所述目标文本文件的摘要文本。落是否为所述目标文本文件的摘要文本。

【技术实现步骤摘要】
一种摘要文本抽取方法及装置


[0001]本申请涉及文本处理
,尤其涉及一种摘要文本抽取方法、装置、电子设备及机器可读存储介质。

技术介绍

[0002]文本摘要,是指可以通过各种技术手段,对原始文本的文本内容进行抽取、总结或精炼,以得到其中的关键文本信息作为原始文本的摘要文本;也即,所述摘要文本,可以用于概括和展示所述原始文本的主要内容或中心思想,使得用户可以从海量数据中快速找出有效信息。
[0003]在实际应用中,按照所述摘要文本的生成方法,可以分为抽取式摘要和生成式摘要。对于抽取式摘要而言,摘要文本的质量与原始文本的质量之间存在较强的相关性,摘要文本可能出现冗余度较高、连贯性较差、准确率较低的问题。

技术实现思路

[0004]本申请提供一种摘要文本抽取方法,所述方法包括:
[0005]生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;
[0006]分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;
[0007]将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;
[0008]根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
[0009]可选的,所述生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量,包括:
[0010]提取所述目标文本文件中的各个文本段落;
[0011]将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。
[0012]可选的,所述提取所述目标文本文件中的各个文本段落,包括:
[0013]用预设的用于提取文本段落的正则表达式,对所述目标文本文件的全部文本内容进行匹配,以从所述目标文本文件的全部文本内容中提取出所述目标文本文件中的各个文本段落。
[0014]可选的,所述各个文本段落中的至少部分文本段落包含该文本段落的段落标题;
[0015]在所述分别将各个段落文本向量与所述全文文本向量进行拼接之前,所述方法还包括:
[0016]生成与所述至少部分文本段落的段落标题分别对应的段落标题向量;
[0017]所述分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量,包括:
[0018]分别将与各个文本段落对应的段落文本向量、与该文本段落对应的段落标题向量、以及所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。
[0019]可选的,所述生成与所述至少部分文本段落的段落标题分别对应的段落标题向量,包括:
[0020]提取所述至少部分文本段落的段落标题;
[0021]将所述至少部分文本段落的段落标题,分别输入语言处理模型进行文本向量化处理,以得到与所述至少部分文本段落的段落标题分别对应的段落标题向量。
[0022]可选的,所述提取所述至少部分文本段落的段落标题,包括:
[0023]用预设的用于提取段落标题的正则表达式,对所述至少部分文本段落进行匹配,以从所述至少部分文本段落中提取出该文本段落的段落标题。
[0024]可选的,在生成与目标文本文件的全部文本内容对应的全文文本向量之前,所述方法还包括:
[0025]获取待抽取摘要文本的文本文件集,并将所述文本文件集中的若干文本文件依次确定为所述目标文本文件。
[0026]可选的,所述目标文本文件为非结构化数据;所述方法还包括:
[0027]将确定的所述目标文本文件的摘要文本,转换为结构化数据存储至数据库。
[0028]可选的,所述方法还包括:
[0029]从所述目标文件的摘要文本中,提取出与预设的待提取关键词相关的关键文本信息;
[0030]将所述关键文本信息转换为结构化数据存储至数据库。
[0031]可选的,所述将所述关键文本信息转换为结构化数据存储至数据库,包括:
[0032]将所述待提取关键词作为字段名,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的字段值,以数据表的形式存储至关系型数据库;或者,
[0033]将所述待提取关键词作为key,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的value,以key

value键值对的形式存储至非关系型数据库。
[0034]可选的,所述目标文本文件包括报告类文本文件。
[0035]可选的,所述语言处理模型包括BERT模型。
[0036]本申请还提供一种摘要文本抽取装置,所述装置包括:
[0037]生成单元,用于生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;
[0038]拼接单元,用于分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;
[0039]分类单元,用于将与所述目标文本文件中的各个文本段落分别对应的拼接向量,
分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;
[0040]确定单元,用于根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
[0041]可选的,所述生成单元,具体用于:
[0042]提取所述目标文本文件中的各个文本段落;
[0043]将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。
[0044]可选的,所述生成单元,具体用于:
[0045]用预设的用于提取文本段落的正则表达式,对所述目标文本文件的全部文本内容进行匹配,以从所述目标文本文件的全部文本内容中提取出所述目标文本文件中的各个文本段落。
[0046]可选的,所述各个文本段落中的至少部分文本段落包含该文本段落的段落标题;
[0047]所述生成单元,还用于生成与所述至少部分文本段落的段落标题分别对应的段落标题向量;
[0048]所述拼接单元,还用于分别将与各个文本段落对应的段落本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种摘要文本抽取方法,所述方法包括:生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。2.根据权利要求1所述的方法,所述生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量,包括:提取所述目标文本文件中的各个文本段落;将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。3.根据权利要求2所述的方法,所述提取所述目标文本文件中的各个文本段落,包括:用预设的用于提取文本段落的正则表达式,对所述目标文本文件的全部文本内容进行匹配,以从所述目标文本文件的全部文本内容中提取出所述目标文本文件中的各个文本段落。4.根据权利要求1所述的方法,所述各个文本段落中的至少部分文本段落包含该文本段落的段落标题;在所述分别将各个段落文本向量与所述全文文本向量进行拼接之前,所述方法还包括:生成与所述至少部分文本段落的段落标题分别对应的段落标题向量;所述分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量,包括:分别将与各个文本段落对应的段落文本向量、与该文本段落对应的段落标题向量、以及所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。5.根据权利要求4所述的方法,所述生成与所述至少部分文本段落的段落标题分别对应的段落标题向量,包括:提取所述至少部分文本段落的段落标题;将所述至少部分文本段落的段落标题,分别输入语言处理模型进行文本向量化处理,以得到与所述至少部分文本段落的段落标题分别对应的段落标题向量。6.根据权利要求5所述的方法,所述提取所述至少部分文本段落的段落标题,包括:用预设的用于提取段落标题的正则表达式,对所述至少部分文本段落进行匹配,以从

【专利技术属性】
技术研发人员:徐鹏飞何华峰叶姣荣
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1