一种文档摘要抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37120229 阅读:17 留言:0更新日期:2023-04-01 05:15
本发明专利技术公开一种文档摘要抽取方法、装置、电子设备及存储介质,方法包括:获取原始数据;将所述原始数据输入BertSum模型中,以提取出初始摘要,其中,所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层;对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本;对筛除后的所述初始摘要进行排序,以得到按照重要度进行排序的文档摘要,其中,所述重要度与文本出现的次数呈正相关。本发明专利技术解决了现有技术中提取的摘要冗余度高、摘要抽取效果差导致用户满意度低的技术问题。题。题。

【技术实现步骤摘要】
一种文档摘要抽取方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,具体涉及一种文档摘要抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]摘要生成是自然语言处理的重要研究方向,从一篇文章中抽取重要的信息组成摘要对于人类来说比较容易,但对于人工智能来说,却是一种不易达到的较高能力,需要在理解全文的基础上抽取最重要的段落或语句。大型公司包括,京东、百度、腾讯等都在该方向上有所布局。通常情况下,文档的摘要抽取技术可以应用到长文本的摘要生成领域,新闻资讯的内容生成领域。良好的摘要抽取技术不仅可以降低开发成本,还可以带来很好的用户体验。
[0003]传统的摘要抽取技术如TextRank,LSTM(LongShortTimeMemory)等有一个弊端,抽取的文本之间存在语义相似的情况,即抽取的文本虽然可以是文章的主题句,但是没有明显的区分,摘要里的句子句意会有很大的重复。传统的模型一般是从文本中抽取句意最能接近原文的句子,但没有进行句意筛选。冗余的摘要表达不能精炼,使得摘要抽取的效果较差,导致用户的满意度降低。

技术实现思路

[0004]本专利技术的目的在于克服上述技术不足,提供一种可用于金融科技或其它相关
的文档摘要抽取方法、装置、电子设备及存储介质,解决现有技术中提取的摘要冗余度高、摘要抽取效果差导致用户满意度低的技术问题。
[0005]为达到上述技术目的,本专利技术采取了以下技术方案:
[0006]第一方面,本专利技术提供一种文档摘要抽取方法,包括如下步骤:
[0007]获取原始数据;
[0008]将所述原始数据输入BertSum模型中,以提取出初始摘要,其中,所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层;
[0009]对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本;
[0010]对经过筛除后的所述初始摘要进行排序,以得到按照重要度进行排序的文档摘要,其中,所述重要度与文本出现的次数呈正相关。
[0011]在一些实施例中,所述将所述原始数据输入BertSum模型中,以提取出初始摘要,包括:
[0012]将所述原始数据输入至所述输入层中,对所述原始数据进行分词处理;
[0013]将分词处理后的原始数据输入至所述编码层中,对所述分词处理后的原始数据进行编码处理;
[0014]将编码处理后得到的数据输入至所述bert模型层中,以对所述编码处理后得到的数据进行计算;
[0015]将所述bert模型层的计算结果输入至所述摘要层中,以对计算结果进行分类后,得到初始摘要。
[0016]在一些实施例中,所述对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本,包括:
[0017]在所述初始摘要中随机抽取一文本作为已提取集合;
[0018]采用预设的分值计算公式,逐一对其余的各个文本进行分值计算,判断计算出的分值是否大于预设阈值,如果是,则将该分值对应的文本加入所述已提取集合中,否则筛除该分值对应的文本。
[0019]在一些实施例中,所述分值计算公式为:
[0020][0021]其中,L
i
表示文本i的分数值,s
i
表示文本i的句向量,s
doc
表示原始数据的句向量,s
m
表示已经提取的文本m的句向量,N1表示当前已提取集合中的文本的总数,sim是余弦相似度计算方法。。
[0022]在一些实施例中,所述对经过筛除后的所述初始摘要进行排序,以得到按照重要度进行排序的文档摘要,包括:
[0023]根据权重计算公式,计算出经过筛除后的所述初始摘要中的各个文本的权重值;
[0024]基于各个文本的权重值,采用二元线性回归公式计算出各个文本的重要度;
[0025]根据各个文本的重要度对各个文本进行排序后,以得到文档摘要。
[0026]在一些实施例中,所述权重计算公式为:
[0027][0028]其中,Tfidfi,j表示权重值,tfi,j表示文本i中的每个词在原始数据j中出现的次数,N2是原始数据的数量,df
i
指的是文本i在原始数据j中的数量。
[0029]在一些实施例中,所述二元线性回归公式为:
[0030]y=pL
i
+qTfidfi,j,
[0031]其中,y表示重要度,x1表示词i的分数值,Tfidfi,j表示权重值,p,q是线性回归参数。
[0032]第二方面,本专利技术提供一种文档摘要抽取装置,包括:
[0033]数据获取模块,用于获取原始数据;
[0034]提取模块,用于将所述原始数据输入BertSum模型中,以提取出初始摘要,其中,所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层;
[0035]语义筛选模块,用于对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本;
[0036]排序模块,用于对经过筛除后的所述初始摘要进行排序,以得到按照重要度进行排序的文档摘要,其中,所述重要度与文本出现的次数呈正相关。
[0037]第三方面,本专利技术还提供一种电子设备,包括:处理器和存储器;
[0038]所述存储器上存储有可被所述处理器执行的计算机程序;
[0039]所述处理器执行所述计算机程序时实现如上所述的文档摘要抽取方法中的步骤。
[0040]第四方面,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的文档摘要抽取方法中的步骤。
[0041]与现有技术相比,本专利技术提供的文档摘要抽取方法、装置、电子设备及存储介质,首先获取原始数据,然后将所述原始数据输入BertSum模型中,以提取出初始摘要,其中,所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层,之后对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本,最后对经过筛除后的所述初始摘要进行排序,以得到按照重要度进行排序的文档摘要,其中,所述重要度与文本出现的次数呈正相关。本专利技术通过采用BertSum模型提取初始摘要后,对初始摘要进行语义筛选,保证最后每个文本相互间均是语义不相同的,之后再按照重要度进行排序,使得提取的文本摘要更加符合原始文本的文章主旨,更加精炼通畅,准确率更高。
附图说明
[0042]图1是本专利技术提供的文档摘要抽取方法的一实施例的流程图;
[0043]图2是本专利技术提供的文档摘要抽取方法中,步骤S200的流程图;
[0044]图3是本专利技术提供的文档摘要抽取方法中,步骤S300的流程图;
[0045]图4是本专利技术提供的文档摘要抽取方法中,步骤S400的流程图;
[0046]图5是本专利技术实施例提供的文档摘要抽取装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档摘要抽取方法,其特征在于,包括如下步骤;获取原始数据;将所述原始数据输入BertSum模型中,以提取出初始摘要,其中,所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层;对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本;对经过筛除后的所述初始摘要进行排序,以得到按照重要度进行排序的文档摘要,其中,所述重要度与文本出现的次数呈正相关。2.根据权利要求1所述的文档摘要抽取方法,其特征在于,所述将所述原始数据输入BertSum模型中,以提取出初始摘要,包括:将所述原始数据输入至所述输入层中,对所述原始数据进行分词处理;将分词处理后的原始数据输入至所述编码层中,对所述分词处理后的原始数据进行编码处理;将编码处理后得到的数据输入至所述bert模型层中,以对所述编码处理后得到的数据进行计算;将所述bert模型层的计算结果输入至所述摘要层中,以对计算结果进行分类后,得到初始摘要。3.根据权利要求1所述的文档摘要抽取方法,其特征在于,所述对所述初始摘要进行语义筛选,以筛除所述初始摘要中的语义相同的文本,包括:在所述初始摘要中随机抽取一文本作为已提取集合;采用预设的分值计算公式,逐一对其余的各个文本进行分值计算,判断计算出的分值是否大于预设阈值,如果是,则将该分值对应的文本加入所述已提取集合中,否则筛除该分值对应的文本。4.根据权利要求3所述的文档摘要抽取方法,其特征在于,所述分值计算公式为:其中,L
i
表示文本i的分数值,s
i
表示文本i的句向量,s
doc
表示原始数据的句向量,s
m
表示已经提取的文本m的句向量,N1表示当前已提取集合中的文本的总数,sim是余弦相似度计算方法。5.根据权利要求4所述的文档摘要抽取方法,其特征在于,所述对经过筛除后的所述初始摘要进行排序,以得...

【专利技术属性】
技术研发人员:詹乐
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1