一种文档摘要抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37120229 阅读：17 留言：0更新日期：2023-04-01 05:15

本发明专利技术公开一种文档摘要抽取方法、装置、电子设备及存储介质，方法包括：获取原始数据；将所述原始数据输入BertSum模型中，以提取出初始摘要，其中，所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层；对所述初始摘要进行语义筛选，以筛除所述初始摘要中的语义相同的文本；对筛除后的所述初始摘要进行排序，以得到按照重要度进行排序的文档摘要，其中，所述重要度与文本出现的次数呈正相关。本发明专利技术解决了现有技术中提取的摘要冗余度高、摘要抽取效果差导致用户满意度低的技术问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档摘要抽取方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据处理
，具体涉及一种文档摘要抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]摘要生成是自然语言处理的重要研究方向，从一篇文章中抽取重要的信息组成摘要对于人类来说比较容易，但对于人工智能来说，却是一种不易达到的较高能力，需要在理解全文的基础上抽取最重要的段落或语句。大型公司包括，京东、百度、腾讯等都在该方向上有所布局。通常情况下，文档的摘要抽取技术可以应用到长文本的摘要生成领域，新闻资讯的内容生成领域。良好的摘要抽取技术不仅可以降低开发成本，还可以带来很好的用户体验。
[0003]传统的摘要抽取技术如TextRank,LSTM(LongShortTimeMemory)等有一个弊端，抽取的文本之间存在语义相似的情况，即抽取的文本虽然可以是文章的主题句，但是没有明显的区分，摘要里的句子句意会有很大的重复。传统的模型一般是从文本中抽取句意最能接近原文的句子，但没有进行句意筛选。冗余的摘要表达不能精炼，使得摘要抽取的效果较差，导致用户的满意度降低。

技术实现思路

[0004]本专利技术的目的在于克服上述技术不足，提供一种可用于金融科技或其它相关
的文档摘要抽取方法、装置、电子设备及存储介质，解决现有技术中提取的摘要冗余度高、摘要抽取效果差导致用户满意度低的技术问题。
[0005]为达到上述技术目的，本专利技术采取了以下技术方案：
[0006]第一方面，本专利技术提供一种文档摘要抽取方法，...

【技术保护点】

【技术特征摘要】
1.一种文档摘要抽取方法，其特征在于，包括如下步骤；获取原始数据；将所述原始数据输入BertSum模型中，以提取出初始摘要，其中，所述BertSum模型包括依次连接的输入层、编码层、bert模型层以及摘要层；对所述初始摘要进行语义筛选，以筛除所述初始摘要中的语义相同的文本；对经过筛除后的所述初始摘要进行排序，以得到按照重要度进行排序的文档摘要，其中，所述重要度与文本出现的次数呈正相关。2.根据权利要求1所述的文档摘要抽取方法，其特征在于，所述将所述原始数据输入BertSum模型中，以提取出初始摘要，包括：将所述原始数据输入至所述输入层中，对所述原始数据进行分词处理；将分词处理后的原始数据输入至所述编码层中，对所述分词处理后的原始数据进行编码处理；将编码处理后得到的数据输入至所述bert模型层中，以对所述编码处理后得到的数据进行计算；将所述bert模型层的计算结果输入至所述摘要层中，以对计算结果进行分类后，得到初始摘要。3.根据权利要求1所述的文档摘要抽取方法，其特征在于，所述对所述初始摘要进行语义筛选，以筛除所述初始摘要中的语义相同的文本，包括：在所述初始摘要中随机抽取一文本作为已提取集合；采用预设的分值计算公式，逐一对其余的各个文本进行分值计算，判断计算出的分值是否大于预设阈值，如果是，则将该分值对应的文本加入所述已提取集合中，否则筛除该分值对应的文本。4.根据权利要求3所述的文档摘要抽取方法，其特征在于，所述分值计算公式为：其中，L
i
表示文本i的分数值，s
i
表示文本i的句向量，s
doc
表示原始数据的句向量，s
m
表示已经提取的文本m的句向量，N1表示当前已提取集合中的文本的总数，sim是余弦相似度计算方法。5.根据权利要求4所述的文档摘要抽取方法，其特征在于，所述对经过筛除后的所述初始摘要进行排序，以得...

【专利技术属性】
技术研发人员：詹乐，
申请(专利权)人：平安银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人