基于语义解析的摘要提取方法、装置、设备及介质制造方法及图纸

技术编号:31593261 阅读:28 留言:0更新日期:2021-12-25 11:41
本发明专利技术涉及人工智能,提供了基于语义解析的摘要提取方法、装置、设备及介质,先对待提取文本基于TF

【技术实现步骤摘要】
基于语义解析的摘要提取方法、装置、设备及介质


[0001]本专利技术涉及人工智能的语音语义
,尤其涉及一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前,对文本基于TextRank算法(即文本排序算法)进行文本摘要提取时,主要是通过计算共同出现词来计算句子计算相似度,再以借鉴Pagerank算法(即页面排序算法)为每个句子计算权重,然后选择权重高的句子,自动生成摘要。在获取句子中各关键词的词向量后进行加权求和得到句向量时,会受高频词影响,导致语义不够聚焦,所得到的句向量所包含信息特征并不准确。而且计算句子的相似度时,一般句向量是按句子中各关键词的词向量后进行加权求和得到,这样得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低,这就导致所计算每个句子计算权重的结果不够准确,所生成的摘要也就准确度不高。

技术实现思路

[0003]本专利技术实施例提供了一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质,旨在解决现有技术中对文本基于TextRank算法进行文本摘要提取时,是计算文本中句子之间的相似度以获取句子权重,且句向量是按句子中各关键词的词向量后进行加权求和得到,但依此得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低,所生成的摘要也就准确度不高的问题。
[0004]第一方面,本专利技术实施例提供了一种基于语义解析的摘要提取方法,其包括:响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本;将所述待提取文本进行分词和去停用词处理,得到分词结果;获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果;获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句;获取预训练BERT模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练BERT模型,得到每一转换分句的句向量;根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵;通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果;以及获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。
[0005]第二方面,本专利技术实施例提供了一种基于语义解析的摘要提取装置,其包括:
待提取文本获取单元,用于响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本;分词单元,用于将所述待提取文本进行分词和去停用词处理,得到分词结果;关键词筛选单元,用于获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果;掩码处理单元,用于获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句;句向量获取单元,用于获取预训练BERT模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练BERT模型,得到每一转换分句的句向量;相似度矩阵获取单元,用于根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵;输出结果获取单元,用于通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果;以及目标分句组合单元,用于获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。
[0006]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于语义解析的摘要提取方法。
[0007]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于语义解析的摘要提取方法。
[0008]本专利技术实施例提供了一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质,先对待提取文本基于TF

IDF及频率值筛选条件提取第一筛选结果,然后获取待提取文本包括的每一分句以根据掩码转换策略进行掩码替换,得到每一分句相应的转换分句,将每一分句相应的转换分句均输入至预训练BERT模型得到相应的句向量,根据每一分句的句向量计算得到相似度矩阵,最后基于相似度矩阵和Textrank算法计算每一分句的评分并筛选出评分排名未超出评分排名阈值的目标分句评分及分别相应的分句组成文本摘要。实现了基于TF

IDF提取的重要词优化BERT模型的掩码语言处理任务,输出有侧重点的句向量,之后基于Textrank提取更为准确的重点分句组成文本摘要,所提取的文本摘要更加准确。
附图说明
[0009]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术实施例提供的基于语义解析的摘要提取方法的应用场景示意图;图2为本专利技术实施例提供的基于语义解析的摘要提取方法的流程示意图;
图3为本专利技术实施例提供的基于语义解析的摘要提取装置的示意性框图;图4为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0011]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0012]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和
ꢀ“
包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0013]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0014]还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0015]请参阅图1和图2,图1为本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义解析的摘要提取方法,其特征在于,包括:响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本;将所述待提取文本进行分词和去停用词处理,得到分词结果;获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果;获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句;获取预训练BERT模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练BERT模型,得到每一转换分句的句向量;根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵;通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果;以及获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。2.根据权利要求1所述的基于语义解析的摘要提取方法,其特征在于,所述将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句,包括:若确定分句中具有所述第一筛选结果中的分词,判定分句中相应的分词满足预设的重要分词筛选条件,获取分句中满足重要分词筛选条件相应的分词得到第一待掩码分词集合;若确定分句中不具有所述第一筛选结果中的分词,获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第二待掩码分词集合;将分句中的第一待掩码分词集合或第二待掩码分词集合以预设的第一掩码字符串进行替换,得到转换分句。3.根据权利要求1所述的基于语义解析的摘要提取方法,其特征在于,所述将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句,包括:获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第三待掩码分词集合;获取预设的第二筛选比例,根据第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积确定的本集合筛选个数,在第三待掩码分词集合中随机获取具有所述本集合筛选个数的分词,组成第四待掩码分词集合;将分句的第四待掩码分词集合中每一分词以预设的第一掩码字符串进行替换,得到第一更新分句;在第三待掩码分词集合中获取所述第四待掩码分词集合的补集,得到第五待掩码分词集合;将第一更新分句的第五待掩码分词集合中每一分词以从所述第一筛选结果中任意选
中的一个关键词进行替换,得到分句相应的转换分句。4.根据权利要求1所述的基于语义解析的摘要提取方法,其特征在于,所述将所述待提取文本中每一分句相应的转换分句均输入至预训练BERT模型,得到每...

【专利技术属性】
技术研发人员:张莉张茜任杰陈宇
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1