【技术实现步骤摘要】
基于语义解析的摘要提取方法、装置、设备及介质
[0001]本专利技术涉及人工智能的语音语义
,尤其涉及一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质。
技术介绍
[0002]目前,对文本基于TextRank算法(即文本排序算法)进行文本摘要提取时,主要是通过计算共同出现词来计算句子计算相似度,再以借鉴Pagerank算法(即页面排序算法)为每个句子计算权重,然后选择权重高的句子,自动生成摘要。在获取句子中各关键词的词向量后进行加权求和得到句向量时,会受高频词影响,导致语义不够聚焦,所得到的句向量所包含信息特征并不准确。而且计算句子的相似度时,一般句向量是按句子中各关键词的词向量后进行加权求和得到,这样得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低,这就导致所计算每个句子计算权重的结果不够准确,所生成的摘要也就准确度不高。
技术实现思路
[0003]本专利技术实施例提供了一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质,旨在解决现有技术中对文本基于TextRank算法进行文本摘要提取时,是计算文本中句子之间的相似度以获取句子权重,且句向量是按句子中各关键词的词向量后进行加权求和得到,但依此得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低,所生成的摘要也就准确度不高的问题。
[0004]第一方面,本专利技术实施例提供了一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义解析的摘要提取方法,其特征在于,包括:响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本;将所述待提取文本进行分词和去停用词处理,得到分词结果;获取所述分词结果中每一分词的词频
‑
逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果;获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句;获取预训练BERT模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练BERT模型,得到每一转换分句的句向量;根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵;通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果;以及获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。2.根据权利要求1所述的基于语义解析的摘要提取方法,其特征在于,所述将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句,包括:若确定分句中具有所述第一筛选结果中的分词,判定分句中相应的分词满足预设的重要分词筛选条件,获取分句中满足重要分词筛选条件相应的分词得到第一待掩码分词集合;若确定分句中不具有所述第一筛选结果中的分词,获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第二待掩码分词集合;将分句中的第一待掩码分词集合或第二待掩码分词集合以预设的第一掩码字符串进行替换,得到转换分句。3.根据权利要求1所述的基于语义解析的摘要提取方法,其特征在于,所述将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句,包括:获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第三待掩码分词集合;获取预设的第二筛选比例,根据第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积确定的本集合筛选个数,在第三待掩码分词集合中随机获取具有所述本集合筛选个数的分词,组成第四待掩码分词集合;将分句的第四待掩码分词集合中每一分词以预设的第一掩码字符串进行替换,得到第一更新分句;在第三待掩码分词集合中获取所述第四待掩码分词集合的补集,得到第五待掩码分词集合;将第一更新分句的第五待掩码分词集合中每一分词以从所述第一筛选结果中任意选
中的一个关键词进行替换,得到分句相应的转换分句。4.根据权利要求1所述的基于语义解析的摘要提取方法,其特征在于,所述将所述待提取文本中每一分句相应的转换分句均输入至预训练BERT模型,得到每...
【专利技术属性】
技术研发人员:张莉,张茜,任杰,陈宇,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。