文本的自动摘要方法、装置及存储介质制造方法及图纸

技术编号:33837545 阅读:28 留言:0更新日期:2022-06-16 11:56
本发明专利技术公开了一种文本的自动摘要方法、装置及存储介质。由于互联网的发展,有海量的用户产生数据,其中有大量冗余文本,较难使用,需摘要出关键部分以便后续处理,本申请通过将待摘要文本分为句子与段落,并分别计算句子与段落之间的匹配度及句子与全文的匹配度分别判断句子在段落中及全文中的重要性,而后将匹配度加权求和得到句子的综合重要性,最后选择综合重要性相对较高的句子作为摘要,解决了现有技术中只考虑上下文的联系导致摘要的句子与全文无关的问题,达到了提高摘要准确程度的效果。果。果。

【技术实现步骤摘要】
文本的自动摘要方法、装置及存储介质


[0001]本专利技术实施例涉及自然语言处理
,尤其涉及一种文本的自动摘要方法、装置及存储介质。

技术介绍

[0002]从自然语言文本中自动化提取摘要的定义是:给出一个自然语言文本,系统需要提取出一段长度小于原文长度的文本,其意思尽可能概括原文。
[0003]由于互联网的发展,有海量的用户产生数据,其中有大量冗余文本,例如政府企事业单位的投诉评价平台,有海量的用户产生数据,文本质量良莠不齐,冗余的文本多,较难使用,需摘要出关键部分以便后续处理。
[0004]现有技术主要以textrank为代表,此方法只判断句与句之间的关系,通过形成关系图并求解重要的句子节点得到摘要,在计算过程中没有整体文本内容的概念;同时,大量口语化的网络文本逻辑松散,通过句与句之间的关系进行摘要的方法在实际使用中效果不佳。

技术实现思路

[0005]本专利技术实施例提供一种文本的自动摘要方法,解决了现有技术中只考虑上下文的联系导致摘要的句子与全文无关的问题,达到了提高摘要准确程度的效果。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的自动摘要方法,其特征在于,包括:将待摘要文本按照预设长度进行段落划分,使用语义编码器计算划分后的每个段落,得到每个段落对应的语义向量,并将所有段落语义向量相加后归一化得到全文编码;根据标点符号对所有段落中的句子进行划分,并使用语义编码器计算每个句子,得到每个句子的语义编码;计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要。2.根据权利要求1所述的文本的自动摘要方法,其特征在于,所述语义编码器的训练过程包括:将样本集分为正例及负例,采用对比学习的方式对正例及负例中的无标注语料进行训练得到训练结果;使用样本集以外的数据对所述训练结果进行测试,当测试结果满足预设标准时,将所述训练结果作为语义编码器。3.根据权利要求1所述的文本的自动摘要方法,其特征在于,所述计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要的步骤具体包括:计算每个句子的语义编码与所在段落的语义向量的段落匹配度,并计算每个句子的语义编码与全文编码的全文匹配度;将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度;选择每个段落匹配度最高的预设数量的句子按照原文顺序拼接得到对应段落的摘要;将所有段落的摘要按原文顺序进行拼接得到待摘要文本的摘要。4.根据权利要求3所述的文本的自动摘要方法,其特征在于,将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度的步骤具体包括:Dist
ij
=a1·
cos(V
sij
,V
pi
)+a2·
cos(V
sij
,V
D
)其中,所述Dist
ij
为综合距离,所述a1为所述段落匹配度的权重,所述cos(V
sij
,V
pi
)为所述段落匹配度,所述a2为所述全文匹配度的权重,所述cos(V<...

【专利技术属性】
技术研发人员:侯聪吴万杰文敏白良俊纪传俊陈运文纪达麒
申请(专利权)人:达而观数据成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1