文本事件摘要的生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24613485 阅读:18 留言:0更新日期:2020-06-24 01:08
本发明专利技术提供了一种文本事件摘要的生成方法、装置、电子设备及存储介质;方法包括:对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。通过本发明专利技术,能够融合文本中的正文以及标题,精确地抽取文本的事件摘要。

Generation method, device, electronic equipment and storage medium of text event summary

【技术实现步骤摘要】
文本事件摘要的生成方法、装置、电子设备及存储介质
本专利技术涉及人工智能的自然语言处理技术,尤其涉及一种文本事件摘要的生成方法、装置、电子设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。自然语言处理(NatureLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,能实现人与计算机之间用自然语言进行有效通信。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,该领域将涉及自然语言,即人们日常使用的语言,所以它与语言学有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。事件摘要生成系统是自然语言处理领域的重要应用之一,事件摘要生成系统是指将文本所包含的核心事件以精炼的语言进行概括描述,生成对应文本的事件摘要。事件摘要生成系统在搜索系统、推荐系统等中都有广泛的应用,即事件摘要生成系统是这些复杂系统的基础组件。但是,传统的事件摘要生成系统生成的事件摘要的准确性低,即事件摘要不通顺、且不能精确表达文本所包含的核心事件。
技术实现思路
本专利技术实施例提供一种文本事件摘要的生成方法、装置、电子设备及存储介质,能够融合文本中的正文以及标题,精确地抽取文本的事件摘要。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种文本事件摘要的生成方法,包括:对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。本专利技术实施例提供一种文本事件摘要的生成装置,包括:编码模块,用于对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;注意力模块,用于对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;第一融合模块,用于将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;映射模块,用于对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;第二融合模块,用于对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;组合模块,用于将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。上述技术方案中,所述编码模块还用于对所述文本中的标题进行隐状态转换处理,得到所述标题的隐状态;对所述标题的隐状态进行注意力处理,得到所述标题的注意力权重;基于所述标题的注意力权重,对所述标题的隐状态进行加权求和,得到所述标题的上下文信息。上述技术方案中,所述编码模块还用于将所述文本中的标题进行词向量转换处理,得到所述标题的词向量;对所述标题的词向量进行前向编码处理,得到对应所述标题的前向隐向量;对所述标题的词向量进行后向编码处理,得到对应所述标题的后向隐向量;将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述标题的隐状态。上述技术方案中,所述编码模块还用于对所述标题的隐状态、解码隐状态以及可学习参数进行双曲正切处理,得到处理结果;对所述处理结果进行非线性映射处理,得到所述标题的注意力权重。上述技术方案中,所述装置还包括:筛选模块,用于对所述文本中的正文进行筛选处理,得到简化的正文序列;所述注意力模块还用于对所述简化的正文序列进行隐状态转换处理,得到所述正文序列的隐状态;对所述正文序列的隐状态进行注意力处理,得到所述正文的注意力权重。上述技术方案中,所述筛选模块还用于对所述文本中的正文进行句子粒度提取处理,得到所述正文中的目标句子;对所述正文进行词粒度提取处理,得到所述正文中的目标词语;将所述目标词语对齐到所述目标句子中,得到所述目标句子中未被对齐的词语;基于所述目标句子中未被对齐的词语的词性,对所述目标句子中的词语进行过滤处理,得到简化的正文序列。上述技术方案中,所述筛选模块还用于对所述文本中的正文进行分句处理,得到多个候选句子;对所述候选句子进行向量转换处理,得到所述候选句子的句子向量;确定所述候选句子的句子向量、与所述标题的句子向量的第一相似度,确定所述候选句子的句子向量、与已提取句子的句子向量的第二相似度;将所述第一相似度以及所述第二相似度进行加权求和,并对加权求和结果进行映射处理,得到所述正文中的目标句子。上述技术方案中,所述筛选模块还用于对所述候选句子进行词向量转换处理,得到所述候选句子的词向量;基于所述词向量的词频以及逆文本频率指数,确定所述词向量的权重;基于所述词向量的权重,对所述候选句子的词向量进行加权平均处理,得到所述候选句子的句子向量。上述技术方案中,所述筛选模块还用于对所述文本中的正文进行分词处理,得到对应所述正文的词语;根据所述词语的词性,对所述对应所述正文的词语进行过滤处理,得到多个所述正文的候选词语;将所述多个所述正文的候选词语组合成所述候选词语的序列,并基于所述候选词语的序列,构建候选目标词图;基于所述候选目标词图中节点权重,确定所述正文中的目标词语。上述技术方案中,所述筛选模块还用于将所述候选词语的序列中的候选词语确定为所述候选目标词图的节点;当任意两节点在所述候选词语的序列中的距离小于或者等于距离阈值时,连接所述任意两节点的边;将所述两节点在所述序列中出现的频率确定为所述边的节点权重;根据所述节点、所述边以及所述节点权重,构建所述候选目标词图。上述技术方案中,所述第一融合模块还用于确定对应所述标题的第一融合权重以及对应所述正文的第二融合权重;确定所述标题的注意力权重与所述第一融合权重的第一乘积、以及所述正文的注意力权重与所述第二融合权重的第二乘积,并将所述第一乘积与所述第二乘积的求和结果确定为所述文本的注意力分布。上述技术方案中,所述装置还包括:处理模块,用于基于所述正文的注意力权重,对正文的隐状态进行加权求和,得到所述正文的上下文信息;所述第一融合模块还用于对所述正文的上下文信息、所述标题的上下文信息、解码隐状态、已生成的所述文本的关键数据以及可本文档来自技高网...

【技术保护点】
1.一种文本事件摘要的生成方法,其特征在于,所述方法包括:/n对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;/n对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;/n将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;/n对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;/n对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;/n将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。/n

【技术特征摘要】
1.一种文本事件摘要的生成方法,其特征在于,所述方法包括:
对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;
对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;
将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;
对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;
对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;
将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。


2.根据权利要求1所述的方法,其特征在于,所述对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息,包括:
对所述文本中的标题进行隐状态转换处理,得到所述标题的隐状态;
对所述标题的隐状态进行注意力处理,得到所述标题的注意力权重;
基于所述标题的注意力权重,对所述标题的隐状态进行加权求和,得到所述标题的上下文信息。


3.根据权利要求2所述的方法,其特征在于,所述对所述文本中的标题进行隐状态转换处理,得到所述标题的隐状态,包括:
将所述文本中的标题进行词向量转换处理,得到所述标题的词向量;
对所述标题的词向量进行前向编码处理,得到对应所述标题的前向隐向量;
对所述标题的词向量进行后向编码处理,得到对应所述标题的后向隐向量;
将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述标题的隐状态。


4.根据权利要求2所述的方法,其特征在于,所述对所述标题的隐状态进行注意力处理,得到所述标题的注意力权重,包括:
对所述标题的隐状态、解码隐状态以及可学习参数进行双曲正切处理,得到处理结果;
对所述处理结果进行非线性映射处理,得到所述标题的注意力权重。


5.根据权利要求1所述的方法,其特征在于,所述对所述文本中的正文进行注意力处理,得到所述正文的注意力权重之前,所述方法还包括:
对所述文本中的正文进行筛选处理,得到简化的正文序列;
所述对所述文本中的正文进行注意力处理,得到所述正文的注意力权重,包括:
对所述简化的正文序列进行隐状态转换处理,得到所述正文序列的隐状态;
对所述正文序列的隐状态进行注意力处理,得到所述正文的注意力权重。


6.根据权利要求5所述的方法,其特征在于,所述对所述文本中的正文进行筛选处理,得到简化的正文序列,包括:
对所述文本中的正文进行句子粒度提取处理,得到所述正文中的目标句子;
对所述正文进行词粒度提取处理,得到所述正文中的目标词语;
将所述目标词语对齐到所述目标句子中,得到所述目标句子中未被对齐的词语;
基于所述目标句子中未被对齐的词语的词性,对所述目标句子中的词语进行过滤处理,得到简化的正文序列。


7.根据权利要求6所述的方法,其特征在于,所述对所述文本中的正文进行句子粒度提取处理,得到所述正文中的目标句子,包括:
对所述文本中的正文进行分句处理,得到多个候选句子;
对所述候选句子进行向量转换处理,得到所述候选句子的句子向量;
确定所述候选句子的句子向量、与所述标题的句子向量的第一相似度,确定所述候选句子的句子向量、与已提取句子的句子向量的第二相似度;
将所述第一相似度以及所述第二相似度进行加权求和,并对加权求和结果进行映射处理,得到所述正文中的目标句子。


8.根据权利要求6所述的方法,其特征在于,所述对所述正文进行词粒度提取处理,得到所述正文中的目标词语,包括:
对所述文本中的正文进行...

【专利技术属性】
技术研发人员:陈增健容毅峰廖梦徐进王志平
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1