【技术实现步骤摘要】
文本事件摘要的生成方法、装置、电子设备及存储介质
本专利技术涉及人工智能的自然语言处理技术,尤其涉及一种文本事件摘要的生成方法、装置、电子设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。自然语言处理(NatureLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,能实现人与计算机之间用自然语言进行有效通信。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,该领域将涉及自然语言,即人们日常使用的语言,所以它与语言学有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。事件摘要生成系统是自然语言处理领域的重要应用之一,事件摘要生成系统是指将文本所包含的核心事件以精炼的语言进行概括描述,生成对应文本的事件摘要。事件摘要生成系统在搜索系统、推荐系统等中都有广泛的应用,即事件摘要生成系统是这些复杂系统的基础组件。但是,传统的事件摘要生成系统生成的事件摘要的准确性低,即事件摘要不通顺、且不能精确表达文本所包含的核心事件。
技术实现思路
本专利技术实施例提供一种文本事件摘要的生成方法、装置、电 ...
【技术保护点】
1.一种文本事件摘要的生成方法,其特征在于,所述方法包括:/n对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;/n对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;/n将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;/n对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;/n对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;/n将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。/n
【技术特征摘要】
1.一种文本事件摘要的生成方法,其特征在于,所述方法包括:
对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息;
对所述文本中的正文进行注意力处理,得到所述正文的注意力权重;
将所述标题的注意力权重、以及所述正文的注意力权重进行融合处理,得到所述文本的注意力分布;
对所述标题的上下文信息进行词汇表的映射处理,生成所述标题的词汇分布;
对所述文本的注意力分布、以及所述标题的词汇分布进行融合处理,得到所述文本的关键数据;
将所述文本的关键数据进行组合处理,得到对应所述文本的事件摘要。
2.根据权利要求1所述的方法,其特征在于,所述对文本中的标题进行编码处理,得到所述标题的注意力权重以及上下文信息,包括:
对所述文本中的标题进行隐状态转换处理,得到所述标题的隐状态;
对所述标题的隐状态进行注意力处理,得到所述标题的注意力权重;
基于所述标题的注意力权重,对所述标题的隐状态进行加权求和,得到所述标题的上下文信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本中的标题进行隐状态转换处理,得到所述标题的隐状态,包括:
将所述文本中的标题进行词向量转换处理,得到所述标题的词向量;
对所述标题的词向量进行前向编码处理,得到对应所述标题的前向隐向量;
对所述标题的词向量进行后向编码处理,得到对应所述标题的后向隐向量;
将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述标题的隐状态。
4.根据权利要求2所述的方法,其特征在于,所述对所述标题的隐状态进行注意力处理,得到所述标题的注意力权重,包括:
对所述标题的隐状态、解码隐状态以及可学习参数进行双曲正切处理,得到处理结果;
对所述处理结果进行非线性映射处理,得到所述标题的注意力权重。
5.根据权利要求1所述的方法,其特征在于,所述对所述文本中的正文进行注意力处理,得到所述正文的注意力权重之前,所述方法还包括:
对所述文本中的正文进行筛选处理,得到简化的正文序列;
所述对所述文本中的正文进行注意力处理,得到所述正文的注意力权重,包括:
对所述简化的正文序列进行隐状态转换处理,得到所述正文序列的隐状态;
对所述正文序列的隐状态进行注意力处理,得到所述正文的注意力权重。
6.根据权利要求5所述的方法,其特征在于,所述对所述文本中的正文进行筛选处理,得到简化的正文序列,包括:
对所述文本中的正文进行句子粒度提取处理,得到所述正文中的目标句子;
对所述正文进行词粒度提取处理,得到所述正文中的目标词语;
将所述目标词语对齐到所述目标句子中,得到所述目标句子中未被对齐的词语;
基于所述目标句子中未被对齐的词语的词性,对所述目标句子中的词语进行过滤处理,得到简化的正文序列。
7.根据权利要求6所述的方法,其特征在于,所述对所述文本中的正文进行句子粒度提取处理,得到所述正文中的目标句子,包括:
对所述文本中的正文进行分句处理,得到多个候选句子;
对所述候选句子进行向量转换处理,得到所述候选句子的句子向量;
确定所述候选句子的句子向量、与所述标题的句子向量的第一相似度,确定所述候选句子的句子向量、与已提取句子的句子向量的第二相似度;
将所述第一相似度以及所述第二相似度进行加权求和,并对加权求和结果进行映射处理,得到所述正文中的目标句子。
8.根据权利要求6所述的方法,其特征在于,所述对所述正文进行词粒度提取处理,得到所述正文中的目标词语,包括:
对所述文本中的正文进行...
【专利技术属性】
技术研发人员:陈增健,容毅峰,廖梦,徐进,王志平,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。