一种外部知识增强的幽默文本生成方法技术

技术编号：24854680 阅读：65 留言：0更新日期：2020-07-10 19:08

本发明专利技术公开了一种外部知识增强的幽默文本生成方法，该方法包括对短笑话数据集预处理得到主体句‑背景知识‑妙语句对齐的数据，构建幽默文本生成模型，利用幽默文本生成模型生成幽默文本。本发明专利技术提出利用图注意力网络来聚合一个笑话主体句的背景知识图，增强节点表达，并提出将背景知识图融合到妙语句解码器中，从而实现给定主体句及相关的背景知识，能够生成富含幽默感的妙语句。

全部详细技术资料下载

【技术实现步骤摘要】
一种外部知识增强的幽默文本生成方法
本专利技术属于文本生成
，具体涉及一种外部知识增强的幽默文本生成方法。
技术介绍
幽默，描述一种有趣，可笑，蕴含深意的语句表达。它具有鲜明的文化特征，用诙谐、轻松或是讽刺的语言形式表现说话人想要表达的事物。随着人工智能技术迅猛成长，人们对计算机能力的期望也日益增高。“微软小冰”，“小爱同学”，“天猫精灵”等智能助手大火的重要原因之一，就是它们良好的交互能力。我们希望智能助手在交流中更具有情感和温度，也就是具有更高的情商。幽默被认为是交流中情商，“温度”的重要表现，在智能助手，对话生成等应用领域有着重要的意义。目前，智能助手中的对话生成技术大多是用检索，匹配式，虽然能够给出幽默的应答，但是并不能分析，理解，只是根据人们的聊天数据进行复制回应。根据乖讹论，幽默的语言，即笑话一般由主体(set-up)与(punchline,也称妙语)两部分构成，例如，“希特勒早上都吃什么？吃犹太人！”中，主体句“希特勒早上都吃什么？”，提供笑话的背景，包含读者的预期。妙语句“吃犹太人！”通常在笑话的结尾，...

【技术保护点】
1.一种外部知识增强的幽默文本生成方法，其特征在于，包括以下步骤：/nS1、获取短笑话数据集并进行预处理，得到主体句-背景知识-妙语句对齐的数据；/nS2、构建包含背景知识编码器、主体句编码器和背景知识融合的妙语句解码器的幽默文本生成模型；/nS3、利用步骤S2构建的幽默文本生成模型对步骤S1得到的主体句-背景知识-妙语句对齐的数据进行处理，生成幽默文本。/n

【技术特征摘要】
1.一种外部知识增强的幽默文本生成方法，其特征在于，包括以下步骤：
S1、获取短笑话数据集并进行预处理，得到主体句-背景知识-妙语句对齐的数据；
S2、构建包含背景知识编码器、主体句编码器和背景知识融合的妙语句解码器的幽默文本生成模型；
S3、利用步骤S2构建的幽默文本生成模型对步骤S1得到的主体句-背景知识-妙语句对齐的数据进行处理，生成幽默文本。

2.如权利要求1所述的外部知识增强的幽默文本生成方法，其特征在于，所述步骤S1具体包括以下分步骤：
S1-1、获取短笑话数据集，并进行笑话过滤、笑点分割和笑话去重复处理；
S1-2、将短笑话数据中的最后一个句子作为妙语句，其它句子作为主体句；
S1-3、使用实体链接工具TagMe将主体句中的实体链接到维基百科网站，获得实体的维基百科标题；
S1-4、使用SPARQL将实体链接到Wikidata并获得与实体相关的三元组，得到主体句-背景知识-妙语句对齐的数据。

3.如权利要求2所述的外部知识增强的幽默文本生成方法，其特征在于，所述步骤S2具体包括以下分步骤：
S2-1、根据背景知识三元组构建背景知识图；
S2-2、采用背景知识编码器将背景知识图的邻近节点的特征进行融合，获取背景知识的隐藏特征；
S2-3、采用主体句编码器对主体句进行编码处理；
S2-4、将步骤S2-2获取的背景知识的隐藏特征和S2-3获取的主体句的隐藏特征整合到妙语句解码器的当前状态中，采用背景知识融合的妙语句解码器对妙语句进行解码处理。

4.如权利要求3所述的外部知识增强的幽默文本生成方法，其特征在于，所述步骤S2-1具体包括以下分步骤：
S2-1-1、将背景知识三元组中的共引用实体折叠成单个实体节点，并将关系映射到关系节点；
S2-1-2、添加一个反向关系节点；
S2-1-3、采用双向长-短期记忆网络对实体和关系节点中的文本信息进行编码，采用最后的隐藏状态作为节点的初始特征。

5.如权利要求4所述的外部知识增强的幽默文本生成方法，其特征在于，所述步骤S2-2具体为：
设定背景知识图为G＝(V，E，Hl)，V＝{v1，v2，...，vI}，节点vi的初始化特征为每个节点通过一种多头注意力的机制融合邻居的信息来更新特性，表示为：

在第l层，节点vi的特征是M是多头注意力运算中的头数，||表示M头注意力的运算结果进行拼接，...

【专利技术属性】
技术研发人员：吕建成，张航，杨可心，彭德中，彭玺，孙亚楠，贺喆南，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人