一种基于群智知识图谱的富语义多样化对话内容生成方法技术

技术编号:37681368 阅读:15 留言:0更新日期:2023-05-28 09:34
本发明专利技术涉及一种基于群智知识图谱的富语义多样化对话内容生成方法,具体过程为,收集用户在社交媒体平台上表达的观点和态度内容,构建三层群智知识图谱:(1)领域常识知识图谱(2)群智描述知识图谱(3)群智表达知识图谱;构建门控融合动态知识依赖模型,编码阶段利用群智知识图谱对输入对话上下文进行语义增强,解码阶段利用门控融合的动态知识依赖解码机制,门控机制从局部语义角度融合常识和描述知识,提升内容表达多样性和主观性,动态知识依赖机制从全局语法角度融合表达知识,保证回复内容逻辑通顺流畅;利用对话数据对模型进行训练,训练完成后即可根据输入对话内容自动生成信息量丰富、多样性较高的高质量。多样性较高的高质量。多样性较高的高质量。

【技术实现步骤摘要】
一种基于群智知识图谱的富语义多样化对话内容生成方法


[0001]本专利技术涉及基于知识图谱的非目标驱动对话系统领域,具体涉及一种基于群智知识图谱的富语义多样化对话内容生成方法。

技术介绍

[0002]近年来,众多的研究者致力于构建可以与人类进行自然交流的对话系统。尽管对话系统的研究已经取得了充足的进展,我们距离真正类人的对话系统仍然有一定的距离。我们在对话过程中会自动结合掌握的知识进行对话上下文的理解并生成合理的回复。结合外部知识进行对话上下文的深入理解,并生成事实正确并且流畅通顺的对话回复是现在的对话系统研究热点方向。真正拟人的对话系统应该从三个方面进行吸引人的对话过程,(1)陈述基本的事实性信息,(2)传达主观的描述和观点性信息,实现深入的观点交流,(3)利用多样化的表达技巧吸引用户进行长时间对话。现有的结构化知识图谱和非结构化知识库是关于事物的常识性的信息描述,只能为对话系统提供传递基本事实性信息的能力。
[0003]在社交媒体时代,用户倾向于根据自己的经验和认知在网上表达观点和态度,这些群体表达内容中蕴含了丰富的群智知识,包含了对于事物的带有感情的丰富描述。群智知识可以从三个方面增强对话系统的性能,(1)丰富语义信息增强上下文理解,(2)描述性和观点性信息提高生成内容信息量,(3)个性化用户表达增强回复内容多样性。通过挖掘群智表达文本中的群智知识,构建群智知识图谱,可以更进一步丰富对话系统对对话上下文语义的理解,以及生成对话内容的信息丰富性和表达多样性。

技术实现思路

[0004]要解决的技术问题
[0005]为了避免现有技术的不足之处,本专利技术提供一种基于群智知识图谱的富语义多样化对话内容生成方法。
[0006]技术方案
[0007]一种基于群智知识图谱的富语义多样化对话内容生成方法,其特征在于步骤如下:
[0008]步骤1:收集群体表达数据,从社交媒体平台上收集用户关于特定事物表达的评价和观点内容,作为群智知识图谱知识来源,为后续的群智知识图谱构建提供支持;
[0009]步骤2:构建三层群智知识图谱G=(G
C
,G
D
,G
E
),其中领域常识知识图谱),其中领域常识知识图谱包含特定领域内的常识知识信息,其中为知识三元组(h,r,t),表达头实体和尾实体之间的关系;群智描述知识图谱关于事物的描述性知识信息,反映对于事物的主观感知和感性态度,其中为知识三元组,G
D
中包含两种关系,群体话题和群体共识;群体话题反映人们在讨论同一事物时最为关注的方面和属性,
反映了事物的内在属性,群体共识反映了人们在讨论同一事物时被大多数用户认可和表达的内容;利用融合短语的话题抽取方法和话题偏置的TextRank算法进行群体话题和群体共识的挖掘;群智表达知识图谱为自然语言表达结构层面的知识,反映了语言的上下文关联和语法依赖关系,为知识三元组,利用语法图进行G
E
的构建,通过对用户表达内容进行语法图分析,得到单词之间的语法词性和语法依赖关系;
[0010]步骤3:构建门控融合动态知识依赖模型的分层语义增强编码模块;首先定义模型的输入对话上下文序列X={x1,x2,

,x
n
},以及构建完成的群智知识图谱G=(G
C
,G
D
,G
E
),模型目标输出为相应的对话回复Y={y1,y2,

,y
m
};根据输入对话上下文从群智知识图谱中抽取三个知识子图序列抽取三个知识子图序列对于从常识和描述图谱中抽取出的知识,将其视为文本序列,利用Transformer模型进行编码,如下:
[0011]z
i
=Transformer(k
i
)
[0012]对于从表达图谱中抽取出的知识,利用静态图注意力机制,融合多个知识三元组之间的边和节点的结构信息,如下:
[0013][0014][0015][0016]其中h
n
,r
n
,t
n
分别代表知识三元组中的头实体、关系和尾实体;n
e
代表表达图谱中的知识三元组的数量;W
r
,W
h
,W
t
为三个可权重矩阵,训练过程进行随机初始化,用于建模头实体、关系和尾实体之间的语义关联;最后,利用静态图注意力机制将所有知识向量进行融合,得到最终抽取出的知识向量语义表示如下:
[0017][0018][0019]其中W
z
为两个可训练权重矩阵,训练过程中进行随机初始化,用于将知识向量语义表征映射到统一维度;串联与对应输入单词词向量ω(x
t
)得到知识增强的对话上下文向量表示将对话上下文向量表示序列作为编码器GRU的输入,得到编码隐藏状态序列H={h1,h2,

,h
n
},如下:
[0020]h
t
=GRU(h
t
‑1,e(x
t
))
[0021]步骤4:构建门控融合的动态知识依赖解码器;解码器在解码过程利用门控机制和动态知识依赖机制动态调整不同类型知识的注意力权重和利用程度;解码器GRU在每个解
码时刻融合上一时刻解码隐藏状态向量s
t
、对话上下文注意力向量门控知识向量表达知识向量以及上一时刻解码生成的单词的向量表示e(y
t
),进行单词的预测生成过程,如下:
[0022][0023]其中,对话上下文注意力向量在每个解码时刻通过计算上一时刻解码隐藏状态向量s
t
与编码隐藏状态序列H的注意力得到,如下:
[0024][0025]q
t
=softmax(α
t
)
[0026][0027]其中W
h
和W
s
两个可训练权重矩阵,训练过程中进行随机初始化,用于将h
i
和s
t
映射到统一维度,b
q
表示偏置矩阵,n表示编码阶段输入句子的长度;
[0028]表达知识在解码过程中从全局语法角度控制生成句子的语法结构;根据解码隐藏状态s
t
动态更新表达知识向量实现语法表达知识的动态调整,如下:
[0029][0030][0031][0032]其中W
e
和为两个可训练权重矩阵,训练过程中进行随机初始化,用于将和s
t
映射到统一维度,b
e
表示偏置矩阵,n1表示可融合的表达知识的数量;
[0033]根据同样计算方式得到常识知识向量和描述知识向量利用门控机制决定常识和描述知识中的语义表达程度,得到门控知识向量如下,:
[0034][0035][0036本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于群智知识图谱的富语义多样化对话内容生成方法,其特征在于步骤如下:步骤1:收集群体表达数据,从社交媒体平台上收集用户关于特定事物表达的评价和观点内容,作为群智知识图谱知识来源,为后续的群智知识图谱构建提供支持;步骤2:构建三层群智知识图谱G=(G
C
,G
D
,G
E
),其中领域常识知识图谱),其中领域常识知识图谱包含特定领域内的常识知识信息,其中为知识三元组(h,r,t),表达头实体和尾实体之间的关系;群智描述知识图谱关于事物的描述性知识信息,反映对于事物的主观感知和感性态度,其中为知识三元组,G
D
中包含两种关系,群体话题和群体共识;群体话题反映人们在讨论同一事物时最为关注的方面和属性,反映了事物的内在属性,群体共识反映了人们在讨论同一事物时被大多数用户认可和表达的内容;利用融合短语的话题抽取方法和话题偏置的TextRank算法进行群体话题和群体共识的挖掘;群智表达知识图谱为自然语言表达结构层面的知识,反映了语言的上下文关联和语法依赖关系,为知识三元组,利用语法图进行G
E
的构建,通过对用户表达内容进行语法图分析,得到单词之间的语法词性和语法依赖关系;步骤3:构建门控融合动态知识依赖模型的分层语义增强编码模块;首先定义模型的输入对话上下文序列X={x1,x2,

,x
n
},以及构建完成的群智知识图谱G=(G
C
,G
D
,G
E
),模型目标输出为相应的对话回复Y={y1,y2,

,y
m
};根据输入对话上下文从群智知识图谱中抽取三个知识子图序列三个知识子图序列对于从常识和描述图谱中抽取出的知识,将其视为文本序列,利用Transformer模型进行编码,如下:z
i
=Transformer(k
i
)对于从表达图谱中抽取出的知识,利用静态图注意力机制,融合多个知识三元组之间的边和节点的结构信息,如下:的边和节点的结构信息,如下:的边和节点的结构信息,如下:其中h
n
,r
n
,t
n
分别代表知识三元组中的头实体、关系和尾实体;n
e
代表表达图谱中的知识三元组的数量;W
r
,W
h
,W
t
为三个可权重矩阵,训练过程进行随机初始化,用于建模头实体、关系和尾实体之间的语义关联;最后,利用静态图注意力机制将所有知识向量进行融合,得到最终抽取出的知识向量语义表示如下:
其中W
z
为两个可训练权重矩阵,训练过程中进行随机初始化,用于将知识向量语义表征映射到统一维度;串联与对应输入单词词向量ω(x
t
)得到知识增强的对话上下文向量表示将对话上下文向量表示序列作为编码器GRU的输入,得到编码隐藏状态序列H={h1,h2,

,h
n
},如下:h
t
=GRU(h
t
‑1,e(x
t
))步骤4:构建门控融合的...

【专利技术属性】
技术研发人员:郭斌王豪刘佳琪於志文邱晨王柱梁韵基
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1