【技术实现步骤摘要】
知识图谱问答问句实体链接方法及装置
[0001]本专利技术涉及实体链接
,具体而言,涉及一种知识图谱问答问句实体链接方法及装置。
技术介绍
[0002]知识图谱采用实体
‑
关系
‑
实体三元组的形式表示知识,并在整体上构成以实体为节点、以实体与实体之间的关系为边的图结构。知识图谱问答是知识图谱的典型应用形式之一,具体是针对用户输入的一个自然语言问句进行语义理解,之后从知识图谱中查询、推理得出相应的答案,以满足用户的需求。
[0003]问句实体链接是知识图谱问答实现问句语义理解、意图识别的一个根本任务。该任务从问句中识别出实体提及并链接到知识图谱中的正确实体上,问句实体链接的结果示例如表1所示,其中问句“A获得哪些冠军”中“A”被识别为一个实体提及,并将其链接到知识图谱中的“网球运动员:A”实体上,而不是“歌手:A”实体上。
[0004]表1问句实体链接结果示例
[0005][0006]问句实体链接包括实体提及抽取与实体消歧两个子任务,前者从问句中识别出所包含的实 ...
【技术保护点】
【技术特征摘要】
1.一种知识图谱问答问句实体链接方法,其特征在于,包括:对用户问句进行编码,得到用户问句的编码表示;获取知识图谱中每个实体各自对应的实体描述的编码表示以及每个实体各自对应的实体经验化知识的编码表示;根据用户问句的编码表示以及知识图谱中每个实体各自对应的实体经验化知识的编码表示,生成知识图谱中每个实体各自对应的与用户问句相关的经验化知识编码表示;将每个实体各自对应的实体描述的编码表示和与用户问句相关的经验化知识编码表示进行融合,得到每个实体各自对应的背景知识编码表示;根据每个实体各自对应的背景知识编码表示以及用户问句的编码表示,生成用户问句新编码表示;根据所述用户问句新编码表示以及预设的神经网络得到用户问句的M个实体提及预测结果,其中,每个所述实体提及预测结果包括:用户问句中的连续的组成单元以及该连续的组成单元为实体提及的概率,M为大于0的整数;分别针对每个所述连续的组成单元通过匹配算法从知识图谱中的所有实体中筛选出匹配度最高的N个实体,N为大于0的整数;针对每个所述连续的组成单元,分别计算该连续的组成单元的编码表示与该连续的组成单对应的N个实体中的每个实体的背景知识编码表示的内积,对计算出的内积进行归一化处理,得到该连续的组成单对应的N个实体的概率分布,根据所述概率分布确定出该连续的组成单对应的N个实体中的概率最高的实体;根据每个所述连续的组成单元各自对应的为实体提及的概率以及N个实体中的概率最高的实体,得到所述用户问句的实体链接结果。2.根据权利要求1所述的知识图谱问答问句实体链接方法,其特征在于,还包括:将知识图谱中每个实体各自对应的实体名称字符串及实体描述字符串进行拼接,得到拼接后的字符串;对每个实体各自对应的拼接后的字符串进行向量编码,得到每个实体各自对应的实体描述的编码表示。3.根据权利要求1所述的知识图谱问答问句实体链接方法,其特征在于,所述实体经验化知识,包括:包含实体的问句;所述的知识图谱问答问句实体链接方法,还包括:获取知识图谱中每个实体各自对应的所有的包含实体的问句以及每个包含实体的问句中实体的起始位置和终止位置;分别针对每个包含实体的问句,先对包含实体的问句的字符串进行向量编码,得到每个包含实体的问句的字符串中各个组成单元的编码向量,然后确定包含实体的问句中起始位置和终止位置之间的全部组成单元,并将这些组成单元的编码向量按位求均值,得到求均值结果,每个包含实体的问句对应的求均值结果为该包含实体的问句对应的实体的一个实体经验化知识的编码表示。4.根据权利要求1所述的知识图谱问答问句实体链接方法,其特征在于,所述对用户问句进行编码,得到用户问句的编码表示,具体包括:将用户问句的字符串输入到编码器中,编码器将用户问句的字符串切分成多个单元并生成每个单元各自对应的编码向量;
将每个单元各自对应的编码向量进行纵向拼接,得到用户问句编码矩阵。5.根据权利要求4所述的知识图谱问答问句实体链接方法,其特征在于,所述根据用户问句的编码表示以及知识图谱中每个实体各自对应的实体经验化知识的编码表示,生成知识图谱中每个实体各自对应的与用户问句相关的经验化知识编码表示,具体包括:将知识图谱中每个实体各自对应的所有实体经验化知识的编码表示进行纵向拼接,得到每个实体各自对应的实体经验化知识编码矩阵;分别针对知识图谱中的每个实体,先计算用户问句编码矩阵与实体对应的实体经验化知识编码矩阵的转置矩阵的乘积,得到第一乘积矩阵,然后对所述第一乘积矩阵进行各行求和得到第一权重矩阵,最后计算所述第一权重矩阵与该实体对应的实体经验化知识编码矩阵的乘积,得到该实体对应的与用户问句相关的经验化知识编码表示。6.根据权利要求4所述的知识图谱问答问句实体链接方法,其特征在于,所述根据每个实体各自对应的背景知识编码表示以及用户问句的编码表示,生成用户问句新编码表示,具体包括:将知识图谱中全部实体的背景知识编码表示进行纵向拼接,得到背景知识编码矩阵;计算用户问句编码矩阵与背景知识编码矩阵的转置矩阵的乘积,得到第二乘积矩阵,然后对所述第二乘积矩阵的按列进行归一化处理,得到第二权重矩阵,计算所述第二权重矩阵与背景知识编码矩阵的乘积,将该乘积与用户问句编码矩阵进行按位相加得到用户问句新编码表示。7.根据权利要求1所述的知识图谱问答问句实体链接方法,其特征在于,所述根据所述用户问句新编码表示以及预设的神经网络得到用户问句的M个实体提及预测结果,具体包括:根据所述用户问句中的每个组成单元在所述用户问句新编码表示中对应的编码向量以及预设的神经网络,分别确定出所述用户问句中的每个组成单元各自对应的作为实体提及起始单元的概率、作为实体提及结束单元的概率以及作为实体提及组成单元的概率;根据所述用户问句中的每个组成单元各自对应的作为实体提及起始单元的概率、作为实体提及结束单元的概率以及作为实体提及组成单元的概率,确定所述用户问句中任意连续的组成单元作为实体提及的概率;根据所述用户问句中任意连续的组成单元作为实体提及的概率筛选出M个连续的组成单元并生成M个实体提及预测结果。8.根据权利要求1所述的知识图谱问答问句实体链接方法,其特征在于,还包括:针对每个所述连续的组成单元,将连续的组成单元中的每个组成单元在所述用户问句新编码表示中对应的编码向量按位求均值,分别得到每个所述连续的组成单元各自的编码表示。9.根据权利要求1所述的知识图谱问答问句实体链接方法,其特征在于,所述根据每个所述连续的组成单元各自对应的为实体提及的概率以及N个实体中的概率最高的实体,得到所述用户问句的实体链接结果,具体包括:针对每个所述连续的组成单元,将连续的组成单元对应的为实体提及的概率与该连续的组成单元对应的N个实体中的概率最高的实体的概率值相乘,得到该连续的组成单元对应的乘积结果;
根据每个所述连续的组成单元各自对应的乘积结果确定所述用户问句的实体链接结果。10.一种知识图谱问答问句实体链接装置,其特征在于,包括:用户问句编码模块,用于对用户问句进行编码,得到用户问句的编码表示;编码表示获取模块,用于获取知识图谱中每个实体各自对应的实体描述的编码表示以及每个实体各自对应的实体经验化知识的编码表示;与用户问句相关的经验化知识编码表示生成模块,用于根据用户问句的编码表示以及知识图谱中每...
【专利技术属性】
技术研发人员:汪美玲,侯志荣,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。