文本处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:29330605 阅读:13 留言:0更新日期:2021-07-20 17:48
本公开提供了一种文本处理方法、装置、设备以及存储介质,涉及计算机技术领域,旨在提高查询结果的准确性,所述方法包括:获得查询文本;根据所述查询文本,从知识图谱中提取所述查询文本对应的子图;对所述子图进行序列化处理,得到序列化子图;利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,其中,所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入,对预设模型进行训练得到的;根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配。

【技术实现步骤摘要】
文本处理方法、装置、设备以及存储介质
本申请涉及计算机
,特别是涉及一种文本处理方法、装置、设备及存储介质。
技术介绍
KBQA是一种基于知识图谱的问答技术,其主要任务是将自然语言问题(NLQ)通过不同方法映射到结构化的查询,并在知识图谱中获取答案。相比非结构化文本问答方法利用图谱丰富的语义关联信息,能够深入理解用户问题、解决更多复杂推理类问题。相关技术中,基于知识图谱的问答技术一般采用两种方式,一种是InformationRetrieval(信息检索),该方法使用端到端的方式获得查询结果,例如,先抽取用户问题中核心信息,然后根据核心信息定位到图谱中确定子图,最后生成答案。但是,此种方式需要对问题和图谱(子图)分别处理为向量后才能计算两者相关性,适应性差。另一种是SemanticParser(语义分析),该方法核心思想是把用户的问题转换为机器的查询语句,从查询知识图谱中查询到答案。但是,此种方式扩展性比较差,对于每一类问题都要做响应策略,很难全覆盖。因而,上述两种方式的问答技术均具有一定局限性,无法得到准确度较高的查询结果。
技术实现思路
为了解决上述问题,本申请提供了一种文本处理方法、装置、设备及存储介质,旨在提高查询结果的准确度。本公开实施例的第一方面,提供了一种文本处理方法,所述方法包括:获得查询文本;根据所述查询文本,从知识图谱中提取所述查询文本对应的子图;对所述子图进行序列化处理,得到序列化子图;利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,其中,所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入,对预设模型进行训练得到的;根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配。可选地,在所述序列化子图的数量是多个的情况下,利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,包括:利用预先训练的注意力模型,预测多个序列化子图各自与所述查询文本之间的注意力得分;根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配,包括:根据所述多个序列化子图各自对应的注意力得分,将所述多个序列化子图中的至少一个序列化子图,确定为与所述查询文本匹配的序列化子图。可选地,在根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配之后,所述方法还包括:在所述序列化子图与所述查询文本匹配的情况下,从所述序列化子图中提取所述知识图谱中的实体;将提取的实体确定为所述查询文本的查询结果。可选地,根据所述查询文本,从知识图谱中提取所述查询文本对应的子图,包括:对所述查询文本进行实体识别;在所述知识图谱中确定与识别出的实体之间存在至少一跳的关联关系的候选实体;从所述知识图谱中提取所述识别出的实体与所述候选实体之间的子图;对所述子图进行序列化处理,得到序列化子图,包括:按照所述知识图谱中所述识别出的实体与所述候选实体之间的跳转路径,对所述子图中的各个实体顺序排列,得到序列化子图。可选地,所述方法还包括:根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向,生成所述子图的掩码图;利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,包括:利用预先训练的注意力模型,结合所述子图的掩码图,预测所述子图的序列化子图与所述查询文本之间的注意力得分。可选地,所述方法还包括:利用预先训练的注意力模型,预测所述序列化子图中各个实体之间的第一注意力得分,以及,预测所述查询文本中各个词语之间的第二注意力得分;利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,包括:利用预先训练的注意力模型,结合所述第一注意力得分和/或所述第二注意力得分,预测所述子图的序列化子图与所述查询文本之间的注意力得分。可选地,通过以下步骤获得所述多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本:对获取的查询文本样本进行实体识别;在所述知识图谱中确定与识别出的实体样本之间存在至少一条的关联关系的多个候选实体样本;从所述知识图谱中提取所述识别出的实体样本与所述多个候选实体样本之间的多个子图样本;按照所述知识图谱中所述识别出的实体样本与所述多个候选实体样本之间的跳转路径,对所述多个子图样本中的各个实体顺序排列,得到多个序列化子图样本;对所述多个序列化子图样本分别添加标签,所述标签用于标记所述序列化子图样本是否与所述查询文本样本匹配。本专利技术实施例的第二方面,提供一种文本处理装置,所述装置包括:文本获得模块,用于获得查询文本;子图提取模块,用于根据所述查询文本,从知识图谱中提取所述查询文本对应的子图;子图处理模块,用于对所述子图进行序列化处理,得到序列化子图;预测模块,用于利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,其中,所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入,对预设模型进行训练得到的;确定模块,用于根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配。本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如第一方面所述的文本处理方法。本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,能够执行上述第一方面中任一项所述的文本处理方法所执行的操作。采用本申请实施例的技术方案,可以获得查询文本;并根据查询文本,从知识图谱中提取查询文本对应的子图;并对子图进行序列化处理,得到序列化子图;之后,利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,其中,所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入,对预设模型进行训练得到的;最后,根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配。一方面,由于本申请实施例在得到查询文本对应的子图后,可以将子图处理为序列化子图,从而利用注意力模型得到序列化子图与查询文本之间的注意力得分,该注意力得分可以表征序列化子图和查询文本之间的匹配程度,如此,可以根据该注意力得分,确定序列化子图与所述查询文本是否匹配。另一方面,由于将子图和查询文本同时输入到注意力模型,实现了文本和序列图可以在注意力模型中进行匹配,即可以理解为是在同一个空间中进行建模匹配,这样,避免了将查询文本和序列化子图均处理为向量表示后,才能将查询文本和知识图谱中的子图进行比较的问题,从而可以扩大了本申请的适应性。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例或相关技术描述本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n获得查询文本;/n根据所述查询文本,从知识图谱中提取所述查询文本对应的子图;/n对所述子图进行序列化处理,得到序列化子图;/n利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,其中,所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入,对预设模型进行训练得到的;/n根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
获得查询文本;
根据所述查询文本,从知识图谱中提取所述查询文本对应的子图;
对所述子图进行序列化处理,得到序列化子图;
利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,其中,所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入,对预设模型进行训练得到的;
根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配。


2.根据权利要求1所述的方法,其特征在于,在所述序列化子图的数量是多个的情况下,利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,包括:
利用预先训练的注意力模型,预测多个序列化子图各自与所述查询文本之间的注意力得分;
根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配,包括:
根据所述多个序列化子图各自对应的注意力得分,将所述多个序列化子图中的至少一个序列化子图,确定为与所述查询文本匹配的序列化子图。


3.根据权利要求1或2所述的方法,其特征在于,在根据所述注意力得分,确定所述序列化子图与所述查询文本是否匹配之后,所述方法还包括:
在所述序列化子图与所述查询文本匹配的情况下,从所述序列化子图中提取所述知识图谱中的实体;
将提取的实体确定为所述查询文本的查询结果。


4.根据权利要求1所述的方法,其特征在于,根据所述查询文本,从知识图谱中提取所述查询文本对应的子图,包括:
对所述查询文本进行实体识别;
在所述知识图谱中确定与识别出的实体之间存在至少一跳的关联关系的候选实体;
从所述知识图谱中提取所述识别出的实体与所述候选实体之间的子图;
对所述子图进行序列化处理,得到序列化子图,包括:
按照所述知识图谱中所述识别出的实体与所述候选实体之间的跳转路径,对所述子图中的各个实体顺序排列,得到序列化子图。


5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向,生成所述子图的掩码图;
利用预先训练的注意力模型,预测所述序列化子图与所述查询文本之间的注意力得分,包括:
利用预先训练的注意力模型,结合所...

【专利技术属性】
技术研发人员:王思睿张鸿志王瑛瑶张富峥王仲远
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1