文本处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：29330605 阅读：13 留言：0更新日期：2021-07-20 17:48

本公开提供了一种文本处理方法、装置、设备以及存储介质，涉及计算机技术领域，旨在提高查询结果的准确性，所述方法包括：获得查询文本；根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；对所述子图进行序列化处理，得到序列化子图；利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、设备以及存储介质
本申请涉及计算机
，特别是涉及一种文本处理方法、装置、设备及存储介质。
技术介绍
KBQA是一种基于知识图谱的问答技术，其主要任务是将自然语言问题(NLQ)通过不同方法映射到结构化的查询，并在知识图谱中获取答案。相比非结构化文本问答方法利用图谱丰富的语义关联信息，能够深入理解用户问题、解决更多复杂推理类问题。相关技术中，基于知识图谱的问答技术一般采用两种方式，一种是InformationRetrieval(信息检索)，该方法使用端到端的方式获得查询结果，例如，先抽取用户问题中核心信息，然后根据核心信息定位到图谱中确定子图，最后生成答案。但是，此种方式需要对问题和图谱(子图)分别处理为向量后才能计算两者相关性，适应性差。另一种是SemanticParser(语义分析)，该方法核心思想是把用户的问题转换为机器的查询语句，从查询知识图谱中查询到答案。但是，此种方式扩展性比较差，对于每一类问题都要做响应策略，很难全覆盖。因而，上述两种方式的问答技术均具有一定局限性，无法得到准确度较高的查询结果。
技术实现思路
为了解决上述问题，本申请提供了一种文本处理方法、装置、设备及存储介质，旨在提高查询结果的准确度。本公开实施例的第一方面，提供了一种文本处理方法，所述方法包括：获得查询文本；根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；对所述子图进行序列化处理，得到序列化子图；利用预先训练的注意力模型，预测...

【技术保护点】
1.一种文本处理方法，其特征在于，所述方法包括：/n获得查询文本；/n根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；/n对所述子图进行序列化处理，得到序列化子图；/n利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；/n根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。/n

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：
获得查询文本；
根据所述查询文本，从知识图谱中提取所述查询文本对应的子图；
对所述子图进行序列化处理，得到序列化子图；
利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，其中，所述注意力模型是以多个查询文本样本及所述多个查询文本样本各自对应的序列化子图样本为输入，对预设模型进行训练得到的；
根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配。

2.根据权利要求1所述的方法，其特征在于，在所述序列化子图的数量是多个的情况下，利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：
利用预先训练的注意力模型，预测多个序列化子图各自与所述查询文本之间的注意力得分；
根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配，包括：
根据所述多个序列化子图各自对应的注意力得分，将所述多个序列化子图中的至少一个序列化子图，确定为与所述查询文本匹配的序列化子图。

3.根据权利要求1或2所述的方法，其特征在于，在根据所述注意力得分，确定所述序列化子图与所述查询文本是否匹配之后，所述方法还包括：
在所述序列化子图与所述查询文本匹配的情况下，从所述序列化子图中提取所述知识图谱中的实体；
将提取的实体确定为所述查询文本的查询结果。

4.根据权利要求1所述的方法，其特征在于，根据所述查询文本，从知识图谱中提取所述查询文本对应的子图，包括：
对所述查询文本进行实体识别；
在所述知识图谱中确定与识别出的实体之间存在至少一跳的关联关系的候选实体；
从所述知识图谱中提取所述识别出的实体与所述候选实体之间的子图；
对所述子图进行序列化处理，得到序列化子图，包括：
按照所述知识图谱中所述识别出的实体与所述候选实体之间的跳转路径，对所述子图中的各个实体顺序排列，得到序列化子图。

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：
根据所述子图中每两个实体之间是否相邻以及每两个实体之间的跳转方向，生成所述子图的掩码图；
利用预先训练的注意力模型，预测所述序列化子图与所述查询文本之间的注意力得分，包括：
利用预先训练的注意力模型，结合所...

【专利技术属性】
技术研发人员：王思睿，张鸿志，王瑛瑶，张富峥，王仲远，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人