【技术实现步骤摘要】
一种基于融合知识图谱的文本处理方法及装置
本申请实施例涉及智能交互领域,尤其涉及一种基于融合知识图谱的文本处理方法及装置。
技术介绍
在智能交互领域,通常需要先对语料数据进行处理,以形成相应的知识库,进而可以在接收到用户的输入文本后,使用文本匹配技术从知识库中找出与输入文本最相关的文本信息并反馈至用户。例如,在搜索场景中,匹配引擎找出与查询的内容最相关的一些文档作为结果返回给用户。在智能问答场景中,根据用户输入的问题通过匹配引擎找出与问题匹配度最高的答案,并将答案返回给用户。其中,文本匹配技术可以是基于关键词的文本匹配技术或基于语义的文本匹配技术。然而,基于关键词的文本匹配技术需要管理员维护知识库,文本中的关键词必须与知识库中的关键词完全相同,对于大多数近义说法都无法准确匹配,因此,基于关键词的文本匹配技术匹配严格且覆盖率低。基于语义的文本匹配技术通过深度神经网络将文本中的关键词用向量表示映射到语义空间中,然后计算文本信息对应的向量在语义空间上的距离,若文本信息对应的向量在语义空间上的距离小于阈值,则得到文本的匹配结 ...
【技术保护点】
1.一种基于融合知识图谱的文本处理方法,其特征在于,包括:/n根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,所述第一分词文本包括至少一个分词;/n根据所述第一分词文本获取第一序列化实体向量,所述第一序列化实体向量为所述第一分词文本的序列化实体向量,所述第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;/n获取X个知识状态子图,所述X个知识状态子图中每个知识状态子图包括至少一个节点,所述节点表示知识自动机的状态,每个所述节点连接至少一条边,所述一条边对应一个实体向量,X为大于或等于1的整数;/n利用路径匹配算法根据所述第一序列化实 ...
【技术特征摘要】
1.一种基于融合知识图谱的文本处理方法,其特征在于,包括:
根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,所述第一分词文本包括至少一个分词;
根据所述第一分词文本获取第一序列化实体向量,所述第一序列化实体向量为所述第一分词文本的序列化实体向量,所述第一序列化实体向量包括Z个按照逻辑顺序排序的实体向量,Z为大于或等于1的整数;
获取X个知识状态子图,所述X个知识状态子图中每个知识状态子图包括至少一个节点,所述节点表示知识自动机的状态,每个所述节点连接至少一条边,所述一条边对应一个实体向量,X为大于或等于1的整数;
利用路径匹配算法根据所述第一序列化实体向量中第i个实体向量、所述第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从所述X个知识状态子图中确定Y个目标知识状态子图,i为整数,i取1至Z,j为整数,j取1至X,k为整数,k取1至F,F为大于等于1的整数,F表示所述第j个知识状态子图包括的节点的个数,Y为大于等于0且小于等于X的整数;
将所述Y个目标知识状态子图对应的文本确定为所述输入文本的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述利用路径匹配算法根据所述第一序列化实体向量中第i个实体向量、所述第j知识状态子图的第k个节点的边对应的实体向量和融合知识图谱从所述X个知识状态子图中确定Y个目标知识状态子图,具体包括:
根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量,所述第一关系表示向量为所述第i个实体向量与所述第k个节点的边对应的实体向量之间的关系表示向量,所述至少一个第一关系表示向量包括同构关系表示向量和/或异构关系表示向量;
根据所述至少一个第一关系表示向量、所述第i个实体向量和所述第k个节点的边对应的实体向量获取第i实体向量路径值,所述第i实体向量路径值为所述第i个实体向量与所述第k个节点的边对应的实体向量的路径值;
判断所述第i实体向量路径值是否小于路径阈值;
若所述第i实体向量路径值小于所述路径阈值,确定所述第k个节点为所述第j知识状态子图的终止节点,将所述第j知识状态子图确定为目标知识状态子图。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量之前,所述方法还包括:
确定所述第i个实体向量对应的实体与所述第k个节点的边对应的实体向量对应的实体是否是同类型的实体;
若是,根据所述第i个实体向量和所述第k个节点的边对应的实体向量从所述融合知识图谱中获取至少一个第一关系表示向量。
4.根据权利要求3所述的方法,其特征在于,在所述判断所述第i实体向量路径值是否小于路径阈值之后,所述方法还包括:
若所述第i实体向量路径值小于所述路径阈值,确定所述第k个节点不是所述第j知识状态子图的终止节点,从所述第k个节点跳转到所述第j知识状态子图的第k+1个节点,k+1小于或等于F。
5.根据权利要求3所述的方法,其特征在于,在所述判断所述第i实体向量路径值是否小于路径阈值之后,所述方法还包括:
若所述第i实体向量路径值大于或等于所述路径阈值,确定所述第j知识状态子图停止跳转。
6.根据权利要求3所述的方法,其特征在于,若所述第j知识状态子图的第k个节点对应至少两条边,每条边对应一个实体向量,在所述判断所述第i实体向量路径值是否小于路径阈值之后,所述方法还包括:
若所述第i实体向量路径值大于或等于所述路径阈值,确定从所述第k个节点跳转到所述第k个节点。
7.根据权利要求1-6中任一项所述的方法,其特征在于,若Y=0,所述方法还包括:
基于所述融合知识图谱扩展所述第一序列化实体向量;
根据扩展后的所述第一序列化实体向量和所述路径匹配算法获取所述目标知识状态子图。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述第一分词文本获取第一序列化实体向量,具体包括:
根据所述第一分词文本从融合知识图谱获取所述第一序列化实体向量,所述融合知识图谱包括N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量和所述N个实体中的异构关系表示向量,所述N个实体来源于M个知识库,所述同构关系表示向量为来源于同一个知识库的实体之间的关系表示向量,所述异构关系表示向量为来源于不同知识库的实体之间的关系表示向量,不同的知识库包括不同类型的实体,N为大于等于2的整数,M为大于等于2的整数。
9.根据权利要求8所述的方法,其特征在于,在所述根据第一分词文本从融合知识图谱获取所述第一序列化实体向量之前,所述方法还包括:
利用知识抽取从知识源中获取N个实体、N个实体的实体概念描述和N个实体中的同构关系表示向量;
根据所述N个实体的实体概念描述获取所述N个实体中的异构关系表示向量;
根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量和所述N个实体中的异构关系表示向量构建融合知识图谱。
10.根据权利要求9所述的方法,其特征在于,所述根据所述N个实体的实体概念描述获取所述N个实体中的异构关系表示向量,具体包括:
根据第n个实体的实体概念描述获取所述第n个实体的实体概念描述对应的具有次序关系的Pn个关键词向量,Pn表示所述第n个实体的实体概念描述对应的具有次序关系的关键词向量的个数,Pn为大于等于1的整数,n为整数,n取1至N;
将N个实体的实体概念描述对应的具有次序关系的关键词向量输入到深度神经网络模型,得到N个实体向量;
获取所述N个实体向量的Q个关系表示向量,所述关系表示向量表示所述N个实体向量中任意两个实体向量之间的关系,Q为大于等于1的整数;
根据所述Q个关系表示向量和关系表示向量阈值确定所述N个实体中的异构关系表示向量。
11.根据权利要求9或10所述的方法,其特征在于,所述根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系和所述N个实体中的异构关系构建融合知识图谱,包括:
根据所述N个实体、所述N个实体的实体概念描述、所述N个实体中的同构关系表示向量、所述N个实体中的异构关系表示向量、所述N个实体的实体向量、别名向量和领域知识向量构建所述融合知识图谱,所述别名向量表示同一个实体的另一种名称的向量,所述领域知识向量表示实体所属的领域的向量。
12.根据权利要求9-11中任一项所述的方法,其特征在于,在构建融合知识图谱之后,所述方法还包括:
获取第n+1个实体的实体概念描述;
根据所述第n+1个实体的实体概念描述获取具有次序关系的Pn+1个关键词向量;
将具有次序关系的Pn+1个关键词向量输入到所述深度神经网络模型,得到所述第n+1个实体对应的实体向量;
获取所述第n+1个实体对应的实体向量和所述融合知识图谱中的实体向量间的关系表示向量;
根据所述第n+1个实体对应的实体向量和所述融合知识图谱中的实体向量间的关系表示向量将所述第n+1个实体和所述第n+1个实体对应的实体向量融入所述融合知识图谱,得到更新后的融合知识图谱。
13.一种生成知识状态子图的方法,其特征在于,包括:
根据分词技术对预设文本进行分词处理,得到第二分词文本;
根据所述第二分词文本获取第二序列化实体向量,所述第二序列化实体向量为所述第二分词文本的序列化实体向量,所述第二序列化实体向量包括S个按照逻辑顺序排序的实体向量,S为大于或等于1的整数;
根据所述第二序列化实体向量生成第一知识状态子图,所述第一知识状态子图包括W个节点,一个所述节点表示第一知识自动机的一个状态,所述W个节点中每个节点连接至少一条边,一条边对应一个实体向量。
14.一种文本处理装置,其特征在于,包括:
分词处理单元,用于根据分词技术对用户输入的输入文本进行分词处理,得到第一分词文本,所述第一分词文本包括至少一个分词;
获取单元,用于根据...
【专利技术属性】
技术研发人员:徐传飞,晏小辉,蒋洪睿,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。