【技术实现步骤摘要】
数据处理方法、装置、设备以及介质
本申请涉及互联网
,尤其涉及一种数据处理方法、装置、设备以及介质。
技术介绍
随着人工智能技术的不断发展,自然语言处理技术已经逐渐成为人工智能领域中的重要领域之一,在搜索、翻译、推荐等方向展示了巨大的作用和潜力。医疗领域中存在大量的病历文本、医疗教材、医疗问答等不同类型的医疗文本数据,对医疗文本数据的处理过程中(如病案分析),首先需要对医疗文本数据进行结构化处理,以提取医疗文本数据中的有用信息(如病例名称、病例症状等信息)。在现有的文本结构化中,可以通过字符串匹配的方式,从知识图谱中选择与医疗文本数据相匹配的实体,来表示该医疗文本数据中的有用信息。然而,不同用户在描述医疗文本数据时会存在较大的差异,如医生书写的医疗文本数据为“腹痛”,而患者所输出的医疗文本数据可能为“肚子疼”等,当医疗文本描述稍有变化就难以在知识图谱中匹配到正确的实体,进而造成医疗文本数据在知识图谱中的匹配准确度过低。
技术实现思路
本申请实施例提供一种数据处理方法、装置、设备以及介质,可以 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取目标文本和标准文本,根据知识图谱生成所述目标文本对应的目标实体子图,以及所述标准文本对应的标准实体子图;所述目标实体子图包括第一实体,所述标准实体子图包括第二实体,所述第一实体和所述第二实体均属于所述知识图谱中的实体;/n根据所述第一实体和所述第二实体,生成所述目标实体子图对应的目标图结构特征,以及所述标准实体子图对应的标准图结构特征;/n根据所述目标图结构特征和所述标准图结构特征,确定所述目标实体子图和所述标准实体子图之间的图相似度;所述图相似度用于指示所述目标文本与所述标准文本之间的关联程度。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取目标文本和标准文本,根据知识图谱生成所述目标文本对应的目标实体子图,以及所述标准文本对应的标准实体子图;所述目标实体子图包括第一实体,所述标准实体子图包括第二实体,所述第一实体和所述第二实体均属于所述知识图谱中的实体;
根据所述第一实体和所述第二实体,生成所述目标实体子图对应的目标图结构特征,以及所述标准实体子图对应的标准图结构特征;
根据所述目标图结构特征和所述标准图结构特征,确定所述目标实体子图和所述标准实体子图之间的图相似度;所述图相似度用于指示所述目标文本与所述标准文本之间的关联程度。
2.根据权利要求1所述的方法,其特征在于,所述根据知识图谱生成所述目标文本对应的目标实体子图,以及所述标准文本对应的标准实体子图,包括:
获取所述知识图谱,在所述知识图谱中查找与所述目标文本相匹配的第一实体,根据所述第一实体生成所述目标文本对应的目标实体子图;所述第一实体分别在所述目标实体子图和所述知识图谱中的实体连接结构是相同的;
在所述知识图谱中查找与所述标准文本相匹配的第二实体,根据所述第二实体生成所述标准文本对应的标准实体子图;所述第二实体分别在所述标准实体子图和所述知识图谱中的实体连接结构是相同的。
3.根据权利要求2所述的方法,其特征在于,所述第一实体的数量为M个,M为正整数;
所述在所述知识图谱中查找与所述目标文本相匹配的第一实体,根据所述第一实体生成所述目标文本对应的目标实体子图,包括:
对所述目标文本进行分词处理,得到所述目标文本对应的至少两个字符串;
获取每个字符串分别与所述知识图谱中的实体之间的文本相似度,将所述文本相似度大于相似度阈值的实体,作为与所述目标文本相匹配的M个第一实体;
根据所述M个第一实体,以及所述M个第一实体在所述知识图谱中相互连接的边,生成所述目标文本对应的目标实体子图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述M个第一实体,以及所述M个第一实体在所述知识图谱中相互连接的边,生成所述目标文本对应的目标实体子图,包括:
获取所述M个第一实体中的任意两个第一实体;
若所述任意两个第一实体在所述知识图谱中存在相连的边,则根据所述M个第一实体以及所述任意两个第一实体之间的边,生成所述目标文本对应的目标实体子图;
若所述任意两个第一实体在所述知识图谱中不存在相连的边,则在所述知识图谱中获取所述任意两个第一实体之间的最短实体路径,根据所述M个第一实体以及所述最短实体路径中所包含的实体和边,生成所述目标文本对应的目标实体子图。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体和所述第二实体,生成所述目标实体子图对应的目标图结构特征,以及所述标准实体子图对应的标准图结构特征,包括:
根据所述第一实体在所述目标实体子图中的实体连接结构,生成所述第一实体对应的第一初始实体向量;
将所述第一初始实体向量输入至图卷积网络,根据所述图卷积网络对所述第一初始实体向量进行信息编码,生成所述第一初始实体向量对应的第一实体编码向量;
根据所述第二实体在所述标准实体子图中的实体连接结构,生成所述第二实体对应的第二初始实体向量;
将所述第二初始实体向量输入至所述图卷积网络,根据所述图卷积网络对所述第二初始实体向量进行信息编码,生成所述第二初始实体向量对应的第二实体编码向量;
根据所述第一实体编码向量和所述第二实体编码向量,生成所述目标实体子图对应的目标图结构特征;
根据所述第一实体编码向量和所述第二实体编码向量,生成所述标准实体子图对应的标准图结构特征。
6.根据权利要求5所述的方法,其特征在于,所述图卷积网络包括第一网络层和第二网络层,所述第一网络层和所述第二网络层在所述图卷积网络中为相邻连接结构;
所述根据所述图卷积网络对所述第一初始实体向量进行信息编码,生成所述第一初始实体向量对应的第一实体编码向量,包括:
获取所述第一实体对应的邻接矩阵,根据所述第一初始实体向量、所述邻接矩阵以及所述图卷积网络中输入层对应的参数矩阵,生成所述第一网络层对应的第一隐藏状态矩阵;
根据所述第一隐藏状态矩阵,以及所述第一网络层对应的参数矩阵,生成所述第二网络层对应的第二隐藏状态矩阵;
获取所述图卷积网络中的门控函数,根据所述门控函数确定所述第一隐藏状态矩阵和所述第二隐藏状态矩阵分别对应的矩阵影响权重;
根据所述矩阵影响权重、所述第一隐藏状态矩阵以及所述第二隐藏状态矩阵,确定所述第一初始实体向量对应的第...
【专利技术属性】
技术研发人员:向玥佳,林镇溪,陈曦,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。