基于知识库的数据清洗方法及装置制造方法及图纸

技术编号:24289734 阅读:52 留言:0更新日期:2020-05-26 20:05
本发明专利技术提供了一种基于知识库的数据清洗方法、装置、计算机可读存储介质和终端,包括:提取知识库中的主知识点和主知识点对应的子知识点,并将主知识点与对应的子知识点组成预检测数据对;将预检测数据对输入基于注意力机制的深度学习模型,获取预检测数据对中,主知识点的第一整体语义特征与子知识点的第二整体语义特征之间的匹配值;将匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。本发明专利技术通过注意力机制,能够提取知识库中的知识点的整体语义特征,并利用知识点的整体语义特征,更加精确的计算知识点之间的匹配值,能够提高数据清洗操作的效率和准确率。

Data cleaning method and device based on knowledge base

【技术实现步骤摘要】
基于知识库的数据清洗方法及装置
本专利技术属于计算机
,特别是涉及一种基于知识库的数据清洗方法、装置、计算机可读存储介质和终端。
技术介绍
随着人工智能技术的不断发展,基于文本语义匹配的神经语言程序学(NLP,Neuro-LinguisticProgramming)技术正在许多业务场景中使用,并且这些技术的应用依赖于知识库。现有技术中,知识库中的数据的储存形式是包含知识点数据集,每个知识点具有相关子知识点以及对应的答案,目前,可以通过以深度学习为基础的知识库检测方法,对知识库中的不符合业务需求的数据进行清洗,具体为:通过深度学习算法,提取各个知识点的语义特征,并利用语义特征的匹配,来判断主知识点和子知识点之间是否语义匹配,从而对不匹配的知识点进行清洗。但是,目前方案中,当前基于深度学习的知识库数据清洗技术,只能提取知识点文本的局部语义特征,使得知识点之间的匹配精度较差,导致知识库的数据清洗操作误差率较大。
技术实现思路
有鉴于此,本专利技术提供一种基于知识库的数据清洗方法、装置、计算机可读存储介质和终端,在一定程度上解决了目前方案中知识点之间的匹配精度较差,导致知识库的数据清洗操作误差率较大的问题。依据本专利技术的第一方面,提供了一种基于知识库的数据清洗方法,该方法可以包括:提取知识库中的主知识点和所述主知识点对应的子知识点,并将所述主知识点与对应的子知识点组成预检测数据对;将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;将所述匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。依据本专利技术的第二方面,提供了一种基于知识库的数据清洗装置,该装置可以包括:提取模块,用于提取知识库中的主知识点和所述主知识点对应的子知识点,并将所述主知识点与对应的子知识点组成预检测数据对;匹配值计算模块,用于将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;纠错模块,用于将所述匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。可选的,所述匹配值计算模块,包括:提取子模块,用于在所述深度学习模型中,提取所述主知识点的第一整体语义特征,以及所述子知识点的第二整体语义特征;全局语义匹配子模块,用于在所述深度学习模型中,根据所述第一整体语义特征和所述第二整体语义特征,确定所述匹配值。可选的,所述深度学习模型包括:词嵌入层和双向长短时记忆网络层;所述提取子模块,包括:词嵌入单元,用于将所述预检测数据对输入所述词嵌入层,得到词向量序列,所述词向量序列中,所述主知识点与所述子知识点的词汇长度相同;双向长短时记忆网络单元,用于将所述词向量序列输入所述双向长短时记忆网络层,得到所述主知识点的第一上下文语义特征,以及所述子知识点的第二上下文语义特征;注意力机制单元,用于按照所述注意力机制,确定所述第一上下文语义特征基于所述第二上下文语义特征的第一整体语义特征,以及所述第二上下文语义特征基于所述第一上下文语义特征的第二整体语义特征。可选的,所述全局语义匹配子模块包括:矩阵单元,用于确定所述第一整体语义特征和所述第二整体语义特征之间的相似度矩阵;匹配单元,用于根据所述相似度矩阵,确定所述匹配值。可选的,所述匹配单元包括:池化子单元,用于通过所述深度学习模型的池化层选取所述相似度矩阵中相似度值最大的目标特征点,并将所述目标特征点组成第一特征向量;全连接子单元,用于将所述第一特征向量输入所述深度学习模型的全连接层进行处理,得到第二特征向量;归一处理子单元,用于对所述第二特征向量进行分类处理,得到所述匹配值。可选的,所述装置还包括:建立模块,用于根据预设的业务数据语料,训练得到所述深度学习模型。可选的,所述建立模块,包括:语料子模块,用于根据所述业务数据语料,得到训练主知识点和训练子知识点;建立子模块,用于根据所述训练主知识点和所述训练子知识点,建立训练数据对,并为所述训练数据对添加对应的标记;训练子模块,用于通过所述训练数据对,训练所述深度学习模型,得到所述深度学习模型对应的模型参数。第三方面,本专利技术实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于知识库的数据清洗方法的步骤。第四方面,本专利技术实施例提供了一种终端,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的基于知识库的数据清洗方法的步骤。针对在先技术,本专利技术具备如下优点:本专利技术提供的一种基于知识库的数据清洗方法,包括:提取知识库中的主知识点和主知识点对应的子知识点,并将主知识点与对应的子知识点组成预检测数据对;将预检测数据对输入基于注意力机制的深度学习模型,获取预检测数据对中,主知识点的第一整体语义特征与子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;将匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。本专利技术通过注意力机制,能够提取知识库中的知识点的全局语义特征,并利用知识点的全局语义特征,更加精确的计算知识点之间的匹配值,使得在通过知识点之间的匹配值进行知识库数据清洗操作时,能够提高数据清洗操作的效率和准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例提供的一种基于知识库的数据清洗方法的步骤流程图;图2是本专利技术实施例提供的另一种基于知识库的数据清洗方法的步骤流程图;图3是本专利技术实施例提供的一种基于知识库的数据清洗方法的业务应用流程图;图4是本专利技术实施例提供的一种基于知识库的数据清洗装置的框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术本文档来自技高网...

【技术保护点】
1.一种基于知识库的数据清洗方法,其特征在于,所述方法包括:/n提取知识库中的主知识点和所述主知识点对应的子知识点,并将所述主知识点与对应的子知识点组成预检测数据对;/n将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;/n将所述匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。/n

【技术特征摘要】
1.一种基于知识库的数据清洗方法,其特征在于,所述方法包括:
提取知识库中的主知识点和所述主知识点对应的子知识点,并将所述主知识点与对应的子知识点组成预检测数据对;
将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;
将所述匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。


2.根据权利要求1所述的方法,其特征在于,所述将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,包括:
在所述深度学习模型中,提取所述主知识点的第一整体语义特征,以及所述子知识点的第二整体语义特征;
在所述深度学习模型中,根据所述第一整体语义特征和所述第二整体语义特征,确定所述匹配值。


3.根据权利要求2所述的方法,其特征在于,所述深度学习模型包括:词嵌入层和双向长短时记忆网络层;
所述在所述深度学习模型中,提取所述主知识点的第一整体语义特征,以及所述子知识点的第二整体语义特征,包括:
将所述预检测数据对输入所述词嵌入层,得到词向量序列,所述词向量序列中,所述主知识点与所述子知识点的词汇长度相同;
将所述词向量序列输入所述双向长短时记忆网络层,得到所述主知识点的第一上下文语义特征,以及所述子知识点的第二上下文语义特征;
按照所述注意力机制,确定所述第一上下文语义特征基于所述第二上下文语义特征的第一整体语义特征,以及所述第二上下文语义特征基于所述第一上下文语义特征的第二整体语义特征。


4.根据权利要求3所述的方法,其特征在于,所述在所述深度学习模型中,根据所述第一整体语义特征和所述第二整体语义特征,确定所述匹配值,包括:
确定所述第一整体语义特征和所述第二整体语义特征之间的相似度矩阵;
根据所述相似度矩阵,确定所述匹配值。

...

【专利技术属性】
技术研发人员:李渊潘申龄刘设伟
申请(专利权)人:泰康保险集团股份有限公司泰康在线财产保险股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1