基于知识库的数据清洗方法及装置制造方法及图纸

技术编号:24289734 阅读:58 留言:0更新日期:2020-05-26 20:05
本发明专利技术提供了一种基于知识库的数据清洗方法、装置、计算机可读存储介质和终端,包括:提取知识库中的主知识点和主知识点对应的子知识点,并将主知识点与对应的子知识点组成预检测数据对;将预检测数据对输入基于注意力机制的深度学习模型,获取预检测数据对中,主知识点的第一整体语义特征与子知识点的第二整体语义特征之间的匹配值;将匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。本发明专利技术通过注意力机制,能够提取知识库中的知识点的整体语义特征,并利用知识点的整体语义特征,更加精确的计算知识点之间的匹配值,能够提高数据清洗操作的效率和准确率。

Data cleaning method and device based on knowledge base

【技术实现步骤摘要】
基于知识库的数据清洗方法及装置
本专利技术属于计算机
,特别是涉及一种基于知识库的数据清洗方法、装置、计算机可读存储介质和终端。
技术介绍
随着人工智能技术的不断发展,基于文本语义匹配的神经语言程序学(NLP,Neuro-LinguisticProgramming)技术正在许多业务场景中使用,并且这些技术的应用依赖于知识库。现有技术中,知识库中的数据的储存形式是包含知识点数据集,每个知识点具有相关子知识点以及对应的答案,目前,可以通过以深度学习为基础的知识库检测方法,对知识库中的不符合业务需求的数据进行清洗,具体为:通过深度学习算法,提取各个知识点的语义特征,并利用语义特征的匹配,来判断主知识点和子知识点之间是否语义匹配,从而对不匹配的知识点进行清洗。但是,目前方案中,当前基于深度学习的知识库数据清洗技术,只能提取知识点文本的局部语义特征,使得知识点之间的匹配精度较差,导致知识库的数据清洗操作误差率较大。
技术实现思路
有鉴于此,本专利技术提供一种基于知识库的数据清洗方法、装置、计算机可读存储介本文档来自技高网...

【技术保护点】
1.一种基于知识库的数据清洗方法,其特征在于,所述方法包括:/n提取知识库中的主知识点和所述主知识点对应的子知识点,并将所述主知识点与对应的子知识点组成预检测数据对;/n将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;/n将所述匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。/n

【技术特征摘要】
1.一种基于知识库的数据清洗方法,其特征在于,所述方法包括:
提取知识库中的主知识点和所述主知识点对应的子知识点,并将所述主知识点与对应的子知识点组成预检测数据对;
将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,所述整体语义特征包括上下文语义特征和全局语义特征;
将所述匹配值小于或等于预设阈值的预检测数据对中的子知识点,发送至纠错服务器。


2.根据权利要求1所述的方法,其特征在于,所述将所述预检测数据对输入基于注意力机制的深度学习模型,获取所述预检测数据对中,所述主知识点的第一整体语义特征与所述子知识点的第二整体语义特征之间的匹配值,包括:
在所述深度学习模型中,提取所述主知识点的第一整体语义特征,以及所述子知识点的第二整体语义特征;
在所述深度学习模型中,根据所述第一整体语义特征和所述第二整体语义特征,确定所述匹配值。


3.根据权利要求2所述的方法,其特征在于,所述深度学习模型包括:词嵌入层和双向长短时记忆网络层;
所述在所述深度学习模型中,提取所述主知识点的第一整体语义特征,以及所述子知识点的第二整体语义特征,包括:
将所述预检测数据对输入所述词嵌入层,得到词向量序列,所述词向量序列中,所述主知识点与所述子知识点的词汇长度相同;
将所述词向量序列输入所述双向长短时记忆网络层,得到所述主知识点的第一上下文语义特征,以及所述子知识点的第二上下文语义特征;
按照所述注意力机制,确定所述第一上下文语义特征基于所述第二上下文语义特征的第一整体语义特征,以及所述第二上下文语义特征基于所述第一上下文语义特征的第二整体语义特征。


4.根据权利要求3所述的方法,其特征在于,所述在所述深度学习模型中,根据所述第一整体语义特征和所述第二整体语义特征,确定所述匹配值,包括:
确定所述第一整体语义特征和所述第二整体语义特征之间的相似度矩阵;
根据所述相似度矩阵,确定所述匹配值。

...

【专利技术属性】
技术研发人员:李渊潘申龄刘设伟
申请(专利权)人:泰康保险集团股份有限公司泰康在线财产保险股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1