一种识别匹配字段的方法、装置及设备制造方法及图纸

技术编号:24035717 阅读:34 留言:0更新日期:2020-05-07 01:50
本申请实施例公开了一种识别匹配字段的方法、装置及设备,在识别匹配字段时,先确定待识别字段对应的数据项与目标字段是否匹配,再根据待识别字段对应的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。由于待识别字段与目标字段表现形式不统一,无法直接进行匹配,而是利用可以表征待识别字段的数据项与目标字段进行匹配,从而实现匹配字段的识别。另外,针对不同的目标字段采用不同的识别方式,提高识别数据项的效率。

A method, device and equipment for identifying matching fields

【技术实现步骤摘要】
一种识别匹配字段的方法、装置及设备
本申请涉及信息技术处理领域,具体涉及一种识别匹配字段的方法、装置及设备。
技术介绍
随着互联网技术的迅速普及和发展,各个应用领域会产生大量的数据。同一领域由于不同用户的配置不同,使得所产生的数据表现形式各不相同,例如对于同一事物存在多种描述方式,导致数据库中的数据存在个性化。在实际应用中,当从数据库中查找同一类数据时,由于数据的个性化表现导致无法查找到所需的数据。
技术实现思路
有鉴于此,本申请实施例提供一种识别匹配字段的方法、装置及设备,以实现匹配字段的精准查询。为解决上述问题,本申请实施例提供的技术方案如下:一种识别匹配字段的方法,所述方法包括:确定目标字段的识别方式;利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;生成待识别字段的数据项的特征表示;将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果。在一种可能的实现方式中,所述生成待识别字段的数据项的特征表示,包括:提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。在一种可能的实现方式中,所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合:根据由医疗数据文本训练得到的字特征,将所述待识别字段的数据项的每个字转换为第一字特征值,将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征;提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将所述第一字组转换为第一字组特征值,将所述第一字组特征值确定为所述第一目标字的位置特征,将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征,所述第一目标字分别取所述待识别字段的数据项中的每个字;将所述待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将所述待识别字段的数据项的每个分词转换为第一词特征值,将每个所述第一词特征值确定为所述待识别字段的数据项的词特征;将所述待识别字段的数据项进行分词,提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将所述第二目标分词转换为第二词特征值,将所述第二词特征值确定为所述第一目标分词的位置特征,将各个所述第一目标分词的位置特征确定为所述待识别字段的数据项的词间位置特征,所述第一目标分词分别取所述待识别字段的数据项中的每个分词。在一种可能的实现方式中,所述计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征,包括:获取所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,i、j为正整数,每个所述训练文本集合包括与同一类别的数据项;根据所述待识别字段的数据项与第i个训练文本集合中第j个数据项的匹配值,计算所述待识别字段的数据项与第i个训练文本集合的匹配程度值;将所述待识别字段的数据项与各个训练文本集合的匹配程度值确定为所述待识别字段的数据项与各个训练文本集合的匹配程度特征。在一种可能的实现方式中,所述与所述目标字段对应的目标深度学习模型的训练过程包括:获取与所述目标字段匹配的数据项,生成所述与目标字段匹配的数据项的特征表示,将所述与目标字段匹配的数据项的特征表示确定为正样本数据;获取与所述目标字段不匹配的数据项,生成所述与目标字段不匹配的数据项的特征表示,将所述与目标字段不匹配的数据项的特征表示确定为负样本数据;根据正样本数据与负样本数据训练得到所述目标字段对应的目标深度学习模型。在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:当所述识别方式为采用字符匹配识别时,获取与所述目标字段对应的关键词;将待识别字段的数据项与所述目标字段对应的关键词进行匹配;如果所述待识别字段的数据项与所述目标字段对应的关键词匹配,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;如果所述待识别字段的数据项与所述目标字段对应的关键词不匹配,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:当所述识别方式为采用正则规则匹配识别时,获取与所述目标字段对应的正则规则;判断所述待识别字段的数据项是否满足所述目标字段对应的正则规则;如果所述待识别字段的数据项满足所述目标字段对应的正则规则,获取所述待识别字段的数据项与所述目标字段匹配的识别结果;如果所述待识别字段的数据项是否不满足所述目标字段对应的正则规则,获取所述待识别字段的数据项与所述目标字段不匹配的识别结果。在一种可能的实现方式中,所述根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配,包括:在所述待识别字段中的随机选择的多个数据项与所述目标字段是否匹配的识别结果中,如果与所述目标字段匹配的识别结果多于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段匹配,如果与所述目标字段匹配的识别结果少于或等于与所述目标字段不匹配的识别结果,确定所述待识别字段与所述目标字段不匹配。在一种可能的实现方式中,所述方法还包括:确定目标字段所在的目标数据表;在待识别数据表中查找与所述目标数据表匹配的数据表;将与所述目标数据表匹配的数据表中的字段确定为待识别字段。一种识别匹配字段的装置,所述装置包括:第一确定单元,用于确定目标字段的识别方式;获取单元,用于利用所述识别方式对待识本文档来自技高网...

【技术保护点】
1.一种识别匹配字段的方法,其特征在于,所述方法包括:/n确定目标字段的识别方式;/n利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;/n根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;/n将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。/n

【技术特征摘要】
1.一种识别匹配字段的方法,其特征在于,所述方法包括:
确定目标字段的识别方式;
利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;
根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。


2.根据权利要求1所述的方法,其特征在于,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;
生成待识别字段的数据项的特征表示;
将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果。


3.根据权利要求2所述的方法,其特征在于,所述生成待识别字段的数据项的特征表示,包括:
提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;
计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;
将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。


4.根据权利要求3所述的方法,其特征在于,所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合:
根据由医疗数据文本训练得到的字特征,将所述待识别字段的数据项的每个字转换为第一字特征值,将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征;
提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将所述第一字组转换为第一字组特征值,将所述第一字组特征值确定为所述第一目标字的位置特征,将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征,所述第一目标字分别取所述待识别字段的数据项中的每个字;
将所述待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将所述待识别字段的数据项的每个分词转换为第一词特征值,将每个所述第一词特征值确定为所述待识别字段的数据项的词特征;
将所述待识别字段的数据项进行分词,提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将所述第二目标分词转换为第二词特征值,将所述第二词特征值确定为所述第一目标分词的位置特征,将各个所述第一目标分词的位置特征确定为所述待识别字...

【专利技术属性】
技术研发人员:冯仓龙
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1