【技术实现步骤摘要】
一种识别匹配字段的方法、装置及设备
本申请涉及信息技术处理领域,具体涉及一种识别匹配字段的方法、装置及设备。
技术介绍
随着互联网技术的迅速普及和发展,各个应用领域会产生大量的数据。同一领域由于不同用户的配置不同,使得所产生的数据表现形式各不相同,例如对于同一事物存在多种描述方式,导致数据库中的数据存在个性化。在实际应用中,当从数据库中查找同一类数据时,由于数据的个性化表现导致无法查找到所需的数据。
技术实现思路
有鉴于此,本申请实施例提供一种识别匹配字段的方法、装置及设备,以实现匹配字段的精准查询。为解决上述问题,本申请实施例提供的技术方案如下:一种识别匹配字段的方法,所述方法包括:确定目标字段的识别方式;利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。在一种可能的实现方式中,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标 ...
【技术保护点】
1.一种识别匹配字段的方法,其特征在于,所述方法包括:/n确定目标字段的识别方式;/n利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;/n根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;/n将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。/n
【技术特征摘要】
1.一种识别匹配字段的方法,其特征在于,所述方法包括:
确定目标字段的识别方式;
利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果;
根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果,确定所述待识别字段与所述目标字段是否匹配;
将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。
2.根据权利要求1所述的方法,其特征在于,所述利用所述识别方式对待识别字段的数据项进行识别,获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果,包括:
当所述识别方式为采用深度学习模型识别时,获取与所述目标字段对应的目标深度学习模型;所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的,所述正样本数据为与目标字段匹配的数据项的特征表示,所述负样本数据为与目标字段不匹配的数据项的特征表示;
生成待识别字段的数据项的特征表示;
将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型,获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果。
3.根据权利要求2所述的方法,其特征在于,所述生成待识别字段的数据项的特征表示,包括:
提取待识别字段的数据项的文本特征,所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项;
计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征;
将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。
4.根据权利要求3所述的方法,其特征在于,所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合:
根据由医疗数据文本训练得到的字特征,将所述待识别字段的数据项的每个字转换为第一字特征值,将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征;
提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组,根据由医疗数据文本训练得到的字特征,将所述第一字组转换为第一字组特征值,将所述第一字组特征值确定为所述第一目标字的位置特征,将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征,所述第一目标字分别取所述待识别字段的数据项中的每个字;
将所述待识别字段的数据项进行分词,根据由医疗数据文本训练得到的词特征,将所述待识别字段的数据项的每个分词转换为第一词特征值,将每个所述第一词特征值确定为所述待识别字段的数据项的词特征;
将所述待识别字段的数据项进行分词,提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词,根据由医疗数据文本训练得到的词特征,将所述第二目标分词转换为第二词特征值,将所述第二词特征值确定为所述第一目标分词的位置特征,将各个所述第一目标分词的位置特征确定为所述待识别字...
【专利技术属性】
技术研发人员:冯仓龙,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。