一种识别匹配字段的方法、装置及设备制造方法及图纸

技术编号：24035717 阅读：34 留言：0更新日期：2020-05-07 01:50

本申请实施例公开了一种识别匹配字段的方法、装置及设备，在识别匹配字段时，先确定待识别字段对应的数据项与目标字段是否匹配，再根据待识别字段对应的数据项与目标字段是否匹配的识别结果确定待识别字段与目标字段是否匹配。由于待识别字段与目标字段表现形式不统一，无法直接进行匹配，而是利用可以表征待识别字段的数据项与目标字段进行匹配，从而实现匹配字段的识别。另外，针对不同的目标字段采用不同的识别方式，提高识别数据项的效率。

A method, device and equipment for identifying matching fields

全部详细技术资料下载

【技术实现步骤摘要】
一种识别匹配字段的方法、装置及设备
本申请涉及信息技术处理领域，具体涉及一种识别匹配字段的方法、装置及设备。
技术介绍
随着互联网技术的迅速普及和发展，各个应用领域会产生大量的数据。同一领域由于不同用户的配置不同，使得所产生的数据表现形式各不相同，例如对于同一事物存在多种描述方式，导致数据库中的数据存在个性化。在实际应用中，当从数据库中查找同一类数据时，由于数据的个性化表现导致无法查找到所需的数据。
技术实现思路
有鉴于此，本申请实施例提供一种识别匹配字段的方法、装置及设备，以实现匹配字段的精准查询。为解决上述问题，本申请实施例提供的技术方案如下：一种识别匹配字段的方法，所述方法包括：确定目标字段的识别方式；利用所述识别方式对待识别字段的数据项进行识别，获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果；根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果，确定所述待识别字段与所述目标字段是否匹配；将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。在一种可能的实现方式中，所述利用所述识别方式对待识别字段的数据项进行识别，获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果，包括：当所述识别方式为采用深度学习模型识别时，获取与所述目标字段对应的目标深度学习模型；所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的，所述正样本数据为与目标字段匹配的数据项的特征表示，所述负样本数据为与目标...

【技术保护点】
1.一种识别匹配字段的方法，其特征在于，所述方法包括：/n确定目标字段的识别方式；/n利用所述识别方式对待识别字段的数据项进行识别，获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果；/n根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果，确定所述待识别字段与所述目标字段是否匹配；/n将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。/n

【技术特征摘要】
1.一种识别匹配字段的方法，其特征在于，所述方法包括：
确定目标字段的识别方式；
利用所述识别方式对待识别字段的数据项进行识别，获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果；
根据所述待识别字段的数据项与所述目标字段是否匹配的识别结果，确定所述待识别字段与所述目标字段是否匹配；
将与所述目标字段匹配的待识别字段确定为所述目标字段的匹配字段。

2.根据权利要求1所述的方法，其特征在于，所述利用所述识别方式对待识别字段的数据项进行识别，获取所述待识别字段的数据项与所述目标字段是否匹配的识别结果，包括：
当所述识别方式为采用深度学习模型识别时，获取与所述目标字段对应的目标深度学习模型；所述目标字段对应的目标深度学习模型是根据正样本数据与负样本数据训练得到的，所述正样本数据为与目标字段匹配的数据项的特征表示，所述负样本数据为与目标字段不匹配的数据项的特征表示；
生成待识别字段的数据项的特征表示；
将所述待识别字段的数据项的特征表示输入所述目标字段对应的目标深度学习模型，获取所述待识别字段的数据项是否与所述目标字段匹配的识别结果。

3.根据权利要求2所述的方法，其特征在于，所述生成待识别字段的数据项的特征表示，包括：
提取待识别字段的数据项的文本特征，所述文本特征包括字特征、字间位置特征、词特征以及词间位置特征中的一项或多项；
计算所述待识别字段的数据项与各个训练文本集合的匹配程度特征；
将所述待识别字段的数据项的文本特征与所述待识别字段的数据项与各个训练文本集合的匹配程度特征组成所述待识别字段的数据项的特征表示。

4.根据权利要求3所述的方法，其特征在于，所述待识别字段的数据项的文本特征包括下述中的任意一种或者多种的结合：
根据由医疗数据文本训练得到的字特征，将所述待识别字段的数据项的每个字转换为第一字特征值，将所述待识别字段的数据项的每个字的第一字特征值确定为所述待识别字段的数据项的字特征；
提取与第一目标字相邻且在所述第一目标字预设范围内的单字或多字组成第一字组，根据由医疗数据文本训练得到的字特征，将所述第一字组转换为第一字组特征值，将所述第一字组特征值确定为所述第一目标字的位置特征，将各个所述第一目标字的位置特征确定为所述待识别字段的数据项的字间位置特征，所述第一目标字分别取所述待识别字段的数据项中的每个字；
将所述待识别字段的数据项进行分词，根据由医疗数据文本训练得到的词特征，将所述待识别字段的数据项的每个分词转换为第一词特征值，将每个所述第一词特征值确定为所述待识别字段的数据项的词特征；
将所述待识别字段的数据项进行分词，提取与第一目标分词相邻且在所述第一目标分词预设范围内的第二目标分词，根据由医疗数据文本训练得到的词特征，将所述第二目标分词转换为第二词特征值，将所述第二词特征值确定为所述第一目标分词的位置特征，将各个所述第一目标分词的位置特征确定为所述待识别字...

【专利技术属性】
技术研发人员：冯仓龙，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人