一种单位名称精确匹配方法和查找方法组成比例

技术编号:39068708 阅读:26 留言:0更新日期:2023-10-12 20:01
本发明专利技术公开了一种单位名称精确匹配方法和查找方法,涉及命名实体识别领域,匹配方法包括:S1、对输入的两个单位名称进行预处理;S2、对预处理后的两个单位名称进行拆分标注处理,分别得到对应的分词和分词的类型;S3、对分词进行纠正处理;S4、对分词进行主体从体拆分处理;S5、对于分词能直接通过模糊匹配得出单位名称匹配度的,输出单位名称匹配度为0,否则执行S6;S6、对两个单位名称的主体、从体中相同类型的分词分别进行对比计算,得到主体匹配度和从体匹配度;S7、根据两个单位名称的主体匹配度和从体匹配度计算出单位名称匹配度。本发明专利技术具有单位名称匹配更为精细、更为准确的优点。点。点。

【技术实现步骤摘要】
一种单位名称精确匹配方法和查找方法


[0001]本专利技术涉及命名实体识别
,具体涉及一种单位名称精确匹配方法和查找方法。

技术介绍

[0002]在目前的互联网中单位信息作为一个必要因素越来越被重视,但是单位录入的不确定性,容易导致应用方获取的单位信息异常。
[0003]现有技术中使用es(Elasticsearch)模糊查询匹配,Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。Elasticsearch的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名、打分,再将返回结果呈现给用户。
[0004]但是es分词是使用自带的分词算法,对于特定匹配算法会无法匹配到数据,如简称和全称无法匹配、用户输入的不确定性导致单位名称里面会包含很多es模糊匹配无法识别的无效的字符等等,所以无法达到对单位名称这种模糊匹配要求较高的数据精准匹配。
>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种单位名称精确匹配方法,其特征在于,所述方法包括:S1、对输入的两个单位名称进行预处理,所述预处理包括标准化处理和过滤处理;S2、对预处理后的两个单位名称进行拆分标注处理,分别得到对应的分词和分词的类型;所述类型包括地区分词、字号分词、行业分词和组织分词;S3、对所述分词进行纠正处理,所述纠正处理包括删除处理、合并处理和类型转换处理;S4、对所述分词进行主体从体拆分处理,分别得到两个单位名称的主体和从体;S5、对于分词能直接通过模糊匹配得出单位名称匹配度的,输出单位名称匹配度为0,否则执行S6;S6、对两个单位名称的主体、从体中相同类型的分词分别进行对比计算,得到各类型分词匹配关系,将主体中各类型分词匹配关系组合计算得到主体匹配度,将从体中各类型分词匹配关系组合计算得到从体匹配度;S7、根据两个单位名称的所述主体匹配度和从体匹配度计算出单位名称匹配度。2.根据权利要求1所述的单位名称精确匹配方法,其特征在于,步骤S3中所述主体从体拆分处理包括:所述分词中包含特定分词类型,所述特定类型分词及之前的所有分词组成主体,所述特定类型的分词之后的所有分词组成从体。3.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述对两个单位名称的主体、从体中相同类型的分词分别进行对比计算包括:判断每个分词类型,根据分词类型使用相应分词匹配关系算法;所述分词匹配关系通过对比分词的字符得出;所述关系包括相同关系、相似关系和不同关系,所述相同关系包括完全相同关系和等同关系。4.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述分词能直接通过模糊匹配得出单位名称匹配度的判定条件为:两个单位名称在经过S1,S2,S3步骤处理后,任意一个单位名称的所有分词为空。5.根据权利要求1所述的单位名称精确匹配方法,其特征在于,所述标准化处理包括:基于词库将两个单位名称中的繁体转换为简体、小写转换为大写、中文符号转换为英文符号以及简称转换为全称;所述过滤处理包括删除特殊符号。6.根...

【专利技术属性】
技术研发人员:闪志祥王雷陈盼盼杨运平蒋炜
申请(专利权)人:浙江邦盛科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1