【技术实现步骤摘要】
一种企业信息匹配系统及方法
[0001]本专利技术涉及医药流向数据清洗领域,特别涉及一种企业信息的匹配系统及方法。
技术介绍
[0002]目前,企业在为医药企业提供流向数据服务、清洗流向数据的过程中,需要人工首先从企业信息中提取关键信息,这依赖于对企业信息的预处理(诸如分词)和关键词提取;接着从企业主数据信息或互联网检索企业信息并识别是否相配,这依赖于企业信息的处理和匹配度的确定和计算;然后建立企业信息到目标企业信息的匹配关系,最后完成转换并最终实现流向数据的清洗。
[0003]但是,人工方法存在人力成本高、易出错的缺点;并且现有的企业信息处理、匹配方法依赖于单一的文本段划分和字符串比较,分词准确度不高、针对性不强,由此难以快速、准确地获得企业信息到目标企业信息的相应匹配关系。
技术实现思路
[0004]本专利技术提供了用于医药流向数据清洗的企业信息匹配系统和方法。企业信息匹配系统基于预定义的词库及规则对企业信息集进行逐级拆分处理,实现企业信息到维度词组的转换,分词精准,极大的降低了企业信息分词人力成本。在此基础上,企业信息匹配系统对分词模块拆分的企业信息维度词组集和从目标企业信息库获得的目标企业信息维度词组集进行对比计算,由此实现了企业信息到目标企业信息的匹配,匹配快速、准确、命中率高,并且极大的降低了企业信息匹配人力成本。
[0005]根据本专利技术的实施例,提供了一种企业信息匹配方法,该方法包括:接收来自其他系统或用户的企业信息集和指令输入,其中,所述企业信息集包含至少一条企业信 ...
【技术保护点】
【技术特征摘要】
1.一种企业信息匹配方法,其特征在于,包括:接收来自其他系统或用户的企业信息集和指令输入,其中,所述企业信息集包含至少一条企业信息;以及响应于所述指令输入,进行以下步骤:基于预先定义的词库及分词规则对所述企业信息集执行多维度分词过程,以获得企业信息维度词组集;基于所述企业信息维度词组集的关键词从目标企业信息库获得目标企业信息维度词组集;基于所述企业信息维度词组集的匹配类型,将所述企业信息维度词组集与所述目标企业信息维度词组集进行多维度企业信息集匹配,以获得所述企业信息集与目标企业信息集的映射集合;以及输出所述映射集合。2.如权利要求1所述的企业信息匹配方法,其特征在于,将所述企业信息维度词组集与所述目标企业信息维度词组集进行多维度企业信息集匹配包括针对所述企业信息维度词组集中的企业信息维度词组和所述目标企业信息维度词组集中的目标企业信息维度词组进行以下步骤:就地理信息维度计算地理信息维度匹配分值DS1;就专有词维度计算专有词维度匹配分值DS2;就企业属性维度计算企业属性维度匹配分值DS3;计算整体匹配分值其中,DW
i
为维度匹配分值权重;将所述整体匹配分值大于阈值的目标企业信息添加至所述目标企业信息集;以及输出所述企业信息集与所述目标企业信息集的所述映射集合。3.如权利要求2所述的企业信息匹配方法,其特征在于,计算所述地理信息维度匹配分值DS1包括:从所述企业信息维度词组获得企业地理信息维度词组;从所述目标企业信息维度词组获得目标企业地理信息维度词组;基于所述匹配类型,计算所述企业地理信息维度词组与所述目标企业地理信息维度词组之间所述地理信息维度匹配分值DS1,其中,如果所述匹配类型为连锁,则分别计算总店地理信息维度匹配分值DS
11
和分店地理信息维度匹配分值DS
12
,以得到所述地理信息维度匹配分值DS1=DS
11
+DS
11
;并且其中,如果所述匹配类型为单体,则计算单体地理信息维度匹配分值作为所述地理信息维度匹配分值DS1。4.如权利要求2所述的企业信息匹配方法,其特征在于,计算所述专有词维度匹配分值DS2包括:从所述企业信息维度词组获得企业专有词维度词组;从所述目标企业信息维度词组获得目标企业专有词维度词组;基于所述匹配类型,比较所述企业专有词维度词组和所述目标企业专有词维度词组的
专有词的词性、专有词的原始值和专有词的标准值;以及基于所述比较,得到所述专有词维度匹配分值DS2,其中,如果所述匹配类型为连锁,则比较所述企业专有词维度词组和所述目标企业专有词维度词组的专有词的词性、专有词的原始值和专有词的标准值包括比较分店专有词的词性、分店专有词的原始值和分店专有词的标准值,并且其中,如果所述匹配类型为单体,则比较所述企业专有词维度词组和所述目标企业专有词维度词组的专有词的词性、专有词的原始值和专有词的标准值包括比较单体专有词的词性、单体专有词的原始值和单体专有词的标准值。5.如权利要求2所述的企业信息匹配方法,其特征在于,计算所述企业属性维度匹配分值DS3包括:从所述企业信息维度词组获得企业信息企业属性词组;从所述目标企业信息维度词组获得目标企业信息企业属性词组;分别比较所述企业信息企业属性词组和所述目标企业信息企业属性词组的企业属性词原始值、企业属性词标准值及企业属性词的词性;以及基于所述比较,得到所述企业属性维度匹配分值DS3。6.一种企业信息匹配系统,其特征在于,包括:接口模块,所述接口模块用于:接收来自其他系统或用户的企业信息集和指令输入,其中,所述企业信息集包含...
【专利技术属性】
技术研发人员:黄旭江,
申请(专利权)人:上海倍通医药科技咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。