一种信息匹配方法及终端组成比例

技术编号:20866676 阅读:34 留言:0更新日期:2019-04-17 09:23
本发明专利技术涉及数据处理领域,尤其涉及一种信息匹配方法及终端。本发明专利技术通过S1分词一企业信息,得到与所述一企业信息对应的第一分词有序集合;S2获取两个以上所述第一分词有序集合,得到企业信息集合;S3分词预设的文本信息,得到第二分词集合;S4从所述企业信息集合中获取一第一分词有序集合;根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数;S5重复执行步骤S4,直至所述企业信息集合中的所有元素均被遍历;S6获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。极大程度上提高了文本信息与企业信息匹配的准确度。

【技术实现步骤摘要】
一种信息匹配方法及终端
本专利技术涉及数据处理领域,尤其涉及一种信息匹配方法及终端。
技术介绍
随着社会的发展,人与企业之间的矛盾纠纷越来越多。为了有效预防人与企业间矛盾纠纷的出现,或及时处理相关纠纷,有关部门需快速获取与相关事件信息、舆情匹配的企业信息。目前常用的信息匹配方法有以下两种:第一,通过将事件信息或舆情分词,然后再用得到的分词与预设的企业信息库进行模糊匹配,从而得到与事件信息或舆情相关的企业信息。通过这种方式,会同时得到很多无关的企业信息,命中率低。第二,通过人工方式关联事件信息和企业信息。此种信息匹配方式虽然具有高正确率,但是效率低下,需要耗费大量人力资源。
技术实现思路
本专利技术所要解决的技术问题是:如何提高匹配文本信息与企业信息的准确度。为了解决上述技术问题,本专利技术采用的技术方案为:本专利技术提供一种信息匹配方法,包括:S1、分词一企业信息,得到与所述一企业信息对应的第一分词有序集合;S2、获取两个以上所述第一分词有序集合,得到企业信息集合;S3、分词预设的文本信息,得到第二分词集合;S4、从所述企业信息集合中获取一第一分词有序集合;根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数;S5、重复执行步骤S4,直至所述企业信息集合中的所有元素均被遍历;S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。进一步地,所述S1具体为:获取所述一企业信息中与行政区域划分对应的字符,得到行政区划分词;获取所述一企业信息中与企业简称对应的字符,得到企业简称分词;获取所述一企业信息中与企业性质对应的字符,得到企业性质分词;获取所述一企业信息中与企业类型对应的字符,得到企业类型分词;根据所述行政区划分词、所述企业简称分词、所述企业性质分词和所述企业类型分词生成所述第一分词有序集合。进一步地,根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数,具体为:当所述第二分词集合包含所述一第一分词有序集合时,设置与所述一第一分词有序集合对应的匹配分数为第一数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词、所述企业性质分词和所述企业类型分词时,设置与所述一第一分词有序集合对应的匹配分数为第二数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业性质分词时,设置与所述一第一分词有序集合对应的匹配分数为第三数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业类型分词时,设置与所述一第一分词有序集合对应的匹配分数为第四数值;所述第一数值大于所述第二数值;所述第二数值大于所述第三数值;所述第三数值大于所述第四数值。进一步地,所述第一分词有序集合还包括地址分词和行业名称分词;当所述第二分词集合包含所述地址分词时,所述匹配分数增加第五数值;当所述第二分词集合包含所述行业名称分词时,所述匹配分数增加第六数值;所述第四数值大于所述第五数值;所述第四数值大于所述第六数值。进一步地,根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数,具体为:从所述第二分词集合中获取一分词,得到文本信息分词;若所述文本信息分词与所述一第一分词有序集合中的所述企业简称分词相匹配,则根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数。进一步地,所述S3具体为:分词预设的文本信息,得到初始分词集合;删除所述初始分词集合中的数字分词和单字分词,得到所述第二分词集合。进一步地,所述S1之前,还包括:删除所述一企业信息中的括号及括号内的字符;所述S3之前,还包括:若所述预设的文本信息中存在括号,且括号内的字符数少于10,则删除括号和括号内的字符。本专利技术另提供一种计算机可读存储介质,其上存储有程序,所述程序在被计算机执行时执行所述的信息匹配方法。本专利技术还提供一种信息匹配终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:S1、分词一企业信息,得到与所述一企业信息对应的第一分词有序集合;S2、获取两个以上所述第一分词有序集合,得到企业信息集合;S3、分词预设的文本信息,得到第二分词集合;S4、从所述企业信息集合中获取一第一分词有序集合;根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数;S5、重复执行步骤S4,直至所述企业信息集合中的所有元素均被遍历;S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。进一步地,所述S1具体为:获取所述一企业信息中与行政区域划分对应的字符,得到行政区划分词;获取所述一企业信息中与企业简称对应的字符,得到企业简称分词;获取所述一企业信息中与企业性质对应的字符,得到企业性质分词;获取所述一企业信息中与企业类型对应的字符,得到企业类型分词;根据所述行政区划分词、所述企业简称分词、所述企业性质分词和所述企业类型分词生成所述第一分词有序集合;根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数,具体为:从所述第二分词集合中获取一分词,得到文本信息分词;若所述文本信息分词与所述一第一分词有序集合中的所述企业简称分词相匹配,则:当所述第二分词集合包含所述一第一分词有序集合时,设置与所述一第一分词有序集合对应的匹配分数为第一数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词、所述企业性质分词和所述企业类型分词时,设置与所述一第一分词有序集合对应的匹配分数为第二数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业性质分词时,设置与所述一第一分词有序集合对应的匹配分数为第三数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业类型分词时,设置与所述一第一分词有序集合对应的匹配分数为第四数值;所述第一数值大于所述第二数值;所述第二数值大于所述第三数值;所述第三数值大于所述第四数值;所述第一分词有序集合还包括地址分词和行业名称分词;当所述第二分词集合包含所述地址分词时,所述匹配分数增加第五数值;当所述第二分词集合包含所述行业名称分词时,所述匹配分数增加第六数值;所述第四数值大于所述第五数值;所述第四数值大于所述第六数值。进一步地,所述S1之前,还包括:删除所述一企业信息中的括号及括号内的字符;所述S3具体为:若所述预设的文本信息中存在括号,且括号内的字符数少于10,则删除括号和括号内的字符;分词预设的文本信息,得到初始分词集合;删除所述初始分词集合中的数字分词和单字分词,得到所述第二分词集合。本专利技术的有益效果在于:将企业信息进行分词操作,其所得到的各个分词重要程度不同,本专利技术将企业信息对应的分词有序排列在第一分词有序集合中,使得在将事件报道或舆论的文本信息依次与企业信息库中已分词的企业信息进行匹配时,能够通过二者匹配的分词数量以及所本文档来自技高网...

【技术保护点】
1.一种信息匹配方法,其特征在于,包括:S1、分词一企业信息,得到与所述一企业信息对应的第一分词有序集合;S2、获取两个以上所述第一分词有序集合,得到企业信息集合;S3、分词预设的文本信息,得到第二分词集合;S4、从所述企业信息集合中获取一第一分词有序集合;根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数;S5、重复执行步骤S4,直至所述企业信息集合中的所有元素均被遍历;S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。

【技术特征摘要】
1.一种信息匹配方法,其特征在于,包括:S1、分词一企业信息,得到与所述一企业信息对应的第一分词有序集合;S2、获取两个以上所述第一分词有序集合,得到企业信息集合;S3、分词预设的文本信息,得到第二分词集合;S4、从所述企业信息集合中获取一第一分词有序集合;根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数;S5、重复执行步骤S4,直至所述企业信息集合中的所有元素均被遍历;S6、获取与具有最高匹配分数的所述第一分词有序集合对应的企业信息。2.根据权利要求1所述的信息匹配方法,其特征在于,所述S1具体为:获取所述一企业信息中与行政区域划分对应的字符,得到行政区划分词;获取所述一企业信息中与企业简称对应的字符,得到企业简称分词;获取所述一企业信息中与企业性质对应的字符,得到企业性质分词;获取所述一企业信息中与企业类型对应的字符,得到企业类型分词;根据所述行政区划分词、所述企业简称分词、所述企业性质分词和所述企业类型分词生成所述第一分词有序集合。3.根据权利要求2所述的信息匹配方法,其特征在于,根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数,具体为:当所述第二分词集合包含所述一第一分词有序集合时,设置与所述一第一分词有序集合对应的匹配分数为第一数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词、所述企业性质分词和所述企业类型分词时,设置与所述一第一分词有序集合对应的匹配分数为第二数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业性质分词时,设置与所述一第一分词有序集合对应的匹配分数为第三数值;当所述第二分词集合只包含所述一第一分词有序集合中的所述企业简称分词和所述企业类型分词时,设置与所述一第一分词有序集合对应的匹配分数为第四数值;所述第一数值大于所述第二数值;所述第二数值大于所述第三数值;所述第三数值大于所述第四数值。4.根据权利要求3所述的信息匹配方法,其特征在于,所述第一分词有序集合还包括地址分词和行业名称分词;当所述第二分词集合包含所述地址分词时,所述匹配分数增加第五数值;当所述第二分词集合包含所述行业名称分词时,所述匹配分数增加第六数值;所述第四数值大于所述第五数值;所述第四数值大于所述第六数值。5.根据权利要求2所述的信息匹配方法,其特征在于,根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数,具体为:从所述第二分词集合中获取一分词,得到文本信息分词;若所述文本信息分词与所述一第一分词有序集合中的所述企业简称分词相匹配,则根据所述第二分词集合与所述一第一分词有序集合匹配的分词数量和匹配的分词在所述一第一分词有序集合中的序号,计算匹配分数。6.根据权利要求1所述的信息匹配方法,其特征在于,所述S3具体为:分词预设的文本信息,得到初始分词集合;删除所述初始分词集合中的数字分词和单字分词,得到所述第二分词集合。7.根据权利要求1所述的信息匹配方法,其特征在于,所述S1之前,还包括:删除所述一企业信息...

【专利技术属性】
技术研发人员:吴超鹏张若峰龚浩杰郑俊杰陈志飞许琨
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1