商户名称解析方法和装置制造方法及图纸

技术编号:4160767 阅读:259 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种商户名称解析方法和装置,所述商户名称解析方法包括:根据商户词典对获取到的商户名称进行分词;根据分词结果判断所述商户名称是属于单结构还是双结构;根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。本发明专利技术实施例通过引入上述的商户名称解析方法和装置,能够计算多个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附属商户,并对商户进行准确分类,提高了地址解析的准确度。

Merchant name resolution method and apparatus

The embodiment of the invention discloses a method and device for merchant name resolution, including the method of analyzing the business name: word segmentation according to the business to get to the merchant dictionary name; judgment according to the segmentation results the merchant name has a single structure or double structure; structure analysis of single or double structure of the merchant name according to the judgment result. The embodiment of the invention, by introducing the business name analytic method and the device, able to calculate the multiple business name is the same as businesses, whether they belong to a chain of businesses, whether affiliated merchants belong to the same family businesses, and the accurate classification of businesses, improve the accuracy of address resolution.

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种商户名称解析方法和装置
技术介绍
随着互联网的日益普及,互联网服务对我们生活中的衣食住用行造成着 越来越大的影响。互联网服务中的本地搜索引擎服务给我们的日常生活带来了很大的便 利。在本地搜索引擎服务中,需要采集海量的商户名称进行处理。但是由于 互联网以及人们日常生活中对商户名称的表述方式是多种多样的,而且在互 联网上对同一商户名称的表述也非常复杂,例如同一商户具有多个商户名称, 同一连锁商户的商户名称相似,属于同一商户的附属商户的商户名称相似, 给我们处理这些商户名称时带来了很多麻烦。
技术实现思路
本专利技术实施例的目的是提供一种商户名称解析方法和装置,能够计算多 个商户名称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家 商户的附属商户,并对商户进行准确分类。为实现上述目的,本专利技术实施例提供了一种,包括根据商户词典对获取到的商户名称进行分词;根据分词结果判断所述商户名称是属于单结构还是双结构;根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。本专利技术实施例还提供了一种商户名称解析装置,包括分割模块,用于根据商户词典对获取到的商户名称进行分词;5识别模块,用于根据分词结果判断所述商户名称是属于单结构还是双结构;解析模块,用于根据上述判断的结果对所述商户名称进行单结构解析或 双结构解析。本专利技术实施例通过引入上述的商户名称解析方法,能够计算多个商户名 称是否为同一家商户,是否属于同一家连锁商户,是否属于同一家商户的附 属商户,并对商户进行准确分类,提高了地址解析的准确度。下面通过附图和实施例,对本专利技术实施例的技术方案做进一步的详细描述。附图说明图1为本专利技术商户名称解析方法实施例的流程示意图; 图2为本专利技术商户名称解析装置实施例的结构示意图。具体实施例方式本专利技术实施例将商户名称划分为行政区划部分、商户主干部分、商户主 干》务饰语部分、商户特征部分、商户组织形式部分、商户组织的附属机构的 前缀修饰语部分、商户组织的附属机构部分、商户数据补充描述部分和分店 地址部分,所述商户主干部分分为商户主干部分和最短商户主干部分。如翠 宫饭店中,翠宫为商户主干,饭店为商户特征;翠宫饭店雨人 游泳馆中,翠宫为商户主干,饭店为商户特征,雨人为商户 组织的附属机构的前缀修饰语,游泳馆,,为商户组织的附属机构;北京 易初莲花五道口店中,北京为行政区划,易初莲花为商户主干, 五道口店为商户数据的补充描述,五道口为分店地址。 下面结合附图对本实施例作进一步描述。图1为本专利技术商户名称解析方法实施例的流程示意图,如图1所示,本实施例具体可以包括以下步骤步骤101:根据商户词典对获取到的商户名称进行分词;其中,获取到的商户名称为采集到的海量商户数据,才艮据商户词典对获 取到的商户名称进行分词即把商户名称分为多个商户词典可识别的词。所述商户词典可包括商户主干词典、商户属性词典、热点商户区域地址 词典、商户组织形式词典、商户组织特征词典、基本词词典和组合词词典。所述商户主干词典的构建过程具体可以为al、提取采集的商户数据中满足根-分支模式的数据,将根部分加入商户 主干词典,将分支部分加入热点商户区域地址词典。例如北京易初莲花(五道口店),其中易初莲花为根,五道口为分支部分; a2、删除商户主干词典中频率为1的商户主干;a3、对商户主干词典中的商户主干按照名称相似度进行聚类,将名称相 似的商户名称聚集到一起。例如可以将九头鸟和九头乌酒家聚到一起,将易初莲花 和易初莲花超市聚到一起;a4、将商户主干的聚类结果进行人工核查,去除其中的噪音。其中的噪音可以包括地址、商户属性等,商户主干里最长的噪音为商户 属性和地名,这两种噪音对商户主干的解析结果影响很大,如苹果园, 如果没有北京的生活经^^,无法知道这是一个地名,直接导致苹果园大鸭 梨烤鸭店的商户主千解析为苹果园;a5、提取去除噪音后的聚类结果中的商户主干;提取的原则是在商户主干不少于3个汉字的情况下尽量短,对大型连锁 商户可以不遵循这个原则。此处形成的商户主干于主干的聚类时不同,主干 的聚类时将多个商户主干聚合成一个商户主干,此处形成商户主干是有多个 商户主干聚合而来的;a6、删除商户主干词典中小于三个汉字的歧义商户主干。例如友谊宾馆,如果将友谊作为商户主干,由于友谊本 身是中国一个县级市,同时友谊,,本身作为一个商户主干区分度太低,将 对商户主干的解析结果造成很大的麻烦。所谓区分度低的意思就是指我们是 否能直接根据商户主干联系到商户本身,譬如麦当劳,我们只要一提到麦当 劳就知道时家快餐厅。但是我们提到苹果,就不知道时指卖电脑的还是 卖牛仔裤的。这就说明麦当劳的区分度很高,而苹果的区分度很低。另外,为了保证商户主干带有一定的区分度,很多商户主干可为商户 主干+商户属性。譬如友谊宾馆、宝岛眼镜等,但如果商户主千 本身就有很好的区分度,我们可直接使用商户主干,如伊尔萨本身就有 很好的区分度,无须再使用伊尔萨洗衣。所述商户属性词典的构建过程具体可以为bl、根据获取的商户属性词种子构造商户名称解析器。其中的商户属性词种子可以通过人工整理得到;b2、利用所述商户名称解析器解析所述采集的商户教:据得到新的商户属 性词;b3、删除新的商户属性词中出现频率不大于10的商户属性词; b4、若剩余的商户属性词可被加入商户属性词典,则将剩余的商户属性 词加入商户属性词典,并将所述剩余的商户属性词加入所述获取的商户属性 词种子,并重新根据获取的商户属性词种子构造商户名称解析器; b5、若剩余的商户属性词不可被加入商户属性词典,则结束操作。 商户属性词典的生成是自学习的,在实际应用过程中不断更新。商户属 性词典也需要进行人工去噪。在中华人民共和国企业注册法规中,对商户属性和商户组织形式有严格 的界定,如饭店,法规认为饭为商户属性,店为商户的组织形 式,娱乐城中,娱乐为商户属性,城为商户的组织形式。但为 了解析上的方便,本专利技术实施例将饭店和娱乐城均视为商户属性,而将公司、有限公司和集团等非敏感性组织形式视为商户组织 形式,但本专利技术实施例将店、城视为商户属性中带有组织的特征词, 以用于后面单双结构的识别。所述热点商户区域地址词典、商户组织形式词典可通过人工整理得到, 同时也需要对其进行人工排噪。所述商户组织特征词词典的构建过程具体可以为 cl、降序排列商户属性词典中商户属性词的最后一个汉字的概率分布; c2、获取其中的组织特征词,并加入商户组织特征词词典。 所述基本词词典的构造是根据我们获取的分词语料加工而成,这里面的 每个词都是原子单位,不可再分。汉语中的单字,我们并不计入基本词。譬 如北京和大学这两个词都是基本词。所述组合词词典的构造是根据我们获取的分词语料加工而成,这里面的 每个词都是有基本词和单字组成。譬如北京大学,,由两个基本词北京 和大学,,构成,而北京人,,由基本词北京和单字人,,构成; 步骤103:根据分词结果判断所述商户名称是否属于单结构商户名称; 其中,如果商户名称以店、分部、分公司,,等词结尾,则直 接判断商户名称为单结构;否则,则遍历所述分词结果,检测其中组织形式 的个数,商户主干的个数,商户组织特征词的个数;若商户组织形式的个数 或商户本文档来自技高网...

【技术保护点】
一种商户名称解析方法,其特征在于包括: 根据商户词典对获取到的商户名称进行分词; 根据分词结果判断所述商户名称是属于单结构还是双结构; 根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。

【技术特征摘要】
1、一种商户名称解析方法,其特征在于包括根据商户词典对获取到的商户名称进行分词;根据分词结果判断所述商户名称是属于单结构还是双结构;根据上述判断的结果对所述商户名称进行单结构解析或双结构解析。2、 根据权利要求1所述的商户名称解析方法,其特征在于,所述商户词 典包括商户主干词典、商户属性词典、热点商户区域地址词典、商户组织 形式词典、商户组织特征词词典、基本词词典和组合词词典。3、 根据权利要求1所述的商户名称解析方法,其特征在于,对所述商户 名称进行单结构解析具体为 解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;根据商户主干词典获取商户主干;根据商户属性词典获取商户属性;根据商户组织形式词典获取商户组织形式;将商户名称中无法识别的部分》丈入商户名称补充。4、 根据权利要求3所述的商户名称解析方法,其特征在于,所述根据商 户主干词典获取商户主干具体为根据商户主干词典通过最长匹配原则获取商户主干和通过最短匹配原则 获取最短商户主干,遇到商户属性词或商户组织形式词后停止匹配。5、 根据权利要求l所述的商户名称解析方法,其特征在于,所述对所述 商户名称进行双结构解析具体为解析商户名称的行政区划,所述行政区划为省、市、乡三级行政区划;根据商户主干词典获取商户主干;根据商户属性词典获取商户属性;根据商户组织形式词典获取商户组织形式;才艮据商户组织特征词词典和商户组织形式词典,获取商户组织的附属初」构的前缀修饰语和商户组织的附属机构;将商户名称中无法识别的部分放入商户名称补充。6、 根据权利要求l-5任一所述的...

【专利技术属性】
技术研发人员:周利民段剑波王思锋张步峰
申请(专利权)人:爱帮聚信北京信息技术有限公司
类型:发明
国别省市:11[中国|北京]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1