一种商户名称搜索方法和装置制造方法及图纸

技术编号:15822632 阅读:32 留言:0更新日期:2017-07-15 04:51
本发明专利技术实施例提供一种商户名称搜索方法和装置,对待搜索商户名称进行分词,然后针对每个分词,根据分词的词义确定分词作为各要素的词义概率。根据分词作为各要素的词义概率及各要素在商户名称中的位置概率确定分词的要素属性。最后根据各分词的要素属性,从搜索库中查找待搜索商户名称的匹配商户名称。本发明专利技术实施例中对待搜索商户名称进行分词后,根据各分词的词义和位置确定各分词的要素属性,然后根据各分词的要素属性查找与待搜索商户名称匹配的商户名称,相比传统的关键字搜索匹配算法,基于要素查收的方法是根据要素属性确定分词的重要性,可以摆脱对词频或搜索频率的依赖,从而有效解决了近似商户名称误匹配的问题。

【技术实现步骤摘要】
一种商户名称搜索方法和装置
本专利技术实施例涉及数据业务领域的搜索及匹配领域,尤其涉及一种商户名称搜索方法和装置。
技术介绍
在现有的模糊搜索技术当中,主要是针对一段文字进行相关搜索匹配,采用的方法是全文检索方法。全文检索方法是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时,检索程序就根据事先建立的索引进行查找,然后根据词频或搜索频率确定查找到的词在文章中的重要性,并对查找到的词根据重要性进行加权评级确定文章与用户查询文字的相似度,最后根据相似度进行匹配并将结果反馈给用户。由于该技术在计算相似度时受词频或搜索频率的影响,一般来说一个词的词频或搜索频率越高,该词的类别区分能力就越差,从而重要程度就越低。若待搜索商户名称与搜索库中的商户名称相似度极高,唯一区别的词又为重要程度低的词,那么使用现有技术中的方法容易将该两个商户名称匹配为同一个商户名称,从而影响商户名称匹配的精度。
技术实现思路
本专利技术实施例提供一种商户名称搜索方法和装置,用于解决现有技术中搜索方法的精度受词频或搜索频率的影响的问题。本专利技术实施例提供了一种商户名称搜索方法,包括:对待搜索商户名称进行分词;针对每个分词,根据所述分词的词义确定所述分词作为各要素的词义概率;根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性;根据各分词的要素属性,从搜索库中查找所述待搜索商户名称的匹配商户名称,所述匹配商户名称与所述待搜索商户名称的相似度大于设定阈值。可选地,所述针对每个分词,根据所述分词的词义确定所述分词作为各要素的词义概率;根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性,包括:针对所述待搜索商户名称中的第一个分词,确定所述第一个分词作为各要素的词义概率;根据所述第一个分词作为各要素的词义概率和所述各要素作为商户名称中第一个词的位置概率,确定所述第一个分词的要素属性;针对所述待搜索商户名称中的第i个分词,确定所述第i个分词作为各要素的词义概率;根据各要素之间的状态转移概率和第i-1个分词的要素属性,确定所述各要素作为商户名称中第i个词的位置概率;根据所述第i个分词作为各要素的词义概率和所述各要素作为商户名称中第i个词的位置概率,确定所述第i个分词的要素属性,i大于等于2。可选地,所述根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性符合下述公式(1):Y=argmax(P(Xn=j)*Pj)………………………………………(1)其中,Y为分词的要素属性,Pj为各要素在商户名称中的位置概率,P(Xn=j)为分词作为各要素的词义概率,Xn为商户名称中第n个分词,j表示各要素。可选地,所述根据各分词的要素属性,从搜索库中查找所述待搜索商户名称的匹配商户名称,包括:针对所述搜索库中任意一个比对商户名称,按照要素比对的方式,确定所述待搜索商户名称和所述比对商户名称的各要素的相似度;按照预设的要素优先级依次判断所述各要素的相似度是否大于相似度阈值;将满足所述各要素相似度均大于所述相似度阈值的比对商户名称确定为相似商户名称;根据各要素的相似度及各要素权重确定各相似商户名称与所述待搜索商户名称的相似度;将相似度大于所述设定阈值的相似商户名称确定为所述待搜索商户名称的匹配商户名称。可选地,所述将相似度大于所述设定阈值的相似商户名称确定为所述待搜索商户名称的匹配商户名称,包括:若相似度大于所述设定阈值的相似商户名称有多个,则根据所述要素优先级,将所述多个相似商户名称中同一要素的相似度最高的相似商户名称确定为所述待搜索商户名称的匹配商户名称。可选地,所述根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率,确定所述分词的要素属性之后,从搜索库中查找所述待搜索商户名称的匹配商户名称之前,还包括:根据预设规则调整所述待搜索商户名称中各分词的要素属性。可选地,所述要素属性包括行政区划要素、字号要素、行业特点要素;所述根据预设规则调整所述待搜索商户名称中各分词的要素属性,包括:在连续的行政区划词之间没有层级关系时,将所述连续的行政区划词中最后一个分词的要素属性调整为字号要素,所述行政区划词为行政区划要素对应的分词;或在所述待搜索商户名称中没有字号词时,将多个行政区划词中最后一个分词的要素属性调整为字号要素,所述字号词为字号要素对应的分词;或在所述待搜索商户名称中没有行政区划词和字号词时,将多个行业特点词中第一个分词的要素属性调整为字号要素,所述行业特点词为行业特点要素对应的分词;或在所述待搜索商户名称中存在多个连续的字号词时,将所述多个连续的字号词进行合并为一个字号词。相应地,本专利技术实施例还提供了一种商户名称搜索装置,包括:分词模块,用于对待搜索商户名称进行分词;处理模块,用于针对每个分词,根据所述分词的词义确定所述分词作为各要素的词义概率;根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性;匹配模块,用于根据各分词的要素属性,从搜索库中查找所述待搜索商户名称的匹配商户名称,所述匹配商户名称与所述待搜索商户名称的相似度大于设定阈值。可选地,所述处理模块具体用于:针对所述待搜索商户名称中的第一个分词,确定所述第一个分词作为各要素的词义概率;根据所述第一个分词作为各要素的词义概率和所述各要素作为商户名称中第一个词的位置概率,确定所述第一个分词的要素属性;针对所述待搜索商户名称中的第i个分词,确定所述第i个分词作为各要素的词义概率;根据各要素之间的状态转移概率和第i-1个分词的要素属性,确定所述各要素作为商户名称中第i个词的位置概率;根据所述第i个分词作为各要素的词义概率和所述各要素作为商户名称中第i个词的位置概率,确定所述第i个分词的要素属性,i大于等于2。可选地,所述处理模块具体用于:根据下述公式(1)确定所述分词的要素属性:Y=argmax(P(Xn=j)*Pj)………………………………………(1)其中,Y为分词的要素属性,Pj为各要素在商户名称中的位置概率,P(Xn=j)为分词作为各要素的词义概率,Xn为商户名称中第n个分词,j表示各要素。可选地,所述匹配模块具体用于:针对所述搜索库中任意一个比对商户名称,按照要素比对的方式,确定所述待搜索商户名称和所述比对商户名称的各要素的相似度;按照预设的要素优先级依次判断所述各要素的相似度是否大于相似度阈值;将满足所述各要素相似度均大于所述相似度阈值的比对商户名称确定为相似商户名称;根据各要素的相似度及各要素权重确定各相似商户名称与所述待搜索商户名称的相似度;将相似度大于所述设定阈值的相似商户名称确定为所述待搜索商户名称的匹配商户名称。可选地,所述匹配模块具体用于:若相似度大于所述设定阈值的相似商户名称有多个,则根据所述要素优先级,将所述多个相似商户名称中同一要素的相似度最高的相似商户名称确定为所述待搜索商户名称的匹配商户名称。可选地,所述处理模块还用于:所述根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性之后,从搜索库中查找所述待搜索商户名称的匹配商户名称之前,还包括:根据预设规则调本文档来自技高网...
一种商户名称搜索方法和装置

【技术保护点】
一种商户名称搜索方法,其特征在于,包括:对待搜索商户名称进行分词;针对每个分词,根据所述分词的词义确定所述分词作为各要素的词义概率;根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性;根据各分词的要素属性,从搜索库中查找所述待搜索商户名称的匹配商户名称,所述匹配商户名称与所述待搜索商户名称的相似度大于设定阈值。

【技术特征摘要】
1.一种商户名称搜索方法,其特征在于,包括:对待搜索商户名称进行分词;针对每个分词,根据所述分词的词义确定所述分词作为各要素的词义概率;根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性;根据各分词的要素属性,从搜索库中查找所述待搜索商户名称的匹配商户名称,所述匹配商户名称与所述待搜索商户名称的相似度大于设定阈值。2.如权利要求1所述的方法,其特征在于,所述针对每个分词,根据所述分词的词义确定所述分词作为各要素的词义概率;根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性,包括:针对所述待搜索商户名称中的第一个分词,确定所述第一个分词作为各要素的词义概率;根据所述第一个分词作为各要素的词义概率和所述各要素作为商户名称中第一个词的位置概率,确定所述第一个分词的要素属性;针对所述待搜索商户名称中的第i个分词,确定所述第i个分词作为各要素的词义概率;根据各要素之间的状态转移概率和第i-1个分词的要素属性,确定所述各要素作为商户名称中第i个词的位置概率;根据所述第i个分词作为各要素的词义概率和所述各要素作为商户名称中第i个词的位置概率,确定所述第i个分词的要素属性,i大于等于2。3.如权利要求1所述的方法,其特征在于,所述根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率确定所述分词的要素属性符合下述公式(1):Y=argmax(P(Xn=j)*Pj)………………………………………(1)其中,Y为分词的要素属性,Pj为各要素在商户名称中的位置概率,P(Xn=j)为分词作为各要素的词义概率,Xn为商户名称中第n个分词,j表示各要素。4.如权利要求1所述的方法,其特征在于,所述根据各分词的要素属性,从搜索库中查找所述待搜索商户名称的匹配商户名称,包括:针对所述搜索库中任意一个比对商户名称,按照要素比对的方式,确定所述待搜索商户名称和所述比对商户名称的各要素的相似度;按照预设的要素优先级依次判断所述各要素的相似度是否大于相似度阈值;将满足所述各要素相似度均大于所述相似度阈值的比对商户名称确定为相似商户名称;根据各要素的相似度及各要素权重确定各相似商户名称与所述待搜索商户名称的相似度;将相似度大于所述设定阈值的相似商户名称确定为所述待搜索商户名称的匹配商户名称。5.如权利要求1所述的方法,其特征在于,所述将相似度大于所述设定阈值的相似商户名称确定为所述待搜索商户名称的匹配商户名称,包括:若相似度大于所述设定阈值的相似商户名称有多个,则根据所述要素优先级,将所述多个相似商户名称中同一要素的相似度最高的相似商户名称确定为所述待搜索商户名称的匹配商户名称。6.如权利要求1至5任一项所述的方法,其特征在于,所述根据所述分词作为各要素的词义概率及各要素在商户名称中的位置概率,确定所述分词的要素属性之后,从搜索库中查找所述待搜索商户名称的匹配商户名称之前,还包括:根据预设规则调整所述待搜索商户名称中各分词的要素属性。7.如权利要求6所述的方法,其特征在于,所述要素属性包括行政区划要素、字号要素、行业特点要素;所述根据预设规则调整所述待搜索商户名称中各分词的要素属性,包括:在连续的行政区划词之间没有层级关系时,将所述连续的行政区划词中最后一个分词的要素属性调整为字号要素,所述行政区划词为行政区划要素对应的分词;或在所述待搜索商户名称中没有字号词时,将多个行政区划词中最后一个分词的要素属性调整为字号要素,所述字号词为字号要素对应的分词;或在所述待搜索商户名称中没有行政区划词和字号词时,将多个行业特点词中第一个分词的要素属性调整为字号...

【专利技术属性】
技术研发人员:邱懋霖蔡睿曾昭豫雷明莉唐茜赵萌呼如生
申请(专利权)人:银联智策顾问上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1