一种基于矩阵运算的地名匹配方法组成比例

技术编号:36574996 阅读:13 留言:0更新日期:2023-02-04 17:33
本发明专利技术公开了一种基于矩阵运算的地名匹配方法,包括以下步骤:S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;S2、将编码向量输入区域分类模型,得到区域数据;S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。本发明专利技术提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。本发明专利技术采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,可以快速并且精准的匹配用户想要搜索的地名。想要搜索的地名。想要搜索的地名。

【技术实现步骤摘要】
一种基于矩阵运算的地名匹配方法


[0001]本专利技术属于计算机应用
,具体涉及一种基于矩阵运算的地名匹配方法。

技术介绍

[0002]在地理位置名称查询场景,用户在进行地名搜索时,输入的关键字常常是随机的、任意的、无序的,甚至是含有拼音、错别字、同音词等,需要一种文本匹配方法能快速并且精准的匹配用户想要搜索的地名。
[0003]目前,市场上常见的数据库,比如mysql、oracle、ElasticSearch等,虽然上述数据库具有模糊查询功能,但是并不能满足用户输入的关键字是无序的、任意的、含有拼音等情况,换句话说,数据库只能机械的匹配用户搜索的关键字,不能智能的猜测用户想要的搜索的内容。当下在自然语言处理技术、机器学习、深度学习等相关技术的大环境下,各个领域在文本搜索方面都取得了很大的突破,比如百度关键字搜索、高德地图位置搜索,都能像机器人一样匹配你可能想要的结果,但是,在地名精准匹配方面,目前没有一项应用能满足用户的随意输入、错别字输入、拼音输入等,精度方面也不能达到要求。

技术实现思路

[0004]针对现有技术中的上述不足,本专利技术提供的一种基于矩阵运算的地名匹配方法解决了地理位置查询场景下地名匹配精度不高的问题。
[0005]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于矩阵运算的地名匹配方法,包括以下步骤:S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;S2、将编码向量输入区域分类模型,得到区域数据;S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
[0006]进一步地:所述S1中,编码操作的方法具体为TF

IDF编码方法。
[0007]进一步地:所述TF

IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;其中,计算所述词频的表达式具体为:式中,为某一类词条w在文本中出现的次数,S为该类中所有词条数目;计算所述逆文本指数IDF的表达式具体为:式中,为包含词条w的文档总数,T为预料库的文档总数。
[0008]进一步地:所述S2中,得到区域分类模型的方法包括以下分步骤:S21、收集地名底表,将地名底表进行预处理,得到地址向量;
S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
[0009]进一步地:所述S21中,预处理包括数据增强和编码操作;所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;其中,所述地名底表包括地名和地名对应的地名描述。
[0010]进一步地:所述S21中,对地名底表中数据进行数据增强的方法具体为:在地名底表的地名描述中加入拼音、错别字和同音词。
[0011]进一步地:所述S3包括以下分步骤:S31、根据所述区域数据得到区域矩阵和独热编码字典;S32、通过所述独热编码字典将所述关键字转换为关键字向量;S33、根据关键字向量和区域矩阵,得到匹配向量;S34、查询与匹配向量最接近的地址向量,将所述地址向量对应的地名作为匹配结果,完成地名匹配。
[0012]进一步地:所述S31中,得到独热编码字典的方法具体为:将地名底表按照区域划分得到地名区域子表,去掉所述地名区域子表中的通用词,并对去掉通用词后的地名区域子表中的所有词进行编码,生成独热编码字典;得到区域矩阵的方法具体为:通过独热编码字典对所述地名区域子表中所有地名进行编码,得到区域矩阵。
[0013]上述进一步方案的有益效果为:去掉通用词可以减少计算机的计算量。
[0014]进一步地:所述S33中,得到匹配向量的表达式具体为:式中,为关键字向量,为区域矩阵。
[0015]上述进一步方案的有益效果为:本专利技术在区域内对于地址匹配,不需要其语义信息,也不需要关注文本上下文关系,只需保证尽可能与用户搜索的内容匹配更多相同的字符,提高用户满意度。
[0016]本专利技术的有益效果为:(1)本专利技术提供的一种基于矩阵运算的地名匹配方法在地名查询场景,当用户查询关键字为无序的,含有拼音,错别字,同音词等,都能快速、精准匹配到用户想要查询的地名,大大给用户带来了方便。
[0017](2)本专利技术采用机器学习及nlp思想解决了地理位置查询场景下地名匹配精度不高的问题,通过区域分类模型预测出查询关键字的区域数据,再用矩阵计算及向量内积算法对区域数据进行地名精准匹配,可以快速并且精准的匹配用户想要搜索的地名。
附图说明
[0018]图1为本专利技术的一种基于矩阵运算的地名匹配方法的流程图。
具体实施方式
[0019]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。
[0020]如图1所示,在本专利技术的一个实施例中,一种基于矩阵运算的地名匹配方法,包括以下步骤:S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;S2、将编码向量输入区域分类模型,得到区域数据;S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。
[0021]所述S1中,编码操作的方法具体为TF

IDF编码方法。
[0022]所述TF

IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;TF

IDF实际上是TF * IDF,TF

IDF倾向于过滤掉常见的词语,保留重要的词语,其有利于训练朴素贝叶斯概率模型。
[0023]其中,计算所述词频的表达式具体为:式中,为某一类词条w在文本中出现的次数,S为该类中所有词条数目;所述词频用于表示词条在文本中出现的频率;计算所述逆文本指数IDF的表达式具体为:式中,为包含词条w的文档总数,T为预料库的文档总数。
[0024]所述逆文本指数IDF用于说明词条具有的类别区分能力,如果包含词条的文档越少,则IDF越大,词条具有的类别区分能力越好。
[0025]所述S2中,得到区域分类模型的方法包括以下分步骤:S21、收集地名底表,将地名底表进行预处理,得到地址向量;S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。
[0026]所述S21中,预处理包括数据增强和编码操作;所述S21具体为:收集地名底表,对地名底表中数据进行数据增强,对数据增强后的数据进行编码操作,得到地址向量;其中,所述地名底表包括地名和地名对应的地名描述。
[0027]所述S21中,对地名底表中数据进行数据增强的方法具体为:在地名底表的地名描述中加入拼音、错别字和同音词;所述编码操作的方法具体为TF

ID本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于矩阵运算的地名匹配方法,其特征在于,包括以下步骤:S1、获取用户输入文本的关键字,将关键字进行编码操作得到编码向量;S2、将编码向量输入区域分类模型,得到区域数据;S3、根据区域数据进行地名匹配,得到匹配结果,完成地名匹配。2.根据权利要求1所述的基于矩阵运算的地名匹配方法,其特征在于,所述S1中,编码操作的方法具体为TF

IDF编码方法。3.根据权利要求2所述的基于矩阵运算的地名匹配方法,其特征在于,所述TF

IDF编码方法具体为:计算关键字的词频和逆文本指数,将词频和逆文本指数相乘得到地址向量;其中,计算所述词频的表达式具体为:式中,为某一类词条w在文本中出现的次数,S为该类中所有词条数目;计算所述逆文本指数IDF的表达式具体为:式中,为包含词条w的文档总数,T为预料库的文档总数。4.根据权利要求3所述的基于矩阵运算的地名匹配方法,其特征在于,所述S2中,得到区域分类模型的方法包括以下分步骤:S21、收集地名底表,将地名底表进行预处理,得到地址向量;S22、建立朴素贝叶斯模型,通过地址向量训练和调试朴素贝叶斯模型,得到区域分类模型。5.根据权利要求4所述的基于矩阵运算的地名匹配方法,其特征在于,所述S21中,预处理包括数据增强和编码操作;所述S21具体为:收集...

【专利技术属性】
技术研发人员:曹晔孔维彭真杨智均赵谦周翔徐锴
申请(专利权)人:四川易利数字城市科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1