【技术实现步骤摘要】
地理位置标准化提取的方法
本专利技术涉及网络
,具体涉及一种地理位置标准化提取的方法。
技术介绍
在数据量大量增加的情况下,对地址信息提取粒度和速度显得格外重要,因此需要一个快速和准确提取地址信息中的省、市、区、街的算法。现有的技术手段是通过多维度地理位置匹配,用未明确的地理位置模糊匹配已知的地理位置,该方法严重依赖已有地理位置,其完整性决定匹配概率,例如多维度匹配四川省成都市组地理位置需要模糊三十四个省以及各自对应的市匹配,计算次数是两个维度数量之积,依次类推,三个地理位置就是三个维度数量之积,算法复杂度非常高,时间花在多维模糊匹配,并且某某地理位置的缺失或者上传地理位置的某某字段的错误拼写会导致匹配上错误率上升,尤其具体到街道粒度很小信息,会因为大部分街道信息不全,导致该信息的被丢弃的现象,该技术符合正常的思维逻辑,用要解析的信息去匹配已有的信息。
技术实现思路
本专利技术克服了现有技术中多维度模糊匹配地址信息,导致算法复杂度高、运行时间缓慢的问题,提供一种在数据大量情况下,解析时间明显缩短的地理位置标准化提取的方法。为解决上述的技术问题,本专利技术采用以下 ...
【技术保护点】
一种地理位置标准化提取的方法,其特征在于,它包括以下步骤:步骤1,构造基于百度地理标准的词典,网络爬取对应网址中中国的地理位置信息,爬取下来的地理位置信息按照位置、类型、权重值的格式以Tab键相隔形成词典;步骤2,采用ansj分词器,优先调用基于百度地理标准的词典,再加载默认的词典,关闭人名字典的分词;步骤3,对终端上报的地理位置信息,多线程调用ansj分词器的APT接口,切分出来的信息进行省、市、区的位置模糊匹配,去噪,依次确定相对的大地点;步骤4,切出来的结果,按照mac对应地理位置写到数据库中。
【技术特征摘要】
1.一种地理位置标准化提取的方法,其特征在于,它包括以下步骤:步骤1,构造基于百度地理标准的词典,网络爬取对应网址中中国的地理位置信息,爬取下来的地理位置信息按照位置、类型、权重值的格式以Tab键相隔形成词典;步骤2,采用ansj分词器,优先调用基于百度...
【专利技术属性】
技术研发人员:闫立鑫,吴上波,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。