The invention provides a Chinese address standardization method, device and electronic equipment, which particifies source address according to preset participle database, duplicates the result of participle segmentation to obtain the first list and the second list with the same content, matches the first list according to preset hierarchical database, and cuts off or splices the content of the second list according to the matching result of the first list. The source address information after word segmentation is regularized as the address to be standardized; the address to be standardized is input into the preset Trie tree to judge whether the address to be standardized conforms to the preset specifications according to the Trie tree, mark the address to be standardized that does not conform to the preset specifications and feedback the information of the failure of standardization; or the address to be standardized that does not conform to the preset specifications is supplemented to generate standardization. Address for output. The Chinese address standardization method, device and electronic device of the present invention can accurately and efficiently parse the source address contained in the text information into a standard address and improve the effect of address information management.
【技术实现步骤摘要】
一种中文地址标准化方法、装置及电子设备
本专利技术涉及信息
,特别是涉及一种中文地址标准化方法、装置及电子设备。
技术介绍
在信息
,经常出现中文地址,例如收发快递,各类机构的申请表格,房屋买卖租赁信息等,作为标识客户的重要字段之一,地址信息的重要性不言而喻。但由于地址信息来源过广,地址信息收集的规范不统一,填写方式各异,填写人习惯不同等原因,导致中文地址经常存在不规范、缺失甚至矛盾的信息,使得一切基于地址信息方面的业务操作都存在较大障碍,给国家和社会带来诸多管理困难,并且对公司来说,在提供各种服务时,如收发快递、精准地域营销、风险管控等,需要投入大量的人力和时间解决地址不规范问题。所以我们需要有一种高效通用的办法来对各种来源的地址进行标准化处理,从而为各个领域所应用,比如,公安地址信息的快速比对或匹配、收发快递时错误地址的及时提醒和自动纠错,不同级别地域维度的地址反欺诈监控警报等。标准化处理后的地址信息可以帮助我们快速返回与此地址相关的多维度详细信息分析集合。不同级别标准化的地址所支持的应用场景范围不同,标准化程度越高所适用的业务应用场景越多。由于较之英文地址,中文地址有一定的独特性,所以在对中文地址标准化的处理方法尚待深入发掘,现需要一种更加完整高效的技术方法,可以有效减少地址解析的人力投入,提高地址解析的准确性和效率。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种中文地址标准化方法、装置及电子设备,用于解决现有技术中不能准确且高效的将文字信息中包含的源地址解析为标准地址的问题。为实现上述目的及其他相关目的,本专利技术 ...
【技术保护点】
1.一种中文地址标准化方法,其特征在于,包括:接收源地址信息;根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。
【技术特征摘要】
1.一种中文地址标准化方法,其特征在于,包括:接收源地址信息;根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。2.根据权利要求1所述的中文地址标准化方法,其特征在于,所述标准化地址至少包括省级内容、市级内容、县级内容以及镇级内容。3.根据权利要求1所述的中文地址标准化方法,其特征在于,根据所述预设分词数据库,按照逐级正向最大匹配规则对所述源地址进行分词。4.根据权利要求3所述的中文地址标准化方法,其特征在于,所述分词数据库包括地址字典,所述地址字典包括省级内容、市级内容、县级内容和镇级内容,且分别赋予所述省级内容、市级内容、县级内容和镇级内容的词频权重,且根据所述词频权重,对所述源地址进行分词。5.根据权利要求4所述的中文地址标准化方法,其特征在于,所述省级内容的词频权重大于所述市级内容的词频权重,所述市级内容的词频权重大于所述县级内容的词频权重,所述县级内容的词频权重大于所述镇级内容的词频权重。6.根据权利要求1所述的中文地址标准化方法,其特征在于,所述分级数据库包括根据国家行政级别划分的分级字典,该分级字典包括省级、市级、县级以及镇级。7.根据权利要求6所述的中文地址标准化方法,其特征在于,根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息...
【专利技术属性】
技术研发人员:马林,
申请(专利权)人:深圳市小赢信息技术有限责任公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。