一种中文地址标准化方法、装置及电子设备制造方法及图纸

技术编号:21224867 阅读:52 留言:0更新日期:2019-05-29 05:36
本发明专利技术提供一种中文地址标准化方法、装置及电子设备,根据预设分词数据库对源地址进行分词;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对第一列表进行匹配,且根据对第一列表的匹配结果,对第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将待标准化地址输入预设的Trie树,以根据Trie树判断待标准化地址是否符合预设规范,对不符合预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合预设规范的待标准化地址进行补齐后生成标准化地址以供输出。本发明专利技术的中文地址标准化方法、装置及电子设备可以准确且高效的将文字信息中包含的源地址解析为标准地址,提升地址信息管理的效果。

A Chinese Address Standardization Method, Device and Electronic Equipment

The invention provides a Chinese address standardization method, device and electronic equipment, which particifies source address according to preset participle database, duplicates the result of participle segmentation to obtain the first list and the second list with the same content, matches the first list according to preset hierarchical database, and cuts off or splices the content of the second list according to the matching result of the first list. The source address information after word segmentation is regularized as the address to be standardized; the address to be standardized is input into the preset Trie tree to judge whether the address to be standardized conforms to the preset specifications according to the Trie tree, mark the address to be standardized that does not conform to the preset specifications and feedback the information of the failure of standardization; or the address to be standardized that does not conform to the preset specifications is supplemented to generate standardization. Address for output. The Chinese address standardization method, device and electronic device of the present invention can accurately and efficiently parse the source address contained in the text information into a standard address and improve the effect of address information management.

【技术实现步骤摘要】
一种中文地址标准化方法、装置及电子设备
本专利技术涉及信息
,特别是涉及一种中文地址标准化方法、装置及电子设备。
技术介绍
在信息
,经常出现中文地址,例如收发快递,各类机构的申请表格,房屋买卖租赁信息等,作为标识客户的重要字段之一,地址信息的重要性不言而喻。但由于地址信息来源过广,地址信息收集的规范不统一,填写方式各异,填写人习惯不同等原因,导致中文地址经常存在不规范、缺失甚至矛盾的信息,使得一切基于地址信息方面的业务操作都存在较大障碍,给国家和社会带来诸多管理困难,并且对公司来说,在提供各种服务时,如收发快递、精准地域营销、风险管控等,需要投入大量的人力和时间解决地址不规范问题。所以我们需要有一种高效通用的办法来对各种来源的地址进行标准化处理,从而为各个领域所应用,比如,公安地址信息的快速比对或匹配、收发快递时错误地址的及时提醒和自动纠错,不同级别地域维度的地址反欺诈监控警报等。标准化处理后的地址信息可以帮助我们快速返回与此地址相关的多维度详细信息分析集合。不同级别标准化的地址所支持的应用场景范围不同,标准化程度越高所适用的业务应用场景越多。由于较之英文地址,中文地址有一定的独特性,所以在对中文地址标准化的处理方法尚待深入发掘,现需要一种更加完整高效的技术方法,可以有效减少地址解析的人力投入,提高地址解析的准确性和效率。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种中文地址标准化方法、装置及电子设备,用于解决现有技术中不能准确且高效的将文字信息中包含的源地址解析为标准地址的问题。为实现上述目的及其他相关目的,本专利技术提供一种中文地址标准化方法,包括:接收源地址信息;根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。于本专利技术一具体实施例中,所述标准化地址至少包括省级、市级、县级以及镇级。于本专利技术一具体实施例中,根据所述预设分词数据库,按照逐级正向最大匹配规则对所述源地址进行分词。于本专利技术一具体实施例中,所述分词数据库包括地址字典,所述地址字典包括省级内容、市级内容、县级内容和镇级内容,且分别赋予所述省级内容、市级内容、县级内容和镇级内容的词频权重,且根据所述词频权重,对所述源地址进行分词。于本专利技术一具体实施例中,所述省级内容的词频权重大于所述市级内容的词频权重,所述市级内容的词频权重大于所述县级内容的词频权重,所述县级内容的词频权重大于所述镇级内容的词频权重。于本专利技术一具体实施例中,所述分级数据库包括根据国家行政级别划分的分级字典,该分级字典包括省级、市级、县级以及镇级。于本专利技术一具体实施例中,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址的步骤还包括,根据所述分级字典对所述第一列表进行地址匹配,并根据该匹配结果,去除无效字符,且根据所述分级字典的省级、市级、县级以及镇级的内容对第二列表的内容进行映射、切断或拼接,以将分词后的源地址信息规整为具有省级、市级、县级和/或镇级的待标准化地址。于本专利技术一具体实施例中,所述词包括多个字,只对所述分词结果中的词,根据所述分级字典进行匹配。于本专利技术一具体实施例中,根据所述Trie树判断所述待标准化地址是否符合预设规范的步骤还包括:当所述待标准化地址中包括对应省级和市级的内容时,且判断所述省级和市级对应的内容矛盾时,判断所述待标准化地址不符合预设规范;当所述待标准化地址中的对应省级或市级的内容缺失时,对所述待标准化地址中的省级或市级的内容进行补齐,以生成所述标准化地。为实现上述目的及其他相关目的,本专利技术还提供一种中文地址标准化装置,包括:源地址接收模块,用以接收源地址信息;分词模块,用以根据预设分词数据库对所述源地址进行分词;双列表规整模块,用以复制分词结果以获得内容匹配的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;Tire树处理模块,用以将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。为实现上述目的及其他相关目的,本专利技术还提供一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如上任一项所述的中文地址标准化方法。如上所述,本专利技术的中文地址标准化方法、装置及电子设备,根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的地址词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。本专利技术的中文地址标准化方法、装置及电子设备可以准确且高效的将文字信息中包含的源地址解析为标准地址,在市场营销、客户管理和风险控制等细分领域可以获取更为精准的地址信息,可以按省、市、县、镇进行更为精准的划分,提升地址信息管理的效果,为具体业务提供有效支撑。附图说明图1显示为本专利技术的中文地址标准化方法在一具体实施例中的流程示意图图2显示为本专利技术的中文地址标准化装置在一具体实施例中的组成示意图。图3显示为本专利技术的一具体实施例中的Trie树的部分结构示意图。图4显示为本专利技术的电子设备在一具体实施例中的组成示意图。元件标号说明10中文地址标准化装置11源地址接收模块12分词模块13双列表规整模块14Tire树处理模块20电子设备21处理器22存储器S11~S14步骤具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图示中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态本文档来自技高网...

【技术保护点】
1.一种中文地址标准化方法,其特征在于,包括:接收源地址信息;根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。

【技术特征摘要】
1.一种中文地址标准化方法,其特征在于,包括:接收源地址信息;根据预设分词数据库对所述源地址进行分词,分词结果包括关于源地址的词、单个字和/或单个符号;复制分词结果以获得内容相同的第一列表和第二列表,根据预设的分级数据库对所述第一列表进行匹配,且根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息规整为待标准化地址;将所述待标准化地址输入预设的Trie树,以根据所述Trie树判断所述待标准化地址是否符合预设规范,对不符合所述预设规范的待标准化地址进行标记且反馈标准化失败的信息;或对不符合所述预设规范的待标准化地址进行补齐后生成标准化地址以供输出。2.根据权利要求1所述的中文地址标准化方法,其特征在于,所述标准化地址至少包括省级内容、市级内容、县级内容以及镇级内容。3.根据权利要求1所述的中文地址标准化方法,其特征在于,根据所述预设分词数据库,按照逐级正向最大匹配规则对所述源地址进行分词。4.根据权利要求3所述的中文地址标准化方法,其特征在于,所述分词数据库包括地址字典,所述地址字典包括省级内容、市级内容、县级内容和镇级内容,且分别赋予所述省级内容、市级内容、县级内容和镇级内容的词频权重,且根据所述词频权重,对所述源地址进行分词。5.根据权利要求4所述的中文地址标准化方法,其特征在于,所述省级内容的词频权重大于所述市级内容的词频权重,所述市级内容的词频权重大于所述县级内容的词频权重,所述县级内容的词频权重大于所述镇级内容的词频权重。6.根据权利要求1所述的中文地址标准化方法,其特征在于,所述分级数据库包括根据国家行政级别划分的分级字典,该分级字典包括省级、市级、县级以及镇级。7.根据权利要求6所述的中文地址标准化方法,其特征在于,根据对所述第一列表的匹配结果,对所述第二列表的内容进行切断或拼接以将分词后的源地址信息...

【专利技术属性】
技术研发人员:马林
申请(专利权)人:深圳市小赢信息技术有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1