地址信息的处理方法、终端设备及计算机可读存储介质技术

技术编号:20448690 阅读:24 留言:0更新日期:2019-02-27 02:52
本发明专利技术适用于计算机应用技术领域,提供了地址信息的处理方法、终端设备及计算机可读存储介质,包括:接收待处理的原地址信息,将原地址信息通过预设的数据清洗模型进行数据,清洗生成原地址信息的文本摘要,将文本摘要输入到预设的地图信息网站中得到备选地址;根据文本摘要和备选地址识别与原地址信息匹配的备选地址为目标地址。通过将获取到的原地址信息进行数据清理得到文本摘要,再将文本摘要通过至少一个地图信息网站得到备选地址,并识别与原地址信息最匹配的备选地址作为目标地址,提高了地址信息规范化过程的效率,实现了地址信息的模板化和统一化。

Processing Method of Address Information, Terminal Equipment and Computer Readable Storage Media

The invention is applicable to the field of computer application technology, and provides the processing method of address information, terminal equipment and computer readable storage medium, including receiving the original address information to be processed, cleaning the original address information through the preset data cleaning model, generating the text summary of the original address information, and inputting the text summary into the preset map information website to obtain it. Alternative addresses; identify alternative addresses that match the original address information as target addresses based on text summaries and alternative addresses. By clearing up the original address information to get the text summary, and then getting the alternative address through at least one map information website, and identifying the alternative address that matches the original address information as the target address, the efficiency of the standardization process of address information is improved, and the template and unification of address information are realized.

【技术实现步骤摘要】
地址信息的处理方法、终端设备及计算机可读存储介质
本专利技术属于计算机应用
,尤其涉及地址信息的处理方法、终端设备及计算机可读存储介质。
技术介绍
在很多项目进行过程中,需要获取到全面、精确、格式统一的企业信息或者用户信息,例如公司名称、统一社会信用代码、公司地址、法定代表人以及用户地址等信息。而在获取一些企业的单位地址或者用户的住址的时候,很多情况下获取到的地址信息都不够规范,不能清楚、明确的通过这些获取到的信息确定目标对象的实际地址。现有技术中为了保证地址信息的精确性,都是人为上门或者实际查询进行排查和修改地址,这种在地址信息较多的情况下,增大了工作量和处理时间,不能保证地址信息的处理效率。
技术实现思路
有鉴于此,本专利技术实施例提供了地址信息的处理方法、终端设备及计算机可读存储介质,以解决现有技术中在地址信息较多的情况下,增大了工作量和处理时间,不能保证地址信息的处理效率的问题。本专利技术实施例的第一方面提供了一种地址信息的处理方法,包括:接收待处理的原地址信息;将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。本专利技术实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:接收待处理的原地址信息;将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。本专利技术实施例的第三方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例通过接收待处理的原地址信息,将原地址信息通过预设的数据清洗模型进行数据,清洗生成原地址信息的文本摘要,将文本摘要输入到预设的地图信息网站中得到备选地址;根据文本摘要和备选地址识别与原地址信息匹配的备选地址为目标地址。通过将获取到的原地址信息进行数据清理得到文本摘要,再将文本摘要通过至少一个地图信息网站得到备选地址,并识别与原地址信息最匹配的备选地址作为目标地址,提高了地址信息规范化过程的效率,实现了地址信息的模板化和统一化。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的地址信息的处理方法的流程图;图2是本专利技术实施例二提供的地址信息的处理方法的流程图;图3是本专利技术实施例三提供的终端设备的示意图;图4是本专利技术实施例四提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。参见图1,图1是本专利技术实施例一提供的地址信息的处理方法的流程图。本实施例中地址信息的处理方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的地址信息的处理方法可以包括以下步骤:S101:接收待处理的原地址信息。目前,互联网正处于高速发展时期,网络信息也出现了爆炸式增长的情况。随着各种移动终端设备的流行,人们逐渐舍弃了纯手工文本,开始频繁使用电子文本进行工作、记录和交流等,尤其依赖于从网络上获取有效的信息资源。然而,网络环境中的信息资源数量极其庞大,杂乱无章,很多数据、信息都没有统一的显示方法。尤其是在一些人力、企业的管理方面,人力信息和企业信息的归档不统一很常见,这种情况很容易造成信息错误或者不对号的问题发生。尤其是对企业地址进行处理的时候,很多地址信息都不够规范化,没有明确、统一的表述方式,这样为之后的信息处理造成较大的困难和阻碍。在本实施例中,通过获取待处理的原地址信息,对其进行处理得到符合标准的地址信息表述方式。可以通过各种方式来获得待处理的原地址信息,示例性的,可以由用户直接输入,或者通过现有的新词检测方法等从包含该待规范化的原地址信息的语句中检测出该待处理的原地址信息,此处不做限定。需要说明的是,本实施例中的原地址信息用于表示企业负责人或者网络上的各种企业的地址信息,这些原地址信息一般情况下都不符合管理、统计规范,或者没有统一的描述标准,不能统一、清楚的表示出该处的地址信息。S102:将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要。在获取到待处理的原地址信息之后,考虑到每个原地址信息都不够正规,但是其中又包含了各种类型的关键词信息,因此,需要在本实施例中,通过预设的数据清洗模型进行数据清洗,得到文本摘要。需要说明的是,本实施例中的文本摘要包括至少一个用于表示原地址信息的关键词,关键词用于表示每个单独的词语,这些词语可以完全说明该原地址信息中的内容。示例性的,例如,北京市东城区景山前街4号,其中的由关键词组成的文本摘要便可以是“北京市”、“东城区”、“景山前街”“4号”。在本实施例中,将原地址信息中的零散信息通过文本摘要中的关键词表示出来,以使在不对原地址信息中的信息做出删减或者其他改动的情况下,保证地址信息的精简性和完整性。在实际应用中,本实施例中的数据清洗模型是通过对语料库中的数据进行预先训练得到的。数据清洗是将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为我们可以进一步加工、使用的数据。在对数据进行清洗中,包括了对数据值缺失的处理,通常使用的方法包括但不限于删除缺失值、均值填补法以及热卡填补法。其中,删除缺失值是当样本数很多的时候,并且出现缺失值的样本在整个的样本的比例相对较小,这种情况下,我们可以使用最简单有效的方法处理缺失值的情况。那就是将出现有缺失值的样本直接丢弃。这是一种很常用的策略。均值填补法是根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。热卡填补法是对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有变量按Y的取值大小进行排序。那么变量X的本文档来自技高网...

【技术保护点】
1.一种地址信息的处理方法,其特征在于,包括:接收待处理的原地址信息;将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。

【技术特征摘要】
1.一种地址信息的处理方法,其特征在于,包括:接收待处理的原地址信息;将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要;所述清洗模型为基于预设的语料库进行训练得到;将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址;根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址。2.如权利要求1所述的地址信息的处理方法,其特征在于,所述将所述原地址信息通过预设的数据清洗模型进行数据清洗,生成所述原地址信息的文本摘要之前,还包括:基于预设的条件随机场算法模型、预设的注意力模型和预设的文本摘要生成模型,对所述语料库进行训练,得到数据清洗模型;所述数据清洗模型用于对所述原地址信息进行数据清洗,得到文本摘要;所述文本摘要包括至少一个用于表示所述原地址信息的关键词。3.如权利要求1所述的地址信息的处理方法,其特征在于,所述将所述文本摘要输入到预设的地图信息网站中,得到至少一个备选地址,包括:通过至少一个所述地图信息网站对所述文本摘要进行搜索,从每个所述地图信息网站中获取所述文本摘要的备选地址信息;所述备选地址信息中包括:地图供应商、地图提供的兴趣点名称以及与所述原地址信息对应的详细地址。4.如权利要求2所述的地址信息的处理方法,其特征在于,所述根据所述文本摘要和所述备选地址,识别与所述原地址信息匹配的备选地址为目标地址,包括:统计每个所述备选地址中所包含的关键词;根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度;识别匹配度最高的备选地址为所述目标地址。5.如权利要求4所述的地址信息的处理方法,其特征在于,所述根据所述每个所述备选地址中所包含的关键词、所述文本摘要中关键词的总个数,计算每个所述备选地址与所述文本摘要的匹配度,包括:通过公式计算所述备选地址与所述文本摘要的匹配度;其中,word_1,word_2,...,word_n用于表示每个所述关键词;N用于表示所述文本摘要中的关键词总个数;矩阵Dev_n=(dev_1,dev_2,…,dev_n)用于表示每个类型的关键词的贡...

【专利技术属性】
技术研发人员:吴壮伟钟宇凌羽赵小梅
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1