一种数据挖掘、处理方法和装置,存储介质和电子设备制造方法及图纸

技术编号:30551200 阅读:26 留言:0更新日期:2021-10-30 13:31
本申请公开一种数据挖掘、处理方法和装置,存储介质和电子设备,其中所述方法包括:根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;当前第一实体对象信息和第二实体对象信息集合中的第二实体对象信息为第一实体类型;对第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;对当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征当前地址信息的当前实体单元结构化信息;根据当前实体单元结构化信息与候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息;从而定位场景提供较为丰富的数据支持,提高定位准确性以及减少定位耗时。及减少定位耗时。及减少定位耗时。

【技术实现步骤摘要】
一种数据挖掘、处理方法和装置,存储介质和电子设备


[0001]本申请涉及计算机应用
,具体涉及数据挖掘方法和装置,数据处理方法和装置。本申请同时涉及一种计算机存储介质和电子设备。

技术介绍

[0002]随着互联网的发展,基于计算机应用技术开发出的应用软件被广泛的使用在日常生活中。例如:生活服务类应用软件。生活服务类应用软件为生活提供了诸多便利性。不论线上还是线下的点餐服务,购物服务、地图导航服务、医疗服务等应用均有涉及到地址,例如:商家地址、用户地址、服务机构地址等,所述地址可以通过搜索或GPS定位等方式,实现在应用服务上输出。

技术实现思路

[0003]本申请提供一种数据挖掘方法,以解决现有技术中地址信息表示的局限性问题。
[0004]本申请提供一种数据挖掘方法,包括:根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息。
[0005]在一些实施例中,所述对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息,包括:根据对所述地址信息的解析,获取与所述地址信息对应的实体单元列表;提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息;其中,所述前缀实体单元信息为第二实体类型和/或所述第一实体类型,所述第一实体单元信息为所述第一实体类型;将所述前缀实体单元信息和第一实体单元信息以键值对的结构化方式进行存储;将所述存储的信息,确定为所述候选实体单元结构化信息。
[0006]在一些实施例中,所述提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息,包括:将根据所述实体单元列表选取的属于所述第一实体类型的实体单元信息,确定为所述第一实体单元信息;根据所述第一实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选实体单元信息;将所述待选实体单元信息、以及所述待选实体单元信息与所述第一实体单元信息之间的实体单元信息确定为所述前缀实体单元信息;所述将所述前缀实体单元信息和所述第一实体单元信息以候选键值对的结构化方式进行存储,包括:将所述前缀实体单元信息、以及所述第一实体单元信息的首位字符和末尾字符,确定为所述候选键值对的候选关键字进行存储;将所述前缀实体单元信息和所述第一实体单元信息、以及所述前缀实体单元信息和所述第一实
体单元信息在所述第二实体对象信息的地址集合内出现的次数,确定为所述候选键值对的候选值进行存储。
[0007]在一些实施例中,所述对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息,包括:根据对所述当前地址信息的解析,获取与所述当前地址信息对应的当前实体单元列表;提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息;其中,所述前缀当前实体单元信息为第一实体类型和/或所述第二实体类型,所述第一当前实体单元信息为所述第一实体类型;将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息。
[0008]在一些实施例中,所述提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息,包括:根据所述当前实体单元列表中,按照排列顺序选取的首次出现的,属于所述第一实体类型的实体单元信息,确定为所述第一当前实体单元信息;根据所述第一当前实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选当前实体单元信息;将所述待选当前实体单元信息、以及所述待选当前实体单元信息与所述第一当前实体单元信息之间的实体单元信息确定为所述前缀当前实体单元信息。
[0009]在一些实施例中,所述将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息,包括:将所述前缀当前实体单元信息、以及所述第一当前实体单元信息的首位字符和末尾字符,确定为所述当前键值对的当前关键字;将所述前缀当前实体单元信息和第一当前实体单元信息,确定为所述当前键值对的当前值;将所述当前关键字和对应的所述当前值,确定为所述当前实体单元结构化信息。
[0010]在一些实施例中,所述根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息,包括:将所述当前实体单元结构化信息中的当前键值对的当前关键字,与所述候选实体单元结构化信息中的候选键值对的候选关键字进行匹配,确定所述候选实体结构化信息的匹配范围;根据所述当前实体单元结构化信息中当前键值对中的当前值,在所述匹配范围内,选取满足筛选条件的所述候选值将选取的所述候选值对应的所述第二实体对象信息,确定为用于描述所述当前第一实体对象信息的所述第一种表示信息。
[0011]在一些实施例中,所述根据所述当前实体单元结构化信息中当前键值对中的当前值,在所述匹配范围内,选取满足筛选条件的所述候选值,包括:确定所述当前值的字符是否与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;和/或,确定所述候选值的字符是否与所述当前值的字符匹配;若是,则将匹配的候选值确定为选取的所述候选值。
[0012]在一些实施例中,还包括:当所述当前值的字符与所述候选实体单元结构化信息的匹配范围内的所述候选值的字符匹配;或者,当所述候选值的字符与所述当前值的字符匹配时;确定所述当前值在所述候选值中出现的次数是否大于或等于设置的次数阈值;若是,则执行将匹配的候选值为选取的所述候选值的步骤。
[0013]在一些实施例中,还包括:根据所述当前第一实体对象信息、所述第二实体对象信
息和第三实体对象信息之间的位置关系,生成所述当前实体单元结构化信息与地址库中地址信息的映射关系;根据所述映射关系,对所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息进行合并;根据合并后的第一种表示信息的集合,确定所述当前第一实体对象信息的第二种表示信息。
[0014]在一些实施例中,所述根据所述映射关系,对所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息进行合并,包括:根据所述映射关系,建立所述当前第一实体对象和所述第二实体对象对应的所述第一种表示信息的信息列表;根据所述当前实体单元化结构信息,对所述第一种表示信息的信息列表进行合并,获得所述第一种表示信息的合并列表。
[0015]在一些实施例中,所述根据合并后的第一种表示信息的集合,确定所述当前第一实体对象信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据挖掘方法,其特征在于,包括:根据当前第一实体对象信息,获取满足选取要求的第二实体对象信息集合;其中,所述当前第一实体对象信息和所述第二实体对象信息集合中的第二实体对象信息为第一实体类型;对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息;对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息;根据所述当前实体单元结构化信息与所述候选实体单元结构化信息进行匹配,确定用于描述所述当前第一实体对象信息的第一种表示信息。2.根据权利要求1所述的数据挖掘方法,其特征在于,所述对所述第二实体对象信息对应的地址信息进行解析,确定用于表征所述地址信息的候选实体单元结构化信息,包括:根据对所述地址信息的解析,获取与所述地址信息对应的实体单元列表;提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息;其中,所述前缀实体单元信息为第二实体类型和/或所述第一实体类型,所述第一实体单元信息为所述第一实体类型;将所述前缀实体单元信息和第一实体单元信息以键值对的结构化方式进行存储;将所述存储的信息,确定为所述候选实体单元结构化信息。3.根据权利要求2所述的数据挖掘方法,其特征在于,所述提取所述实体单元列表中的前缀实体单元信息和第一实体单元信息,包括:将根据所述实体单元列表选取的属于所述第一实体类型的实体单元信息,确定为所述第一实体单元信息;根据所述第一实体单元信息在所述实体单元列表中的位置,按照所述排列顺序的逆方向,查找满足实体类型选取要求的待选实体单元信息;将所述待选实体单元信息、以及所述待选实体单元信息与所述第一实体单元信息之间的实体单元信息确定为所述前缀实体单元信息;所述将所述前缀实体单元信息和所述第一实体单元信息以候选键值对的结构化方式进行存储,包括:将所述前缀实体单元信息、以及所述第一实体单元信息的首位字符和末尾字符,确定为所述候选键值对的候选关键字进行存储;将所述前缀实体单元信息和所述第一实体单元信息、以及所述前缀实体单元信息和所述第一实体单元信息在所述第二实体对象信息的地址集合内出现的次数,确定为所述候选键值对的候选值进行存储。4.根据权利要求1所述的数据挖掘方法,其特征在于,所述对所述当前第一实体对象信息对应的当前地址信息进行解析,确定用于表征所述当前地址信息的当前实体单元结构化信息,包括:根据对所述当前地址信息的解析,获取与所述当前地址信息对应的当前实体单元列表;提取所述当前实体单元列表中的前缀当前实体单元信息和第一当前实体单元信息;其
中,所述前缀当前实体单元信息为第一实体类型和/或所述第二实体类型,所述第一当前实体单元信息为所述第一实体类型;将所述前缀当前实体单元信息和所述第一当前实体单元信息的当前键值对的结构化方式,确定为所述当前实体单元结构化信息。5.根据权利要求4所述的数据挖掘方法,其特征在于,所述提取所述当前实体单元列表中的前缀当前实体单元信息...

【专利技术属性】
技术研发人员:庞博刘小杰
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1