一种特定群体的识别方法、系统及终端技术方案

技术编号:13825903 阅读:56 留言:0更新日期:2016-10-13 00:53
本发明专利技术提供一种特定群体的识别方法、系统及终端。该方法包括:获取订单信息,提取所述订单信息中的地址信息组成地址库;构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;将所述加法规则和/或所述减法规则固化。其克服现有的电子商务领域的特定群体识别难的技术问题,提高了特定群体的识别的效率和用户体验。

【技术实现步骤摘要】

本专利技术涉及电子商务领域,尤其涉及一种特定群体的识别方法、系统及终端
技术介绍
电子商务是利用微电脑技术和网络技术进行的商务活动,通常是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。各国政府、学者、企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同,给出了许多不同的定义。电子商务分为:ABC、B2B、B2C、C2C、B2M、M2C、B2A(即B2G)、C2A(即C2G)、O2O电子商务模式等等。电子商务的形成与交易离不开以下三方面的关系:交易平台、平台经营者和站内经营者。网购的普及使得电子商务整体市场保持高速增长,目前电子商务领域的用户群体数量庞大,则需要迅速从用户群里中辨识到特性群体类别,针对该特定群体进行特定营销推广,快速建立营销路径。专利技术人在研究的过程中发现,由于网购本身的大众化性质,无法通过消费特征、行为特征等有效区分不同的用户群体,而区分特定用户群体类别,目前主要有以下两方面的问题:一是获取渠道。线上或线下问卷调查的形式、线上用户注册时获取,但如果问卷或者系统设计时没有考虑职业这一选项,则不能收集到用户的职业信息,同时很难覆盖全量用户。二是数据的质量。即使有收集到用户的职业信息,用户出于自我保护意识,故意填错导致数据质量不高,误差比较大。
技术实现思路
本专利技术的主要目的在于提供一种特定群体的识别方法、系统及终端,以克服现有的电子商务领域的特定用户群体识别难的技术问题。本专利技术一方面提供了一种特定群体的识别方法,包括:步骤一、获取订单信息,提取所述订单信息中的地址信息组成地址库;步骤二、构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;步骤三、从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;步骤四、将所述加法规则和/或所述减法规则固化。进一步的,所述步骤一中,具体包括:获取订单信息,提取所述订单信息中的有效地址信息;所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。进一步的,步骤三中,所述放入所述规则样本集中之后,还包括:将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。进一步的,步骤三中,所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。进一步的,所述步骤三之后,还包括,扩充加法规则,所述扩充加法规则包括:重复步骤三,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止。进一步的,所述步骤四中,将所述加法规则和/或所述减法规则固
化,具体包括:不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。进一步的,所述匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,还包括,扩充减法规则,所述扩充减法规则包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。本专利技术另一方面还提供了一种特定群体的识别系统,包括:获取模块,用于获取订单信息,提取所述订单信息中的地址信息组成地址库;构建模块,用于构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;规则模块,用于从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;固化模块,用于将所述加法规则和/或所述减法规则固化。进一步的,所述获取模块,具体包括:获取单元,用于获取订单信息,提取所述订单信息中的有效地址
信息;所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。进一步的,所述规则模块,还包括:删除单元,用于将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。进一步的,所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。进一步的,还包括:第一规则单元,所述第一规则单元携带扩充加法规则,所述扩充加法规则包括:运行规则模块,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止;第二规则单元,所述第二规则单元携带扩充减法规则,用于匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,启动扩充减法规则,包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满足预定误判率为止。进一步的,该系统还包括包括:第一匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或第二匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或第三匹配单元,用于不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功
后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。本专利技术另一方面还提供了一种特定群体的识别终端,包括所述的系统。本专利技术通过获取订单信息,提取所述订单信息中的地址信息作为地址库;从而构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;并从所述剩余地址集中的全量地址数据中随机抽取本文档来自技高网
...

【技术保护点】
一种特定群体的识别方法,其特征在于,包括:步骤一、获取订单信息,提取所述订单信息中的地址信息组成地址库;步骤二、构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;步骤三、从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;步骤四、将所述加法规则和/或所述减法规则固化。

【技术特征摘要】
1.一种特定群体的识别方法,其特征在于,包括:步骤一、获取订单信息,提取所述订单信息中的地址信息组成地址库;步骤二、构建基于所述地址库的规则样本集和剩余地址集;所述规则样本集初始为空集,所述剩余地址集初始为全量地址数据;步骤三、从所述剩余地址集中的全量地址数据中随机抽取至少一条地址信息,放入所述规则样本集中;识别并剔除放入所述规则样本集中的地址信息中携带不符合特定群体的标识信息的地址信息,将符合所述特定群体的标识信息组成加法规则,将不符合所述特定群体的标识信息组成减法规则;步骤四、将所述加法规则和/或所述减法规则固化。2.如权利要求1所述的方法,其特征在于,所述步骤一中,具体包括:获取订单信息,提取所述订单信息中的有效地址信息;所述有效地址信息,具体包括:可识别出所述地址信息中的行政区域标识的地址信息。3.如权利要求1或2所述的方法,其特征在于,步骤三中,所述放入所述规则样本集中之后,还包括:将所述放入所述规则样本集中至少一条地址信息,从所述剩余地址集中删除。4.如权利要求1-3之一所述的方法,其特征在于,步骤三中,所述特定群体标识,包括:含有该特定群体的标示性文字的标识信息;所述不符合特定群体标识,包括:含有该特定群体的标示性文字的标识信息的临近参考标识信息。5.如权利要求1-4之一所述的方法,其特征在于,所述步骤三之后,还包括,扩充加法规则,所述扩充加法规则包括:重复步骤三,直至所述规则样本集中的地址信息满足预定数量和/或所述加法规则的中增加的标识信息小于指定数量为止。6.如权利要求1-5之一所述的方法,其特征在于,所述步骤四之后还包括:不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功且判断所述地址库中的数据未完成抽取,重复不放回抽取所述地址库中的至少一条数据的步骤;和/或不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配成功后,对该条数据标注对应的规则,且所述地址库中的数据完成抽取后,将所述加法规则和/或所述减法规则固化;和/或不放回抽取所述地址库中的至少一条数据,根据该条数据中的地址信息匹配加法规则和/或减法规则,匹配未成功后,且判断所述地址库中的数据完成抽取,将所述加法规则和/或所述减法规则固化。7.如权利要求6所述的方法,其特征在于,所述匹配加法规则和/或减法规则,判断匹配完成后,且匹配结果不满足预定误判率,扩充减法规则;所述扩充减法规则包括:加法规则和/或减法规则抽取完毕之后,且所述加法规则和/或减法规则不满足预定误判率,增加不符合特定群体标识,重复步骤三;直至满...

【专利技术属性】
技术研发人员:曹杰冯雨晖宿晓坤李学超
申请(专利权)人:北京红马传媒文化发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1