一种基于特征数据库的性别特征的识别方法、系统及终端技术方案

技术编号:13974221 阅读:51 留言:0更新日期:2016-11-11 03:30
本发明专利技术提供一种基于特征数据库的性别特征的识别方法、系统及终端。该方法包括:抽取特征数据库的基础特征信息;构建基于所述基础特征信息的N‑gram模型和决策树模型;获取采用投票机制且分别应用所述N‑gram模型和决策树模型识别出的性别判断结果和准确率;输出准确率高的性别判断结果。本发明专利技术提供的一种基于特征数据库的性别特征的识别方法、系统及终端,构建了N‑gram模型和决策树模型两种模型并行方案对电商领域的用户性别进行识别,提高了性别识别的准确性。

【技术实现步骤摘要】

本专利技术涉及电子商务领域,尤其涉及一种基于特征数据库的性别特征的识别方法、系统及终端
技术介绍
电子商务是利用微电脑技术和网络技术进行的商务活动,通常是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于浏览器/服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。各国政府、学者、企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同,给出了许多不同的定义。电子商务分为:ABC、B2B、B2C、C2C、B2M、M2C、B2A(即B2G)、C2A(即C2G)、O2O电子商务模式等等。电子商务的形成与交易离不开以下三方面的关系:交易平台、平台经营者和站内经营者。网购的普及使得电子商务整体市场保持高速增长,目前电子商务领域的用户群体数量庞大,在电商或者社交等以用户为基础的相关行业中,往往需要了解用户的真实性别,以对其进行分类,方便研究其行为特征及偏好。专利技术人在研究的过程中发现,网络作为一个虚拟世界,用户在畅游时,本身都有一种警惕性,从而隐藏自己部分真实身份,无法通过消费特征、行为特征等有效区分用户群体的性别特征。
技术实现思路
本专利技术的主要目的在于提供一种基于特征数据库的性别特征的识别方法、系统及终端,以克服现有的电子商务领域的性别特征识别难的技术问题。本专利技术一方面提供了一种基于特征数据库的性别特征的识别方法,包括:抽取特征数据库的基础特征信息;构建基于所述基础特征信息的N-gram模型和决策树模型;获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率;输出准确率高的性别判断结果。进一步的,所述特征信息库,包括但不限于:注册信息、访问日志数据和/或订单信息。更进一步的,所述基础特征信息包括但不限于:注册信息中的用户名信息、归属地域信息和/或性别中的一种或多种;访问日志中的访问时间、访问渠道、访问IP归属地域和/或访问产品分类信息中的一种或多种;订单信息中的下单时间、下单渠道、下单时IP归属地域、下单产品分类、下单电话归属商和/或付款方式中的一种或多种。进一步的,构建基于所述基础特征信息的N-gram模型,包括:基于所述基础特征信息中顺序接收的输入信息,应用如下公式构建基于所述基础特征信息的N-gram模型:P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1);其中,P(T)为准确率,T为性别,W为基础特征信息中接收的输入信息,W1为基础特征信息中第一个接收的输入信息,W2为基础特征信息中第二个接收的输入信息,W3为基础特征信息中第三个接收的输入信息,Wn为基础特征信息中第n个接收的输入信息,Wn-1为基础特征信息中第n-1个接收的输入信息。进一步的,构建基于所述基础特征信息的决策树模型,包括:提取所述基础特征信息中的特征变量作为训练集数据,所述特征变量包括离散变量和连续变量;将所述训练集数据的特征变量输入至决策树模型中,决策树基于信息增益率进行变量选择和分割点选择之后,输出规则集。进一步的,所述决策树基于信息增益率进行变量选择,包括:所述决策树基于信息增益率进行最佳分类特征属性的选择。进一步的,所述获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率,包括:获取基础特征信息的原始数据;基于所述原始数据,提取所述原始数据的原始变量特征和衍生变量特征;分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征,获得N-gram模型对基础特征信息的N-gram预测结果sex1,和N-gram准确率per1;决策树模型对基础特征信息的决策树预测结果sex2,和决策树准确率per2。进一步的,所述输出准确率高的性别判断结果,包括:判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2,则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出;或判断N-gram模型对基础特征信息的N-gram准确率per1小于决策树模型对基础特征信息的决策树准确率per2,则决策树模型对基础特征信息的决策树预测结果sex2作为对基础特征信息的预测结果进行输出;或判断N-gram模型对基础特征信息的N-gram准确率per1等于决策树模型对基础特征信息的决策树准确率per2,则决策树模型或N-gram模型对基础特征信息的决策树预测结果作为对基础特征信息的预测结果进行输出。本专利技术另一方面还提供了一种基于特征数据库的性别特征的识别系统,该系统包括:抽取单元,用于抽取特征数据库的基础特征信息;构建单元,用于构建基于所述基础特征信息的N-gram模型和决策树模型;获取单元,用于获取采用投票机制且分别应用所述N-gram模型和决策树模型识别的性别判断结果和准确率;输出单元,用于准确率高的性别判断结果。进一步的,所述构建单元,包括:第一构建子单元,用于基于所述基础特征信息中顺序接收的输入信息,应用如下公式构建基于所述基础特征信息的N-gram模型:P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1);其中,P(T)为准确率,T为性别,W为基础特征信息中接收的输入信息,W1为基础特征信息中第一个接收的输入信息,W2为基础特征信息中第二个接收的输入信息,W3为基础特征信息中第三个接收的输入信息,Wn为基础特征信息中第n个接收的输入信息,Wn-1为基础特征信息中第n-1个接收的输入信息;第二构建子单元,用于提取所述基础特征信息中的特征变量作为训练集数据,所述特征变量包括离散变量和连续变量;将所述训练集数据的特征变量输入至决策树模型中,决策树基于信息增益率进行变量选择和分割点选择之后,输出规则集。进一步的,所述第二构建子单元,包括:选择单元,用于基于信息增益率进行最佳分类特征属性的选择。进一步的,所述获取单元,包括:第一获取子单元,用于获取基础特征信息的原始数据;提取单元,用于基于所述原始数据,提取所述原始数据的原始变量特征和衍生变量特征;第二获取子单元,用于分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征,获得N-gram模型对基础特征信息的N-gram预测结果sex1,和N-gram准确率per1;决策树模型对基础特征信息的决策树预测结果sex2,和决策树准确率per2。进一步的,所述输出单元,包括第一输出单元,用于判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2,则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出;或第二输出单元,用于判断N-gram模型对基础特征信息的N-gram准确率per1小于决策树模型对基础特征信息的决策树准确率per2,则决策树模型对基础特征信息的决策树预测结果sex2作为对基础特征信息的预测结果进行输出;或第三输出单元,用于判本文档来自技高网...

【技术保护点】
一种基于特征数据库的性别特征的识别方法,其特征在于,包括:抽取特征数据库的基础特征信息;构建基于所述基础特征信息的N‑gram模型和决策树模型;获取采用投票机制且分别应用所述N‑gram模型和决策树模型识别出的性别判断结果和准确率;输出准确率高的性别判断结果。

【技术特征摘要】
1.一种基于特征数据库的性别特征的识别方法,其特征在于,包括:抽取特征数据库的基础特征信息;构建基于所述基础特征信息的N-gram模型和决策树模型;获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率;输出准确率高的性别判断结果。2.如权利要求1所述的方法,其特征在于,所述特征信息库,包括但不限于:注册信息、访问日志数据和/或订单信息。3.如权利要求1或2所述的方法,其特征在于,所述基础特征信息包括但不限于:注册信息中的用户名信息、归属地域信息和/或性别中的一种或多种;访问日志中的访问时间、访问渠道、访问IP归属地域和/或访问产品分类信息中的一种或多种;订单信息中的下单时间、下单渠道、下单时IP归属地域、下单产品分类、下单电话归属商和/或付款方式中的一种或多种。4.如权利要求1-3之一所述的方法,其特征在于,构建基于所述基础特征信息的N-gram模型,包括:基于所述基础特征信息中顺序接收的输入信息,应用如下公式构建基于所述基础特征信息的N-gram模型:P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1);其中,P(T)为准确率,T为性别,W为基础特征信息中接收的输入信息,W1为基础特征信息中第一个接收的输入信息,W2为基础特征信息中第二个接收的输入信息,W3为基础特征信息中第三个接收的输入信息,Wn为基础特征信息中第n个接收的输入信息,Wn-1为基础特征信息中第n-1个接收的输入信息。5.如权利要求1-4之一所述的方法,其特征在于,构建基于所述基础特征信息的决策树模型,包括:提取所述基础特征信息中的特征变量作为训练集数据,所述特征变量包括离散变量和连续变量;将所述训练集数据的特征变量输入至决策树模型中,决策树基于信息增益率进行变量选择和分割点选择之后,输出规则集。6.如权利要求5所述的方法,其特征在于,所述决策树基于信息增益率进行变量选择,包括:所述决策树基于信息增益率进行最佳分类特征属性的选择。7.如权利要求1-6之一所述的方法,其特征在于,所述获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率,包括:获取基础特征信息的原始数据;基于所述原始数据,提取所述原始数据的原始变量特征和衍生变量特征;分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征,获得N-gram模型对基础特征信息的N-gram预测结果sex1,和N-gram准确率per1;决策树模型对基础特征信息的决策树预测结果sex2,和决策树准确率per2。8.如权利要求1-7所述的方法,其特征在于,所述输出准确率高的性别判断结果,包括:判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2,则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出;或判断N-gram模型对基础特征信息的N-gram准确率per1小于决策树模型对基础特征信息的决策树准确率per2,则决策树模型对基础特征信息的决策树预测结果sex2作为对基础特征信息的预测结果进行输出;或判断N-gram模型...

【专利技术属性】
技术研发人员:曹杰冯雨晖宿晓坤李学超
申请(专利权)人:北京红马传媒文化发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1