通过姓名分析性别的方法技术

技术编号:24574620 阅读:72 留言:0更新日期:2020-06-21 00:12
本发明专利技术提供一种通过姓名分析性别的方法,包括以下步骤:(1)基础数据获取;(2)清洗数据库,建立建模集与验证集;(3)计算先验概率;(4)建立贝叶斯模型;(5)根据结果做概率修正;(6)代入验证集;(7)实际应用验证。本发明专利技术提供的通过姓名分析性别的方法,在商品营销中,性别相关性强的行业,可以根据此分析结果进行有针对性的营销投放。

Gender analysis by name

【技术实现步骤摘要】
通过姓名分析性别的方法
本专利技术属于数据分析
,具体涉及一种通过姓名分析性别的方法。
技术介绍
广告推送背景下,将商品精准推广到指定人群中,可以提高转化率,商品属性与性别的关系尤为重要,在已知客户姓名时利用数据集预测性别特别关键。广告的定制化精准触达是商家实现销售额增长的有效手段,其中,被触达者性别属性被广泛用于精准营销,具有强烈的需求场景。公司调查发现,在不同的销售领域,不同性别在物品选择、注重点、价格接受程度等方面具有明显的购买差异,本技术从实际出发,通过贝叶斯算法及公司内部数据的积累,依据用户购买时使用的姓名,对用户性别实现了有效的辨识。现有技术比如NFT(姓名预测性别),数据集得出整体概率及欲获取性别姓名的概率,通过贝叶斯原理预测性别,基于贝叶斯原理的赋权性别预测模型。但是这种方法数据集基数的短缺对结果的影响较大,需要有大量的真实性别数据积累,一般公司及个人无法实现模型的建立。
技术实现思路
本专利技术针对现有技术问题,提供了一种通过姓名分析性别的方法,分析所有姓名的先验概率,建立先验概率数据库,利用贝叶斯模型建立基础的性别预测概率模型,根据汉字在姓名中出现的位置及字与字之间的搭配组合,对基础的概率模型进行修正,提高模型正确率。为了实现以上专利技术目的,本专利技术采取的技术方案如下:通过姓名分析性别的方法,包括以下步骤:(1)基础数据获取数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;(2)清洗数据库,建立建模集与验证集Ⅰ.原始数据中,并不均为真实姓名,有部分为化名,通过建立规则,将数据正则化,提取出真实姓名作为数据集;Ⅱ.将清洗过的数据按照7:3的比例随机分为建模集和验证集,用于模型的建立;(3)计算先验概率以性别分组,统计各汉字在同性别中的占比作为先验概率,记录先验概率;(4)建立贝叶斯模型将步骤(3)得到的先验概率代入贝叶斯模型,计算出各汉字相对于性别的贝叶斯概率;(5)根据结果做概率修正经过拟合,找到了各部分汉字贝叶斯概率的权重值,建立了修正的贝叶斯概率模型;(6)代入验证集将建立的模型代入步骤(2)中的验证集;(7)实际应用验证在保护个人隐私的前提下,将数据加密交于业务部门验证。本专利技术提供的通过姓名分析性别的方法,在商品营销中,性别相关性强的行业,可以根据此分析结果进行有针对性的营销投放。具有以下技术效果:1、精准推荐方面,性别的加入提高了推荐的准确性。2、营销文案方面,可根据性别的不同,设计不同的触达文案,选取差异化的文案要点,使文案更具有吸引性。3、行业方面,调查发现某性别对某行业的营销接受性更强,可以着重对接受性强的性别进行营销,节省推广支出。4、营销时间节点方面,不同性别在不同时间节点的营销效果不同,如平常女性更喜欢饰品类商品,但情人节时男性购买力会呈现爆发式增长,针对不同时间节点可以提高营销效果。5、售后方面,大部分行业女性化的售后更适合接待男性顾客,而男性化的售后更适合接待女性顾客,针对性别进行售后可以提升售后满意度。附图说明图1是本专利技术流程示意图。具体实施方式结合实施例说明本专利技术的具体技术方案。本专利技术的技术方案如图1所示,通过姓名分析性别的方法,包括以下步骤:(1)基础数据获取数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;(2)清洗数据库,建立建模集与验证集Ⅰ.原始数据中,并不均为真实姓名,有部分为化名(如:金坷垃、猪猪、小仙女等),通过建立规则,将数据正则化,提取出真实姓名作为数据集;Ⅱ.将清洗过的数据按照7:3的比例随机分为建模集和验证集,用于模型的建立;(3)计算先验概率以性别分组,统计各汉字在同性别中的占比作为先验概率,记录先验概率;(4)建立贝叶斯模型将步骤(3)得到的先验概率代入贝叶斯模型,计算出各汉字相对于性别的贝叶斯概率;(5)根据结果做概率修正根据得到的结果,代入验证集中,发现汉字出现的位置不同,会影响结果的正确率。经过拟合,找到了各部分汉字贝叶斯概率的权重值,建立了修正的贝叶斯概率模型;(6)代入验证集将建立的模型代入步骤(2)中的验证集,验证结果良好。(7)实际应用验证在保护个人隐私的前提下,将数据加密交于业务部门验证,验证的结果证明模型预测具有高度准确性。本文档来自技高网...

【技术保护点】
1.通过姓名分析性别的方法,其特征在于,包括以下步骤:/n(1)基础数据获取/n数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;/n(2)清洗数据库,建立建模集与验证集/n(3)计算先验概率/n以性别分组,统计各汉字在同性别中的占比作为先验概率,记录先验概率;/n(4)建立贝叶斯模型/n将步骤(3)得到的先验概率代入贝叶斯模型,计算出各汉字相对于性别的贝叶斯概率;/n(5)根据结果做概率修正/n经过拟合,找到了各部分汉字贝叶斯概率的权重值,建立了修正的贝叶斯概率模型;/n(6)代入验证集/n将建立的模型代入步骤(2)中的验证集;/n(7)实际应用验证/n在保护个人隐私的前提下,将数据加密交于业务部门验证。/n

【技术特征摘要】
1.通过姓名分析性别的方法,其特征在于,包括以下步骤:
(1)基础数据获取
数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;
(2)清洗数据库,建立建模集与验证集
(3)计算先验概率
以性别分组,统计各汉字在同性别中的占比作为先验概率,记录先验概率;
(4)建立贝叶斯模型
将步骤(3)得到的先验概率代入贝叶斯模型,计算出各汉字相对于性别的贝叶斯概率;
(5)根据结果做概率修正
经过拟合,找到了各部分汉字贝叶斯概率的权重...

【专利技术属性】
技术研发人员:王连喜
申请(专利权)人:北京慧博科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1