【技术实现步骤摘要】
通过姓名分析性别的方法
本专利技术属于数据分析
,具体涉及一种通过姓名分析性别的方法。
技术介绍
广告推送背景下,将商品精准推广到指定人群中,可以提高转化率,商品属性与性别的关系尤为重要,在已知客户姓名时利用数据集预测性别特别关键。广告的定制化精准触达是商家实现销售额增长的有效手段,其中,被触达者性别属性被广泛用于精准营销,具有强烈的需求场景。公司调查发现,在不同的销售领域,不同性别在物品选择、注重点、价格接受程度等方面具有明显的购买差异,本技术从实际出发,通过贝叶斯算法及公司内部数据的积累,依据用户购买时使用的姓名,对用户性别实现了有效的辨识。现有技术比如NFT(姓名预测性别),数据集得出整体概率及欲获取性别姓名的概率,通过贝叶斯原理预测性别,基于贝叶斯原理的赋权性别预测模型。但是这种方法数据集基数的短缺对结果的影响较大,需要有大量的真实性别数据积累,一般公司及个人无法实现模型的建立。
技术实现思路
本专利技术针对现有技术问题,提供了一种通过姓名分析性别的方法,分析所有姓名的先验概率,建立先验概率数据库,利用贝叶斯模型建立基础的性别预测概率模型,根据汉字在姓名中出现的位置及字与字之间的搭配组合,对基础的概率模型进行修正,提高模型正确率。为了实现以上专利技术目的,本专利技术采取的技术方案如下:通过姓名分析性别的方法,包括以下步骤:(1)基础数据获取数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;(2)清洗数据库,建 ...
【技术保护点】
1.通过姓名分析性别的方法,其特征在于,包括以下步骤:/n(1)基础数据获取/n数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;/n(2)清洗数据库,建立建模集与验证集/n(3)计算先验概率/n以性别分组,统计各汉字在同性别中的占比作为先验概率,记录先验概率;/n(4)建立贝叶斯模型/n将步骤(3)得到的先验概率代入贝叶斯模型,计算出各汉字相对于性别的贝叶斯概率;/n(5)根据结果做概率修正/n经过拟合,找到了各部分汉字贝叶斯概率的权重值,建立了修正的贝叶斯概率模型;/n(6)代入验证集/n将建立的模型代入步骤(2)中的验证集;/n(7)实际应用验证/n在保护个人隐私的前提下,将数据加密交于业务部门验证。/n
【技术特征摘要】
1.通过姓名分析性别的方法,其特征在于,包括以下步骤:
(1)基础数据获取
数据获取自合作商家在具体与用户接触时的打标结果,数据真实有效;
(2)清洗数据库,建立建模集与验证集
(3)计算先验概率
以性别分组,统计各汉字在同性别中的占比作为先验概率,记录先验概率;
(4)建立贝叶斯模型
将步骤(3)得到的先验概率代入贝叶斯模型,计算出各汉字相对于性别的贝叶斯概率;
(5)根据结果做概率修正
经过拟合,找到了各部分汉字贝叶斯概率的权重...
【专利技术属性】
技术研发人员:王连喜,
申请(专利权)人:北京慧博科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。