基于网络评论的用户性别确定方法、装置和电子设备制造方法及图纸

技术编号:34899929 阅读:15 留言:0更新日期:2022-09-10 14:03
本发明专利技术提供了一种本发明专利技术提供的一种基于网络评论的用户性别确定方法、装置和电子设备,涉及人工智能技术领域。通过获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料;根据语法特征模型,确定预处理后的网络评论语料对应的目标语法特征,所述目标语法特征用于确定网络评论语料的用户性别的语言特征,所述目标语法特征包括以下的一种或多种:词类、词组和句式;根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值;根据网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别。以此通过语法特征以及熵权值,可以有效的判断评论的性别,提升了性别识别的准确性。别识别的准确性。别识别的准确性。

【技术实现步骤摘要】
基于网络评论的用户性别确定方法、装置和电子设备


[0001]本专利技术涉及人工智能
,尤其是涉及一种基于网络评论的用户性别确定方法、装置和电子设备。

技术介绍

[0002]用户创造信息、分享信息在互联网形成海量信息,评论作为信息表现形式之一,是重要的信息来源。由于具有不同属性(性别、年龄、学历、职业等)的人群所表达的语言存在一定差异,网络评论文本属于语言文本范畴,可以为用户特征和行为分析挖掘提供依据和参考。
[0003]当前在评论的用户特征分析过程中,一般仅针对评论文本中的词类和词组,此种方式获得的特征提取结果存在一定的误差,该结果不利于后期的挖掘等应用的可靠性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于网络评论的用户性别确定方法、装置和电子设备,以缓解了现有技术中存在的可靠性差的技术问题。
[0005]第一方面,本专利技术提供一种基于网络评论的用户性别确定方法,所述方法包括:
[0006]获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料;
[0007]根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征,所述目标语法特征为用于确定网络评论语料的用户性别的语言特征,所述目标语法特征包括以下的一种或多种:词类、词组和句式;
[0008]根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值;
[0009]根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别。
[0010]在可选的实施方式中,根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征的步骤,包括:
[0011]获取所述预处理后的网络评论语料中的语法特征;
[0012]根据所述语法特征模型对应的语法特征范围,确定所述语法特征中的目标语法特征,所述语法特征范围中的每个语法特征的卡方值符合预设要求。
[0013]在可选的实施方式中,根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值的步骤,包括:
[0014]根据每个所述目标语法特征对应的指标种类,确定每个所述目标语法特征对于每种用户性别的评价值,其中,每个所述目标语法特征包括至少一种指标;
[0015]基于所述评价值计算每种用户性别中每个所述目标语法特征对应的指标的比重;
[0016]根据每种指标的比重,计算所述指标的熵权值。
[0017]在可选的实施方式中,根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别的步骤,包括:
[0018]获取所述网络评论语料对应的目标语法特征中,属于男性性别的熵权值和属于女性性别的熵权值;
[0019]将属于男性性别的每个目标语法特征对应的熵权值和属于女性性别的每个目标语法特征对应的熵权值,分别进行加和;
[0020]根据男性性别熵权值和女性性别熵权值,确定每个用户性别。
[0021]在可选的实施方式中,根据男性性别熵权值和女性性别熵权值,确定每个用户性别的步骤,包括:
[0022]若所述男性性别熵权值大于所述女性性别熵权值,则所述网络评论语料的用户性别为男性;
[0023]若所述男性性别熵权值小于所述女性性别熵权值,则所述网络评论语料的用户性别为女性。
[0024]在可选的实施方式中,所述语法特征模型通过网络评论样本训练得到。
[0025]在可选的实施方式中,获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料的步骤,包括:
[0026]获取用户评论的网络页面,从所述网络页面中抽取网络评论语料。
[0027]对所述网络评论语料进行分词操作。
[0028]第二方面,本专利技术提供一种基于网络评论的用户性别确定装置,所述装置包括:
[0029]语料获取模块,用于获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料;
[0030]特征确定模块,用于根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征,所述目标语法特征为用于确定网络评论语料的用户性别的语言特征,所述目标语法特征包括以下的一种或多种:词类、词组和句式;
[0031]权值确定模块,用于根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值;
[0032]性别确定模块,用于根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别。
[0033]在可选的实施方式中,所述特征确定模块具体用于:
[0034]获取预处理后的网络评论语料中的语法特征;
[0035]根据所述语法特征模型对应的语法特征范围,确定所述语法特征中的目标语法特征,所述语法特征范围中的每个语法特征的卡方值符合预设要求。
[0036]在可选的实施方式中,所述权值确定模块具体用于:
[0037]根据每个所述目标语法特征对应的指标种类,确定每个所述目标语法特征对于每种用户性别的评价值,其中,每个所述目标语法特征包括至少一种指标;
[0038]基于所述评价值计算每种用户性别中每个所述目标语法特征对应的指标的比重;
[0039]根据每种指标的比重,计算所述指标的熵权值。
[0040]在可选的实施方式中,所述性别确定模块具体用于:
[0041]获取所述网络评论语料对应的目标语法特征中,属于男性性别的熵权值和属于女
性性别的熵权值;
[0042]将属于男性性别的每个目标语法特征对应的熵权值和属于女性性别的每个目标语法特征对应的熵权值,分别进行加和;
[0043]根据男性性别熵权值和女性性别熵权值,确定每个用户性别。
[0044]在可选的实施方式中,所述性别确定模块具体用于:
[0045]若所述男性性别熵权值大于所述女性性别熵权值,则所述网络评论语料的用户性别为男性;
[0046]若所述男性性别熵权值小于所述女性性别熵权值,则所述网络评论语料的用户性别为女性。
[0047]在可选的实施方式中,所述语法特征模型通过网络评论样本训练得到。
[0048]在可选的实施方式中,所述语料获取模块具体用于:
[0049]获取用户评论的网络页面,从所述网络页面中抽取网络评论语料。
[0050]对所述网络评论语料进行分词操作。
[0051]第三方面,本专利技术提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。
[0052]第四方面,本专利技术提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。
[0053]本专利技术提供的一种基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络评论的用户性别确定方法,其特征在于,所述方法包括:获取网络评论语料,并对所述网络评论语料进行预处理,得到预处理后的网络评论语料;根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征,所述目标语法特征为用于确定网络评论语料的用户性别的语言特征,所述目标语法特征包括以下的一种或多种:词类、词组和句式;根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值;根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别。2.根据权利要求1所述的方法,其特征在于,根据语法特征模型,确定所述预处理后的网络评论语料对应的目标语法特征的步骤,包括:获取所述预处理后的网络评论语料中的语法特征;根据所述语法特征模型对应的语法特征范围,确定所述语法特征中的目标语法特征,所述语法特征范围中的每个语法特征的卡方值符合预设要求。3.根据权利要求1所述的方法,其特征在于,根据所述目标语法特征属于每种用户性别的评价值,确定每个所述目标语法特征的熵权值的步骤,包括:根据每个所述目标语法特征对应的指标种类,确定每个所述目标语法特征对于每种用户性别的评价值,其中,每个所述目标语法特征包括至少一种指标;基于所述评价值计算每种用户性别中每个所述目标语法特征对应的指标的比重;根据每种指标的比重,计算所述指标的熵权值。4.根据权利要求1所述的方法,其特征在于,根据所述网络评论语料对应的目标语法特征属于每种用户性别的熵权值,确定用户性别的步骤,包括:获取所述网络评论语料对应的目标语法特征中,属于男性性别的熵权值和属于女性性别的熵权值;将属于男性性别的每个目标语法特征对应的熵权值和属于女性性别的每个目标语法特征对应的熵权值,分别进行加和;根据男性性别熵权值和女性性别熵权值,确定每...

【专利技术属性】
技术研发人员:王雪曹斌
申请(专利权)人:东软睿驰汽车技术大连有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1