【技术实现步骤摘要】
一种用工平台正负面评论识别的方法及系统
本专利技术涉及自然语言处理的
,特别涉及一种用工平台正负面评论识别的方法及系统。
技术介绍
现代社会网络化进程极大加快,平台系统,或者网络已经成为人们表达个人意见和观点的重要渠道。但网络评论具有数据量大、突发性强、影响范围广等特点,信息挖掘难度更加打,如何通过信息技术提取挖掘用户有效信息,并为其他用户作为参考成为一大难题。现有技术中,通常是通过分词,然后对分词词组进行n-gram处理,利用n-gram中语法对句子单元处理,或者通过上下文语境进行分析,但是这些仅仅通过简单的中文分词以及对于这些词构建神经网络或者语境都只能简单的分析短文本评论的字面语义,并不能应对博大精深的汉语文化,评论的整体语义也会失真。
技术实现思路
基于上述问题,本专利技术提供了一种用工平台正负面评论识别方法及系统,通过提取用工平台工人对用人单位评论信息,构建特征矩阵,通过基于位置距离的词汇出现概率算法自动学习分析数据判断工人正负面评论,将分析结果保存到特征矩阵中,用户根据用工公司名 ...
【技术保护点】
1.一种用工平台正负面评论识别的方法,其特征在于,/n步骤101,获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;/n步骤102,对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;/n步骤103,遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;/n步骤104,展示所述正面评论数、负面评论数、正面评论率、负面评论率。/n
【技术特征摘要】
1.一种用工平台正负面评论识别的方法,其特征在于,
步骤101,获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
步骤102,对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
步骤103,遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
步骤104,展示所述正面评论数、负面评论数、正面评论率、负面评论率。
2.根据权利要求1所述的方法,其特征在于,所述对用工公司特征矩阵建模具体包括:提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
3.根据权利要求1所述的方法,其特征在于,遍历所述第一文本集合,根据关键词类型分别进行数据处理具体包括:遍历文本集合,对每一个新增加的工人评论,对评论进行分词,将分词装载到第一数据集合,遍历第一数据集合,其中词性为名词的,判断第一数据集合是否在用工公司表中,若所述第一数据集合值在用工公司表中,提取特征矩阵其中G取第一数据集合的值,R取评论的工人的岗位;
对于第一数据集合关键词类型为形容词的词汇,与正面词库、负面词库进行比对,若属于正面词库中词汇则特征矩阵中正面计数器加一,若属于负面词库中词汇,则负面计数器加一;
若对于第一数据集合关键词类型为形容词的词汇,既不归属正面词库、又不归属负面词库,则对正面词库和负面词汇库负面词库中全部词汇遍历比对,通过改进的词汇比对算法,计算与每个标准词汇的值;
所述改进的词汇比对算法为:采用基于位置距离的词汇出现概率算法,判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,若两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,若两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,具体公式如下:
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率;
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率;
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
比对负面词库Fdic算法如下:
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率;
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率;
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离。
4.根据权利要求3所述的方法,其特征在于,通过基于位置距离的词汇出现概率算法为:
Epre(FWi(m1))大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1;Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1;
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库中,并且特征矩阵中,正面计数器加一,若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库中,并且特征矩阵中,负面计数器加一。
5.一种用工平台正负面评论识别的系统,其特征在于,
预处理模块201,用于获取评...
【专利技术属性】
技术研发人员:吴晓军,王浩军,陈宁,石越,金利欣,
申请(专利权)人:河北冀联人力资源服务集团有限公司,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。