【技术实现步骤摘要】
一种敏感评论识别方法、装置、终端设备和存储介质
[0001]本申请涉及人工智能
,提供一种敏感评论识别方法、装置、终端设备和存储介质。
技术介绍
[0002]随着网络通信技术的发展,人们可以通过微博或者朋友圈等社交平台方便地对当前的热门事件发表自己的评论,但某些不法人员可能会发表一些包含敏感词的消极评论,对社会造成不良影响。
[0003]针对该问题,社交平台通常采用词典过滤的方法对用户发表的评论进行处理,以滤除包含敏感词的评论。然而,采用词典过滤的方法无法获取评论的语义特征,而且设置的敏感词词典也难以覆盖所有形式各异的敏感词,导致敏感评论识别的准确率较低。
技术实现思路
[0004]有鉴于此,本申请提出一种敏感评论识别方法、装置、终端设备和存储介质,能够提高敏感评论识别的准确率。
[0005]第一方面,本申请实施例提供了一种敏感评论识别方法,包括:
[0006]获取目标用户发布的评论信息;
[0007]提取所述评论信息的文本特征;
[0008]将所述文本特征和所述 ...
【技术保护点】
【技术特征摘要】
1.一种敏感评论识别方法,其特征在于,包括:获取目标用户发布的评论信息;提取所述评论信息的文本特征;将所述文本特征和所述目标用户的用户画像特征融合,得到目标特征数据;将所述目标特征数据输入已训练的敏感评论识别模型进行处理,通过所述敏感评论识别模型输出所述评论信息是否为敏感评论的结果;其中,所述敏感评论识别模型以敏感评论样本和非敏感评论样本作为样本集训练获得,所述敏感评论样本为已融合样本的文本特征和用户画像特征且带有敏感评论标签的样本数据,所述非敏感评论样本为已融合样本的文本特征和用户画像特征且带有非敏感评论标签的样本数据。2.如权利要求1所述的方法,其特征在于,在提取所述评论信息的文本特征之前,还包括:对所述评论信息进行分词处理,得到所述评论信息包含的各个目标词语;检测所述各个目标词语中是否存在预先构建的敏感词词典中记录的敏感词;若所述各个目标词语中存在所述敏感词词典中记录的敏感词,则判定所述评论信息为敏感评论;若所述各个目标词语中不存在所述敏感词词典中记录的敏感词,则触发所述提取所述评论信息的文本特征的步骤。3.如权利要求2所述的方法,其特征在于,所述敏感词词典包含的敏感词通过以下方式扩充:对所述敏感词词典中的每个敏感词按照汉字的音码进行扩充,得到音码扩充的敏感词;对所述敏感词词典中的每个敏感词按照汉字的形码进行扩充,得到形码扩充的敏感词;对所述敏感词词典中的每个敏感词按照汉字的拼音进行扩充,得到拼音扩充的敏感词;将所述音码扩充的敏感词、所述形码扩充的敏感词以及所述拼音扩充的敏感词添加至所述敏感词词典。4.如权利要求3所述的方法,其特征在于,所述对所述敏感词词典中的每个敏感词按照汉字的音码进行扩充,得到音码扩充的敏感词,包括:分别计算汉字词典中收录的每个汉字与目标汉字之间的音码相似度,所述目标汉字为目标敏感词包含的一个汉字,所述目标敏感词为所述敏感词词典中任意的一个敏感词;将所述汉字词典中收录的所述音码相似度大于设定阈值的汉字确定为第一待替换汉字;分别使用各个所述第一待替换汉字对所述目标敏感词中的所述目标汉字进行替换,得到各个音码扩充的敏感词;所述对所述敏感词词典中的每个敏感词按照汉字的形码进行扩充,得到形码扩充的敏感词,包括:分别计算所述汉字词典中收录的每个汉字与所述目标汉字之间的形码相似度;
将所述汉字词典中收录的所述形码相似度大于设定阈值的汉字确定为第二待替换汉字;分别使用各个所述第二待替换汉字对所述目标敏感词中的所述目标汉字进行替换,得到各个形码扩充的敏感词;所述对所述敏感词词典中的每个敏感词按照汉字的拼音进行扩充,得到拼音扩充的敏感词,包括:将所述目标敏感词中的所述目标汉字替换成拼音,得到所述目标敏感词对应的拼音扩充敏感词。5.如权利要求4所述的方法,其特征在于,在将所述汉字词典中收录的所述音码相似度大于设...
【专利技术属性】
技术研发人员:宋威,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。