【技术实现步骤摘要】
文本作弊的识别方法及装置
本专利技术涉及计算机
,尤其涉及一种文本作弊的识别方法及装置。
技术介绍
随着互联网的不断发展,网民的数量逐年攀升,为各大互联网公司提供了各种形式的流量红利。然而,在这光鲜亮丽的互联网市场背后却滋生了另一个作弊推广的“蛀虫市场”,在社区、feed流等产品线下以推广某种商品或者服务为目的发布各种作弊推广帖子(即软文或软广告),严重影响了产品的用户体验,且在一定程度上为潜在广告主免费引流,使得公司收入蒙受损失。现有技术中,针对作弊推广帖子的识别方法如下:基于已标注软文和非软文的样本,使用逻辑回归、支持向量机(SupportVectorMachine,简称SVM)等机器学习技术设计二分类模型,利用该二分类模型对用户新提交的帖子进行软文预测,根据输出的概率确定用户新提交的帖子是否为软文。但现有技术至少存在如下缺陷:用于模型训练和预测的语料均为单条语料,使得模型的识别率和识别精度低,进而使得软文识别率和识别精度低。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种文本作弊的识别方法 ...
【技术保护点】
1.一种文本作弊的识别方法,其特征在于,包括以下步骤:根据用户提交的当前文本和多个历史文本,提取得到多个嫌疑载体词;对所述多个嫌疑载体词进行载体识别,识别出最可疑的所述嫌疑载体词作为软文载体词;对所述当前文本和多个包含所述软文载体词的所述历史文本进行软文作弊识别,识别出所述当前文本是否为软文和/或所述用户是否为软文作弊用户。
【技术特征摘要】
1.一种文本作弊的识别方法,其特征在于,包括以下步骤:根据用户提交的当前文本和多个历史文本,提取得到多个嫌疑载体词;对所述多个嫌疑载体词进行载体识别,识别出最可疑的所述嫌疑载体词作为软文载体词;对所述当前文本和多个包含所述软文载体词的所述历史文本进行软文作弊识别,识别出所述当前文本是否为软文和/或所述用户是否为软文作弊用户。2.根据权利要求1所述的识别方法,其特征在于,所述根据用户提交的当前文本和多个历史文本,提取得到多个嫌疑载体词包括:对所述用户提交的当前文本和多个历史文本进行相似度比较,提取出出现频率大于设定频率阈值或出现次数大于设定次数阈值的词作为所述嫌疑载体词。3.根据权利要求2所述的识别方法,其特征在于,还包括:根据预设的高频非载体反词表,对所述出现频率大于设定频率阈值或出现次数大于设定次数阈值的词进行过滤,保留与所述高频非载体反词表不匹配的词作为所述嫌疑载体词。4.根据权利要求1所述的识别方法,其特征在于,所述对所述多个嫌疑载体词进行载体识别,识别出最可疑的所述嫌疑载体词作为软文载体词包括:采用载体识别二分类模型,对所述多个嫌疑载体词进行载体识别;将所述载体识别二分类模型输出的概率最大,且大于第一设定概率阈值的所述嫌疑载体词,确定为所述软文载体词。5.根据权利要求4所述的识别方法,其特征在于,所述采用载体识别二分类模型,对所述多个嫌疑载体词进行载体识别之前还包括:构造多个载体语料和多个非载体语料;根据所述多个载体语料和所述多个非载体语料,训练得到所述载体识别二分类模型。6.根据权利要求5所述的识别方法,其特征在于,所述构造多个载体语料包括:对历史人工语料标注过程和/或历史软文载体词识别过程中产生的多个软文载体词样本进行单字拆解,构造出多个不同长度和/或不同单字的所述载体语料。7.根据权利要求6所述的识别方法,其特征在于,所述对历史人工语料标注过程和/或历史软文载体词识别过程中产生的多个软文载体词样本进行单字拆解,构造出多个不同长度和/或不同单字的所述载体语料包括:将所述软文载体词样本的单字次序随机打乱顺序,生成所述载体语料;和/或,从所述多个软文载体词样本中随机抽取出设定数量的软文载体词样本,并从抽取出的每个所述软文载体词样本中随机抽取一个单字,组合成所述载体语料。8.根据权利要求1所述的识别方法,其特征在于,所述对所述当前文本和多个包含所述软文载体词的所述历史文本进行软文作弊识别,识别出所述当前文本是否为软文和/或所述用户是否为软文作弊用户包括:采用软文作弊预测模型,对所述当前文本和多个包含所述软文载体词的所述历史文本进行软文作弊预测;若所述软文作弊预测模型输出的概率大于第二设定概率阈值,则确定所述当前文本为软文和/或所述用户为软文作弊用户。9.根据权利要求8所述的识别方法,其特征在于,所述采用软文作弊预测模型,对所述当前文本和多个包含所述软文载体词的所述历史文本进行软文作弊预测之前还包括:根据人工标注的多个作弊语料和多个非作弊语料,训练得到所述软文作弊预测模型。10.根据权利要求9所述的识别方法,其特征在于,所述根据人工标注的多个作弊语料和多个非作弊语料,训练得到所述软文作弊预测模型包括:对所述人工标注的多个作弊语料和多个非作弊语料进行载体序列截取,得到设定字符数的多个作弊语料序列和多个非作弊语料序列;根据所述多个作弊语料序列和多个非作弊语料序列,训练得到所述软文作弊预测模型;所述采用软文作弊预测模型,对所述当前文本和多个包含所述软文载体词的所述历史文本进行软文作弊预测包括:对所述当前文本和多个包含所述软文载体词的所述历史文本进行载体序列截取,得到所述设定字符数的当前文本序列和多个包含所述软文载体词的历史文本序列;采用所述软文作弊预测模型,对所述当前文本序列和多个包含所述软文载体词的历史文本序列进行软文作弊预测。11.一种文本作弊的识别装...
【专利技术属性】
技术研发人员:覃丕七,余义祥,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。