内容质量的识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:33629452 阅读:30 留言:0更新日期:2022-06-02 01:30
本申请是中国申请202011329266.2的分案申请。本申请公开了一种内容质量的识别方法、装置、设备及可读存储介质,涉及机器学习领域。该方法包括:获取目标信息流内容;获取目标信息流内容的评论数据;对评论数据进行意图识别,得到评论意图识别结果;基于评论意图识别结果,确定目标信息流内容的质量结果。通过对评论数据进行意图识别,从而根据评论数据所表达的意图识别目标信息流内容是否存在质量问题,对目标信息流内容可能存在的细分质量问题进行识别,避免由于细分质量问题需要对目标信息流内容的具体内容进行细节化分析而导致的分析工作量大,分析准确率较低,整体推荐内容的内容质量较低的问题,提高了推荐池中内容的质量。质量。质量。

【技术实现步骤摘要】
内容质量的识别方法、装置、设备及可读存储介质
[0001]本申请是申请号为202011329266.2、申请日为2020年11月24日、专利技术名称为“内容质量的识别方法、装置、设备及可读存储介质”的中国申请的分案申请。


[0002]本申请实施例涉及机器学习领域,特别涉及一种内容质量的识别方法、装置、设备及可读存储介质。

技术介绍

[0003]在人工智能领域,在对用户原创内容(User Generated Content,UGC)进行推送之前,首先需要对UGC内容进行过滤和处理,以及对同质化的内容进行去重处理,若UGC内容符合过滤条件,则将UGC内容从推荐池中去除不进行推荐。
[0004]相关技术中,通过机器学习和自然语言处理技术(Natural Language Processing,NLP)对UGC内容的标题、正文等文本内容进行识别,从而识别出文本内容中涉及上述需要过滤的内容的UGC内容进行过滤。
[0005]然而,UGC内容中还存在大量细化的质量问题,如:错别字、视频画面引起不适、广告等,通过上述方式无法对细化的质本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种内容质量的识别方法,其特征在于,所述方法包括:获取目标信息流内容,所述目标信息流内容为待进行质量识别的内容;获取所述目标信息流内容的评论数据,所述评论数据为评论帐号对所述目标信息流内容进行评论互动时产生的数据;对所述评论数据进行意图识别,得到评论意图识别结果,所述评论意图识别结果用于指示所述评论数据与候选质量识别结果之间的匹配关系,所述候选质量识别结果用于指示所述目标信息流内容存在的质量情况;基于所述评论意图识别结果,确定所述目标信息流内容的质量结果。2.根据权利要求1所述的方法,其特征在于,所述对所述评论数据进行意图识别,得到评论意图识别结果,包括:将所述评论数据输入意图识别模型;通过所述意图识别模型对所述评论数据进行意图识别,输出得到所述评论意图识别结果,所述意图识别模型为通过样本评论语料预训练得到的机器学习模型。3.根据权利要求2所述的方法,其特征在于,所述通过所述意图识别模型对所述评论数据进行意图识别,输出得到所述评论意图识别结果,包括:通过所述意图识别模型对所述评论数据进行特征提取以及特征处理,得到评论数据特征;将所述评论数据特征输入激活函数,输出得到所述候选质量识别结果与所述评论数据对应的匹配度,作为所述评论意图识别结果。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取样本评论数据,所述样本评论数据中包括信息流内容平台中的帐号发布的用于对信息流内容进行评论的内容;对所述样本评论数据进行预处理,得到样本数据;基于所述样本数据对所述意图识别模型进行训练,直至所述意图识别模型收敛效果达到收敛要求。5.根据权利要求4所述的方法,其特征在于,所述对所述样本评论数据进行预处理,得到样本数据,包括:基于预设清洗规则对所述样本评论数据进行样本清洗,得到清洗样本数据;基于预设增强规则对所述样本评论数据进行样本增强,得到增强样本数据;基于所述清洗样本数据和所述增强样本数据得到所述样本数据。6.根据权利要求5所述的方法,其特征在于,所述预设清洗规则包括以下规则中的至少一种:过滤第一指定字符数量小于要求数量或要求比例的样本评论数据;过滤第一字符类型和第二字符类型替换出现的样本评论数据;过滤存在内容重复超过预设次数的样本评论数据;过滤第二指定字符数量大于限制数量或者限制比例的样本评论数据;过滤内容中每个首字符相同的样本评论数据;过滤无法识别得到内容含义的样本评论数据。7.根据权利要求5所述的方法,其特征在于,所述预设增强规则包括以下规则中的至少
一种:基于预设修改方式对所述样本评论数据进行修改调整;将属于第一语言的...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1