The embodiment of the present invention provides a low-quality speech recognition method, device, device and computer readable storage medium. The method of the embodiment of the present invention calculates the puzzlement degree value of speech data by language model, identifies meaningless low-quality speech that does not conform to objective language expression habits according to the puzzlement degree value of speech data, and uses multiple recognition models corresponding to different low-quality types trained by training sets corresponding to low-quality types to make speech if speech data does not belong to meaningless type. Data input multiple recognition models corresponding to different low-quality types, respectively, to identify whether speech data is low-quality speech corresponding to each recognition model, that is, to identify speech data for each low-quality type; determine speech data as low-quality speech, but also determine the low-quality type of speech data; improve the accuracy and efficiency of low-quality speech recognition. Moreover, language model and recognition model have good generalization ability and wide application range.
【技术实现步骤摘要】
低质言论识别方法、装置、设备及计算机可读存储介质
本专利技术实施例涉及数据挖掘
,尤其涉及一种低质言论识别方法、装置、设备及计算机可读存储介质。
技术介绍
随着各类信息流的用户量日益增多,越来越多的用户在信息流中的新闻下发表评论。然而,随着用户发表的评论越来越多,低质的评论也越来越多,例如无内容、无意义、或含不良内容的评论等等。在信息流新闻中,好的评论能够提高其他用户的阅读体验,而低质的评论对其他用户会产生不适的阅读体验,并且部分低质的评论违反道德、违法、涉政。如果这些低质评论被越来越多的用户看见甚至被点赞、被回复,那信息流新闻的评论区的质量和氛围将越来越差。为了肃清信息流新闻的评论区环境,目前基于人工词典和规则通过词典匹配和人工审核的方法识别低质评论。但是基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低。
技术实现思路
本专利技术实施例提供一种低质言论识别方法、装置、设备及计算机可读存储介质,用以解决现有的基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低的问题。本专利技术实施例的一个方面是提供一种低质言论识别方法,包括:通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论 ...
【技术保护点】
1.一种低质言论识别方法,其特征在于,包括:通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。
【技术特征摘要】
1.一种低质言论识别方法,其特征在于,包括:通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。2.根据权利要求1所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为对应低质类型的低质言论,包括:将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果,所述识别结果包括所述言论数据是否是低质言论,以及所述言论数据的低质分数;若存在至少一个识别模型的识别结果为所述言论数据是低质言论,则确定所述言论数据为低质言论;根据所述至少一个识别模型的识别结果确定所述言论数据的低质类型。3.根据权利要求2所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果之后,还包括:若所有识别模型的识别结果均为所述言论数据不是该识别模型对应低质类型的低质言论,则确定所述言论数据不是低质言论。4.根据权利要求1所述的方法,其特征在于,根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型,包括:比较所述言论数据的困惑度值与困惑度阈值的大小;若所述言论数据的困惑度值大于所述困惑度阈值,则确定所述言论数据是无意义类型;若所述言论数据的困惑度值小于或者等于所述困惑度阈值,则确定所述言论数据不是无意义类型。5.根据权利要求1所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为对应低质类型的低质言论之前,还包括:对于任意一种低质类型,获取该低质类型的训练集,所述训练集中包括多条言论样本及其对应于该低质类型的标注数据;每条言论样本对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数;利用该低质类型的训练集,对预设二分类模型进行模型训练,得到对应该低质类型的识别模型。6.根据权利要求5所述的方法,其特征在于,所述预设二分类模型为基于长短时记忆型循环神经网络分类模型。7.根据权利要求1-6任一项所述的方法,其特征在于,所述确定所述言论数据是否为无意义类型之后,还包括:判断所述言论数据是否满足无内容规则,所述无内容规则为仅包括以下一种或者几种内容:表情、数字、符号;若满足无内容规则,则确定所述言论数据为无内容类型。8.根据权利要求1-6任一项所述的方法,其特征在于,所述确定所述言论数据是否为无意义类型之后,还包括:判断所述言论数据是否满足重复输入规则,所述重复输入规则为至少一半的内容是某个词的连续重复输入;若满足重复输入规则,则确定所述言论数据为重复输入类型。9.根据权利要求1所述的方法,其特征在于,所述低质类型至少包括:色情类型、恶意推广类型、地域黑类型、反动类型、违法类型、辱骂类型和人身攻击类型。10.根据权利要求9所述的方法,其特征在于,所述多个对应不同...
【专利技术属性】
技术研发人员:曹宇慧,冯仕堃,何径舟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。