低质言论识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:21184830 阅读:22 留言:0更新日期:2019-05-22 15:26
本发明专利技术实施例提供一种低质言论识别方法、装置、设备及计算机可读存储介质。本发明专利技术实施例的方法,通过语言模型计算言论数据的困惑度值,根据言论数据的困惑度值,识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各识别模型对应低质类型的低质言论进行识别,也就是分别针对各低质类型对言论数据进行识别;确定言论数据为低质言论后,还可确定言论数据的低质类型;提高了低质言论识别的准确性和效率,且语言模型和识别模型有很好的泛化能力,应用范围非常广。

Low-quality speech recognition methods, devices, devices and computer-readable storage media

The embodiment of the present invention provides a low-quality speech recognition method, device, device and computer readable storage medium. The method of the embodiment of the present invention calculates the puzzlement degree value of speech data by language model, identifies meaningless low-quality speech that does not conform to objective language expression habits according to the puzzlement degree value of speech data, and uses multiple recognition models corresponding to different low-quality types trained by training sets corresponding to low-quality types to make speech if speech data does not belong to meaningless type. Data input multiple recognition models corresponding to different low-quality types, respectively, to identify whether speech data is low-quality speech corresponding to each recognition model, that is, to identify speech data for each low-quality type; determine speech data as low-quality speech, but also determine the low-quality type of speech data; improve the accuracy and efficiency of low-quality speech recognition. Moreover, language model and recognition model have good generalization ability and wide application range.

【技术实现步骤摘要】
低质言论识别方法、装置、设备及计算机可读存储介质
本专利技术实施例涉及数据挖掘
,尤其涉及一种低质言论识别方法、装置、设备及计算机可读存储介质。
技术介绍
随着各类信息流的用户量日益增多,越来越多的用户在信息流中的新闻下发表评论。然而,随着用户发表的评论越来越多,低质的评论也越来越多,例如无内容、无意义、或含不良内容的评论等等。在信息流新闻中,好的评论能够提高其他用户的阅读体验,而低质的评论对其他用户会产生不适的阅读体验,并且部分低质的评论违反道德、违法、涉政。如果这些低质评论被越来越多的用户看见甚至被点赞、被回复,那信息流新闻的评论区的质量和氛围将越来越差。为了肃清信息流新闻的评论区环境,目前基于人工词典和规则通过词典匹配和人工审核的方法识别低质评论。但是基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低。
技术实现思路
本专利技术实施例提供一种低质言论识别方法、装置、设备及计算机可读存储介质,用以解决现有的基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低的问题。本专利技术实施例的一个方面是提供一种低质言论识别方法,包括:通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。本专利技术实施例的另一个方面是提供一种低质言论识别装置,包括:语言模型模块,用于通过语言模型计算言论数据的困惑度值;所述语言模型模块还用于根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;识别模型模块,用于如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。本专利技术实施例的另一个方面是提供一种低质言论识别设备,包括:存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述所述的方法。本专利技术实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。本专利技术实施例提供的低质言论识别方法、装置、设备及计算机可读存储介质,通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,能够识别出不符合客观语言表达习惯的无意义类型的低质言论;利用对应低质类型的训练集训练得到的多个对应不同低质类型的识别模型,若所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,分别对言论数据是否是各个识别模型对应低质类型的低质言论进行识别,也就是分别针对每个低质类型对言论数据是否为低质言论进行识别;在确定言论数据为低质言论时,还可以进一步确定言论数据的低质类型;大大提高了低质言论识别的准确性和效率,并且语言模型和识别模型具有更好的泛化能力,应用范围非常广。附图说明图1为本专利技术实施例一提供的低质言论识别方法流程图;图2为本专利技术实施例二提供的低质言论识别方法流程图;图3为本专利技术实施例二提供的LSTM-RNN分类模型结构示意图;图4为本专利技术实施例三提供的低质言论识别装置的结构示意图;图5为本专利技术实施例四提供的低质言论识别装置的结构示意图;图6为本专利技术实施例五提供的低质言论识别设备的结构示意图。通过上述附图,已示出本专利技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本专利技术实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术实施例的一些方面相一致的装置和方法的例子。本专利技术实施例所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本专利技术的实施例进行描述。实施例一图1为本专利技术实施例一提供的低质言论识别方法流程图。本专利技术实施例针对现有的基于人工词典和规则的识别方法不具有泛化能力,人工词典和规则对低质评论数据的覆盖率非常低,对于词典和规则以外的评论数据则无法识别是否为低质评论,导致对低质评论的识别准确率低的问题,提供了低质言论识别方法。如图1所示,该方法具体步骤如下:步骤S101、通过语言模型计算言论数据的困惑度值。其中,言论数据可以是用户通过各种网络平台发表的评论、状态等等言论。语言模型主要用于计算所给定词组成的句子的概率,也即是判断所组成的句子是否符合客观语言表达习惯。本实施例中,将语言数据输入语言模型,计算出该言论数据的困惑度(Perplexity,简称ppl)值,以对言论数据是否是无意义类型的低质言论进行判断,以此来识别出乱打字输入的不通顺的句子。具体的,言论数据的困惑度值越低,表示言论数据的句子越通顺,越符合客观语言表达习惯,言论数据是无意义类型的低质言论的可能性越低。言论数据的困惑度值越高,表示言论数据的句子越不通顺,越不符合客观语言表达习惯,是无意义类型的低质言论的可能性越高。例如,言论数据可以是一个中文句子,将言论数据输入语言模型,语言模型输出的是该句子经过切词后,得到的每个词在本句中的概率,以及该句子的ppl值,这组概率值越高说明句子越通顺,ppl值越低表示句子越通顺。对于ppl值较高的句子,则判定该句子为不符合客观语言表达习惯的句子。例如,该句子可能是乱打字输入的不通顺的句子。步骤S102、根据言论数据的困惑度值,确定言论数据是否为无意义类型。对于困惑度值高于预设困惑度阈值的言论数据,则可以确定言论数据是无意义类型的低质言论,也即是言论数据属于无意义类型。例如,该言论数据可能是用户胡乱敲击键盘输入的内容。其中,预设困惑度阈值可以由技术人员根据经验进行设定,本实施例此处不做具体限定。步骤S103、如果言论数据不属于无意义类型,将言论数据输入多个对应不同低质类型的识别模型,识别出言论数据是否为识别模型对应低质类型的低质言论,其中每个识别模型是通过对应低质类型的训练集训练得到的。通常,低质评论的类型包括:色情类型:含有违反国家规定的色情内容。恶意推广类型:有疑似广告、推广的评论内容。例如,“来某地旅游就找吉师傅,带路,拍照,讲解,专业的技术,专业的水准,让你的旅行不再单调,解除你的一切旅行烦恼,联系方式为……”等等。地域黑本文档来自技高网...

【技术保护点】
1.一种低质言论识别方法,其特征在于,包括:通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。

【技术特征摘要】
1.一种低质言论识别方法,其特征在于,包括:通过语言模型计算言论数据的困惑度值;根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型;如果所述言论数据不属于无意义类型,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为所述识别模型对应低质类型的低质言论,其中每个所述识别模型是通过对应低质类型的训练集训练得到的。2.根据权利要求1所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为对应低质类型的低质言论,包括:将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果,所述识别结果包括所述言论数据是否是低质言论,以及所述言论数据的低质分数;若存在至少一个识别模型的识别结果为所述言论数据是低质言论,则确定所述言论数据为低质言论;根据所述至少一个识别模型的识别结果确定所述言论数据的低质类型。3.根据权利要求2所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,得到每个识别模型的识别结果之后,还包括:若所有识别模型的识别结果均为所述言论数据不是该识别模型对应低质类型的低质言论,则确定所述言论数据不是低质言论。4.根据权利要求1所述的方法,其特征在于,根据所述言论数据的困惑度值,确定所述言论数据是否为无意义类型,包括:比较所述言论数据的困惑度值与困惑度阈值的大小;若所述言论数据的困惑度值大于所述困惑度阈值,则确定所述言论数据是无意义类型;若所述言论数据的困惑度值小于或者等于所述困惑度阈值,则确定所述言论数据不是无意义类型。5.根据权利要求1所述的方法,其特征在于,将所述言论数据输入多个对应不同低质类型的识别模型,识别出所述言论数据是否为对应低质类型的低质言论之前,还包括:对于任意一种低质类型,获取该低质类型的训练集,所述训练集中包括多条言论样本及其对应于该低质类型的标注数据;每条言论样本对应于该低质类型的标注数据包括:是否是该低质类型的低质言论,以及对应于该低质类型的低质分数;利用该低质类型的训练集,对预设二分类模型进行模型训练,得到对应该低质类型的识别模型。6.根据权利要求5所述的方法,其特征在于,所述预设二分类模型为基于长短时记忆型循环神经网络分类模型。7.根据权利要求1-6任一项所述的方法,其特征在于,所述确定所述言论数据是否为无意义类型之后,还包括:判断所述言论数据是否满足无内容规则,所述无内容规则为仅包括以下一种或者几种内容:表情、数字、符号;若满足无内容规则,则确定所述言论数据为无内容类型。8.根据权利要求1-6任一项所述的方法,其特征在于,所述确定所述言论数据是否为无意义类型之后,还包括:判断所述言论数据是否满足重复输入规则,所述重复输入规则为至少一半的内容是某个词的连续重复输入;若满足重复输入规则,则确定所述言论数据为重复输入类型。9.根据权利要求1所述的方法,其特征在于,所述低质类型至少包括:色情类型、恶意推广类型、地域黑类型、反动类型、违法类型、辱骂类型和人身攻击类型。10.根据权利要求9所述的方法,其特征在于,所述多个对应不同...

【专利技术属性】
技术研发人员:曹宇慧冯仕堃何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1