面向网络直播场景的用户言论语义分析方法技术

技术编号:20917058 阅读:23 留言:0更新日期:2019-04-20 09:48
本发明专利技术揭示了一种面向网络直播场景的用户言论语义分析方法,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理;S2、将预处理过的内容进行分词处理,保持词序列顺序不变;S3、根据语料词典得到每个词的词向量,进而得到用户输入内容的向量表示;S4、构建并训练LSTM型双向RNN语义分析分类器模型;S5、依据S4中建立的模型判断用户输入内容是否包含不良信息,若不包含则正常发送,否则提醒用户并禁止发送。本发明专利技术可以在无人工参与的情况下自动地完成对用户言论的语义分析、从源头上对网络直播平台内的用户言论进行监督,不仅能够保证监督的实时性和有效性,而且也节约了人工成本。

Semantic Analysis Method of User Speech Oriented to Live Network Scene

The invention discloses a user speech semantic analysis method for network live broadcast scenario, which includes the following steps: S1, real-time acquisition of the content of user input area in the live broadcast room of the network live broadcast platform, and preprocessing; S2, word segmentation of the preprocessed content to keep the word sequence unchanged; S3, obtaining the word vector of each word according to the corpus dictionary, and then obtaining the usage. Vector representation of user input content; S4, building and training LSTM bidirectional RNN semantic analysis classifier model; S5, judging whether user input content contains bad information based on the model established in S4, if not, send normally, otherwise remind users and prohibit sending. The invention can automatically complete the semantic analysis of user's speech without manual participation and supervise user's speech in the network live broadcast platform from the source, which can not only guarantee the real-time and effectiveness of the supervision, but also save the labor cost.

【技术实现步骤摘要】
面向网络直播场景的用户言论语义分析方法
本专利技术涉及一种针对用户言论的语义分析方法,具体而言,涉及一种面向网络直播场景的用户言论语义分析方法,属于深度学习及文本内容

技术介绍
近年来,网络直播行业发展极为迅速,各种直播平台层出不穷,观看直播的用户准入门槛低,其用户群体整体呈现低龄化态势。而网络直播平台的一个显著特点就是用户可以在评论区随意的发表自己的言论,同时这些言论会以弹幕的形式显示在直播间,使身处同一个直播间的所有用户(包括主播)都能看到。但在实际的平台运营过程中,人们发现,总会出现有一些个人素质不高的用户,为了追求低级趣味,在弹幕上出口成脏,发表不雅、不健康的言论。由于弹幕的即时性和瞬时性特点,言论一出即成为既定事实,相关的管制措施往往起不到任何实质性的作用;同时由于弹幕的隐秘性,有些低俗弹幕不能被及时地发现并处理,这对青少年、对社会都造成了极大的危害。目前,网络直播平台对于用户言论的监督大多还停留在对弹幕字词的简单屏蔽上,并未没有真正实现语义分析,监督效果不甚理想。由于弹幕具有多变化、多元化、碎片化等特性,使得一些不包含常见敏感词汇但是具有低俗趣味意义的言论得不到有效的处理;其次,弹幕一出直播间内所有人都能看到,对其进行简单屏蔽并不能从源头上解决问题,从而不能保证监督的实时性。综上所述,如何在现有技术的基础上提出一种针对用户言论的语义分析方法,实现对网络直播平台内用户言论的有效监督,也就成为了本领域内技术人员亟待解决的问题。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种面向网络直播场景的用户言论语义分析方法,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理;S2、将预处理过的内容进行分词处理,保持词序列顺序不变;S3、根据语料词典得到每个词的词向量,进而得到用户输入内容的向量表示;S4、构建并训练LSTM型双向RNN语义分析分类器模型;S5、依据S4中建立的模型判断用户输入内容是否包含不良信息,若不包含则正常发送,否则提醒用户并禁止发送。优选地,S1中所述预处理具体包括:去除与文字内容无关的多余信息,所述多余信息包括表情图片、表情符号、数字符号以及拼音符号。优选地,S3中所述根据语料词典得到每个词的词向量具体包括:将每个词表示成一个独热向量,向量的维度为语料词典的长度;所述语料词典由网络直播平台上的语料形成,所述语料词典中的字词不重复。优选地,S4具体包括如下步骤:S41、收集网络直播平台上各种类型直播中的用户输入内容,并逐条进行标记,将包含不良信息的内容标记为0,否则标记为1;S42、将收集的用户输入内容进行预处理,划分训练集和测试集,构建语料词典;S43、根据语料词典把用户输入文本内容用词向量的形式表示出来,按照词序列顺序将词向量进行连接;S44、将带有标签的训练数据输入到LSTM型双向RNN语义分析分类器中进行训练,获取最佳的神经网络模型参数,最终得到LSTM型双向RNN语义分析分类器模型。优选地,S44具体包括如下步骤:S441、设计LSTM型双向RNN结构、构建LSTM型双向RNN语义分析分类器,得到LSTM型双向RNN语义分析分类器模型;S442、训练模型参数,完成对LSTM型双向RNN语义分析分类器模型的训练。优选地,S44中所述LSTM型双向RNN语义分析分类器包括按序依次连接的输入层、隐藏层及输出层;所述输入层的输入为代表文本内容的词序列;所述隐藏层由多个LSTM单元相连接而成,其中包括按照词序列正向传输的LSTM单元和按照词序列反向传输的LSTM的单元。优选地,所述输出层为分类器,所述分类器为二分类器。优选地,所述LSTM单元为拥有三个门结构的特殊网络,三个门均由Sigmoid函数控制,可有选择性的控制信息流的传递,三个门分别为输入门、遗忘门及输出门。优选地,所述不良信息包括低俗信息、色情信息及暴力信息。与现有技术相比,本专利技术的优点主要体现在以下几个方面:本专利技术可以在无人工参与的情况下自动地完成对用户言论的语义分析、从源头上对网络直播平台内的用户言论进行监督,不仅能够保证监督的实时性和有效性,而且也降低了监督过程对于人工操作的依赖、节约了人工成本。本专利技术采用LSTM型的双向RNN神经网络结构进行语义分析,在分析过程中既参考了历史信息也参考了未来信息,有效地提升了监督的准确性。同时,本专利技术能够对所有直播平台上的所有用户进行具有实时性和有效性的监督,监督范围广、适用性强。此外,本专利技术也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他用户言论语义分析的技术方案中,具有十分广阔的应用前景。以下便结合实施例附图,对本专利技术的具体实施方式作进一步的详述,以使本专利技术技术方案更易于理解、掌握。附图说明图1为本专利技术的流程示意图;图2为本专利技术中的LSTM型双向RNN语义分析分类器模型训练流程图;图3为本专利技术中的双向RNN语义分析分类器模型结构框图。具体实施方式如图1~图3所示,本专利技术揭示了一种面向网络直播场景的用户言论语义分析方法,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理。所述预处理具体为去除与文字内容无关的多余信息,所述多余信息包括表情图片、表情符号、数字符号以及拼音符号等。S2、将预处理过的内容进行分词处理,保持词序列顺序不变。S3、根据语料词典得到每个词的词向量,将每个词表示成一个独热向量,向量的维度为语料词典的长度。所述语料词典由网络直播平台上的语料形成,所述语料词典中的字词不重复。进而得到用户输入内容的向量表示。S4、构建并训练LSTM型双向RNN语义分析分类器模型。这一过程如图2所示,具体包括如下步骤:S41、收集网络直播平台上各种类型直播中的用户输入内容,并逐条进行标记。首先,利用网络爬虫搜集各大网络直播平台(如斗鱼,战旗,熊猫,YY等)上各种类型直播(如游戏直播,秀场直播,新闻直播等)中的用户言论,同时把平台管理员根据以往经验拦截下的一些用户言论也一并收集,形成语料库。收集的用户语句越多,则语料库就越完备。之后,将这些语句整理并标记,刨去相同的语句,将包含低俗,黄色,暴力等不良信息的言论标记为0,反之,把不包含这些信息的言论标记为1。S42、将收集的用户输入内容进行预处理,划分训练集和测试集,构建语料词典。所述预处理包括删除这些言论中一些无意义的符号,例如表情图片,表情符号、数字符号以及拼音、空格等,为保持言论语义完整,要保留标点符号。之后将这些言论分成两部分,其中75%作为训练集,剩下的为测试集,不管是测试集中还是训练集中都包含一定比例的正负样本,以防止样本的不均衡性对分类结果产生影响。然后,利用Stanford-segmenter分词器对其中文分词,这是一款开源分词器,使用简单,分词效果好,待处理语句经过分词形成了输入模型的字词序列,将语料中所有的不重复的字词组合起来就形成了语料词典。S43、根据语料词典把用户输入文本内容用词向量的形式表示出来,按照词序列顺序将词向量进行连接。根据词典可以把字词序列中的每个词用一个很长的向量表示,向量的长度即为词典的长度,每个词为这个特征向量中的一个特征。假如有一个词典,词典中包含10个词,则一个词就需要用本文档来自技高网...

【技术保护点】
1.一种面向网络直播场景的用户言论语义分析方法,其特征在于,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理;S2、将预处理过的内容进行分词处理,保持词序列顺序不变;S3、根据语料词典得到每个词的词向量,进而得到用户输入内容的向量表示;S4、构建并训练LSTM型双向RNN语义分析分类器模型;S5、依据S4中建立的模型判断用户输入内容是否包含不良信息,若不包含则正常发送,否则提醒用户并禁止发送。

【技术特征摘要】
1.一种面向网络直播场景的用户言论语义分析方法,其特征在于,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理;S2、将预处理过的内容进行分词处理,保持词序列顺序不变;S3、根据语料词典得到每个词的词向量,进而得到用户输入内容的向量表示;S4、构建并训练LSTM型双向RNN语义分析分类器模型;S5、依据S4中建立的模型判断用户输入内容是否包含不良信息,若不包含则正常发送,否则提醒用户并禁止发送。2.根据权利要求1所述的面向网络直播场景的用户言论语义分析方法,其特征在于,S1中所述预处理具体包括:去除与文字内容无关的多余信息,所述多余信息包括表情图片、表情符号、数字符号以及拼音符号。3.根据权利要求1所述的面向网络直播场景的用户言论语义分析方法,其特征在于,S3中所述根据语料词典得到每个词的词向量具体包括:将每个词表示成一个独热向量,向量的维度为语料词典的长度;所述语料词典由网络直播平台上的语料形成,所述语料词典中的字词不重复。4.根据权利要求1所述的面向网络直播场景的用户言论语义分析方法,其特征在于,S4具体包括如下步骤:S41、收集网络直播平台上各种类型直播中的用户输入内容,并逐条进行标记,将包含不良信息的内容标记为0,否则标记为1;S42、将收集的用户输入内容进行预处理,划分训练集和测试集,构建语料词典;S43、根据语料词典把用户输入文本内容用词向量的形式表示出来,按照词序列顺序将词向量进行...

【专利技术属性】
技术研发人员:张晖李吉媛
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1