The invention discloses a user speech semantic analysis method for network live broadcast scenario, which includes the following steps: S1, real-time acquisition of the content of user input area in the live broadcast room of the network live broadcast platform, and preprocessing; S2, word segmentation of the preprocessed content to keep the word sequence unchanged; S3, obtaining the word vector of each word according to the corpus dictionary, and then obtaining the usage. Vector representation of user input content; S4, building and training LSTM bidirectional RNN semantic analysis classifier model; S5, judging whether user input content contains bad information based on the model established in S4, if not, send normally, otherwise remind users and prohibit sending. The invention can automatically complete the semantic analysis of user's speech without manual participation and supervise user's speech in the network live broadcast platform from the source, which can not only guarantee the real-time and effectiveness of the supervision, but also save the labor cost.
【技术实现步骤摘要】
面向网络直播场景的用户言论语义分析方法
本专利技术涉及一种针对用户言论的语义分析方法,具体而言,涉及一种面向网络直播场景的用户言论语义分析方法,属于深度学习及文本内容
技术介绍
近年来,网络直播行业发展极为迅速,各种直播平台层出不穷,观看直播的用户准入门槛低,其用户群体整体呈现低龄化态势。而网络直播平台的一个显著特点就是用户可以在评论区随意的发表自己的言论,同时这些言论会以弹幕的形式显示在直播间,使身处同一个直播间的所有用户(包括主播)都能看到。但在实际的平台运营过程中,人们发现,总会出现有一些个人素质不高的用户,为了追求低级趣味,在弹幕上出口成脏,发表不雅、不健康的言论。由于弹幕的即时性和瞬时性特点,言论一出即成为既定事实,相关的管制措施往往起不到任何实质性的作用;同时由于弹幕的隐秘性,有些低俗弹幕不能被及时地发现并处理,这对青少年、对社会都造成了极大的危害。目前,网络直播平台对于用户言论的监督大多还停留在对弹幕字词的简单屏蔽上,并未没有真正实现语义分析,监督效果不甚理想。由于弹幕具有多变化、多元化、碎片化等特性,使得一些不包含常见敏感词汇但是具有低俗趣味意义的言论得不到有效的处理;其次,弹幕一出直播间内所有人都能看到,对其进行简单屏蔽并不能从源头上解决问题,从而不能保证监督的实时性。综上所述,如何在现有技术的基础上提出一种针对用户言论的语义分析方法,实现对网络直播平台内用户言论的有效监督,也就成为了本领域内技术人员亟待解决的问题。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种面向网络直播场景的用户言论语义分析方法,包括如下步 ...
【技术保护点】
1.一种面向网络直播场景的用户言论语义分析方法,其特征在于,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理;S2、将预处理过的内容进行分词处理,保持词序列顺序不变;S3、根据语料词典得到每个词的词向量,进而得到用户输入内容的向量表示;S4、构建并训练LSTM型双向RNN语义分析分类器模型;S5、依据S4中建立的模型判断用户输入内容是否包含不良信息,若不包含则正常发送,否则提醒用户并禁止发送。
【技术特征摘要】
1.一种面向网络直播场景的用户言论语义分析方法,其特征在于,包括如下步骤:S1、实时获取网络直播平台直播间内用户输入区的内容,并进行预处理;S2、将预处理过的内容进行分词处理,保持词序列顺序不变;S3、根据语料词典得到每个词的词向量,进而得到用户输入内容的向量表示;S4、构建并训练LSTM型双向RNN语义分析分类器模型;S5、依据S4中建立的模型判断用户输入内容是否包含不良信息,若不包含则正常发送,否则提醒用户并禁止发送。2.根据权利要求1所述的面向网络直播场景的用户言论语义分析方法,其特征在于,S1中所述预处理具体包括:去除与文字内容无关的多余信息,所述多余信息包括表情图片、表情符号、数字符号以及拼音符号。3.根据权利要求1所述的面向网络直播场景的用户言论语义分析方法,其特征在于,S3中所述根据语料词典得到每个词的词向量具体包括:将每个词表示成一个独热向量,向量的维度为语料词典的长度;所述语料词典由网络直播平台上的语料形成,所述语料词典中的字词不重复。4.根据权利要求1所述的面向网络直播场景的用户言论语义分析方法,其特征在于,S4具体包括如下步骤:S41、收集网络直播平台上各种类型直播中的用户输入内容,并逐条进行标记,将包含不良信息的内容标记为0,否则标记为1;S42、将收集的用户输入内容进行预处理,划分训练集和测试集,构建语料词典;S43、根据语料词典把用户输入文本内容用词向量的形式表示出来,按照词序列顺序将词向量进行...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。