一种基于无监督未登录词识别的自媒体语言情感分析方法技术

技术编号:31822828 阅读:16 留言:0更新日期:2022-01-12 12:39
本发明专利技术提供了一种基于无监督未登录词识别的自媒体语言情感分析方法。该方法包括:模拟字符间的组合构造无监督未登录词识别器,利用无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到待分析的自媒体语言的表征;使用自媒体多模态情感分析模型对所述待分析的自媒体语言的表征进行分析,得到待分析的自媒体语言的情感倾向。本发明专利技术实现了未登录词识别及表情符语义融合,将提高情感模型面向自媒体平台的分析性能,并适应自媒体平台的发展趋势。同时在分析平台用户语义情感方面,准确率等指标优于现有技术。准确率等指标优于现有技术。准确率等指标优于现有技术。

【技术实现步骤摘要】
一种基于无监督未登录词识别的自媒体语言情感分析方法


[0001]本专利技术涉及文本情感
,尤其涉及一种基于无监督未登录词识别的自媒体语言情感分析方法。

技术介绍

[0002]文本情感分析模型,是对带有情感色彩的主观性文本进行分析处理、归纳和推理的过程,根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或其他自定义的几种类型,是对文本作者倾向性和观点、态度的划分,因此也称倾向性分析。
[0003]目前,现有的传统机器学习情感分析流程如图1所示,通过分词处理、特征向量化及特性择等流程构建情感模型。特征工程是此类研究内容的核心,情感分类任务中常用到的特征有n

gram特征(unigrams,bigrams,trigrams)、Part

of

Speech(POS)特征、句法特征、TF

IDF特征等。传统机器学习情感分析中,高性能的情感模型依赖于高质量的标注文本,而在现实场景中较高质量的标注数据和特征工程往往因为需要投入大量人工成本而很难实现。同时词分析方法依赖于特征工程方法分类,但是特征工程又依赖人工设计,具有受人为因素影响、推广能力差的劣势,无法保证在某一领域表现优秀的情感模型在其他领域下的性能,因此当下情感分析大多基于深度学习模型研究实现。
[0004]深度学习是基于特征自学习和深度神经网络的一系列机器学习算法的总称。目前深度学习的研究有了长足发展,在传统特征选择与提取框架上取得巨大突破,在自然语言处理、生物医学分析、遥感影像解译等诸多领域产生越来越重要影响,并在计算机视觉和语音识别领域取得革命性突破。基于深度学习抽象特征,可避免人工提取特征的工作,在情感分类中具有极大优势。但深度学习技术并不适用于当前的自媒体平台,主要由于自媒体平台的语言包含网络用语、缩略词、表情符号、文字、图片等多元化媒体信息。不仅为深度学习方法造成分词困难,并且导致获取的情感信息并不完整,从而影响系统的准确性。
[0005]现有技术中的一种短文本情感分析方法的处理流程如图2所示,包括如下的处理过程:利用分词工具将原始文本语料分词,提取词特征,获取文本词向量,计算文本词向量与背景信息的注意力,构建结合了背景信息的新的文本词向量。最后通过深度神经网络进行分类。该方案为对其背景信息的含义概括为任何与文本相关且可用的信息,可以认为是与输入文本相关的话题与背景知识。
[0006]上述现有技术中的一种短文本情感分析方法的缺点为:
[0007]1.自媒体平台的文本缺少形式化的背景信息,运用该方法则无法高效地提取背景信息,从而导致可用性降低。
[0008]2.自媒体语言具有由于口语化、缩略词、网络词等导致用语非规范的明显特点与含有大量表情符的特点,导致文本无法被主流分词系统恰当分词的不良后果。该方法没有设计对分词系统的改进,也没有引入对表情符的处理,因此该方法无法充分获得自媒体文本的信息,从而影响其方法的性能。

技术实现思路

[0009]本专利技术的实施例提供了一种基于无监督未登录词识别的自媒体语言情感分析方法,以实现有效地对自媒体语言进行情感分析。
[0010]为了实现上述目的,本专利技术采取了如下技术方案。
[0011]一种基于无监督未登录词识别的自媒体语言情感分析方法,包括:
[0012]模拟字符间的组合构造无监督未登录词识别器,利用所述无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到所述待分析的自媒体语言的表征;
[0013]使用自媒体多模态情感分析模型对所述待分析的自媒体语言的表征进行分析,得到所述待分析的自媒体语言的情感倾向。
[0014]优选地,所述的模拟字符间的组合构造无监督未登录词识别器,包括:
[0015]定义未登录词为无法被主流分词系统切分识别而又独立成词、表达具体含义的词语,使用多个已有的分词工具结合多种信息进行规则过滤,获得正确处理未登录词的分词结果,该分词结果包括句子和词序列,并将分词结果作为训练语料;
[0016]基于深度学习网络模型构建一个无监督未登录词识别器,将所述训练语料输入到无监督未登录词识别器,对所述无监督未登录词识别器进行训练,训练完成后,得到训练好的无监督未登录词识别器。
[0017]优选地,所述的利用所述无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到所述待分析的自媒体语言的表征,包括:
[0018]将待分析的自媒体语言输入到所述无监督未登录词识别器中,所述无监督未登录词识别器通过深度学习网络推断待分析的自媒体语言待分析的自媒体语言中的每个字符的标注分类,模拟字符间的组合,其中字符标注定义为四词位标注集{B,M,E,S},B代表标注词的开始字符,E代表标注词的结束字符,M代表标注词的中间字符,S代表单字字符,通过神经网络模型将未登录词识别任务转变为分类子任务,推断每一个字符标注的概率,模拟字符间的组合构造成词,得到未登录词的表征;
[0019]所述未登录词的表征为向量,该向量是若干个有序数字的序列,所有词的向量维数必须保证是一致的。
[0020]优选地,所述的使用自媒体多模态情感分析模型对所述待分析的自媒体语言的表征进行分析,得到所述待分析的自媒体语言的情感倾向,包括:
[0021]将各个自媒体平台本身提供的文本信息作为使用自媒体多模态情感分析模型的输入,提取表情符语义向量,使用表情符向量作为注意力机制语义编码,提取多个表情符的特征向量作为注意力层,训练不同表情符在不同文本下的权重影响,模拟表情符对文本的情感作用;
[0022]将所述待分析的自媒体语言的表征的输入文本分成若干句子,每一个句子单独通过自媒体多模态情感分析模型进行分析,将所有句子的分析结果进行综合,得到所述待分析的自媒体语言的情感倾向。
[0023]优选地,所述的将所述待分析的自媒体语言的表征的输入文本分成若干句子,每一个句子单独通过自媒体多模态情感分析模型进行分析,将所有句子的分析结果进行综合,得到所述待分析的自媒体语言的情感倾向,包括:
[0024]因为考虑到相同的表情符在不同的语境中可能表达不同的含义。因此本专利技术实施
例设计这样一个系统:表情与文本中的某个词越相关,则这个词保留的信息越多;表情与文本中某个词越不相关,则这个词保留的信息越少。
[0025]因此,本专利技术
[0026]计算所述待分析的自媒体语言中每个词对应的含有语义信息的向量与表情符向量的相关性,该相关性是一个0~1的数值,和为1,将每个词所对应的向量与这个相关性数值相乘,再把所有乘过的向量相加,就获得了一个结合了表情符注意力机制的向量,将该向量作为所述待分析的自媒体语言和表情符结合在一起的表征向量;
[0027]将所述待分析的自媒体语言和表情符结合在一起的表征向量输入使用全连接神经网络的分类器,该分类器输出为维数为目标情感倾向的个数的向量,该向量每个位置上的数分别表示对应的情感倾向可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督未登录词识别的自媒体语言情感分析方法,其特征在于,包括:模拟字符间的组合构造无监督未登录词识别器,利用所述无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到所述待分析的自媒体语言的表征;使用自媒体多模态情感分析模型对所述待分析的自媒体语言的表征进行分析,得到所述待分析的自媒体语言的情感倾向。2.根据权利要求1所述的方法,其特征在于,所述的模拟字符间的组合构造无监督未登录词识别器,包括:定义未登录词为无法被主流分词系统切分识别而又独立成词、表达具体含义的词语,使用多个已有的分词工具结合多种信息进行规则过滤,获得正确处理未登录词的分词结果,该分词结果包括句子和词序列,并将分词结果作为训练语料;基于深度学习网络模型构建一个无监督未登录词识别器,将所述训练语料输入到无监督未登录词识别器,对所述无监督未登录词识别器进行训练,训练完成后,得到训练好的无监督未登录词识别器。3.根据权利要求2所述的方法,其特征在于,所述的利用所述无监督未登录词识别器对待分析的自媒体语言进行无监督未登录词识别,得到所述待分析的自媒体语言的表征,包括:将待分析的自媒体语言输入到所述无监督未登录词识别器中,所述无监督未登录词识别器通过深度学习网络推断待分析的自媒体语言待分析的自媒体语言中的每个字符的标注分类,模拟字符间的组合,其中字符标注定义为四词位标注集{B,M,E,S},B代表标注词的开始字符,E代表标注词的结束字符,M代表标注词的中间字符,S代表单字字符,通过神经网络模型将未登录词识别任务转变为分类子任务,推断每一个字符标注的概率,模拟字符间的组合构造成词,得到未登录词的表征;所述未登录词的表征为向量,该向量是若干个有序数字的序列,所有词的向量维数必须保证是一致的。4.根据权利要求3所述的方法,其特征在于,所述的使用自媒体多模态情感...

【专利技术属性】
技术研发人员:吴岳辛范春晓邹俊伟闫振常思藤
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1