意见挖掘装置以及智能终端制造方法及图纸

技术编号:21513953 阅读:25 留言:0更新日期:2019-07-03 09:03
本发明专利技术公开了一种意见挖掘装置以及智能终端。所述装置包括:词向量模型训练模块,用以利用预设原始语料训练词向量模型;待分析文本获取模块,用以获取待分析文本,所述待分析文本包括多个第一词语;词向量转换模块,用以根据所述词向量模型将所述待分析文本中的各个第一词语转换为词向量;句向量计算模块,用以利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量,每个词向量的情感权重是预先确定的;情感类别确定模块,用以根据所述待分析文本的句向量确定所述待分析文本的情感类别。通过本发明专利技术技术方案可以提高文本情感分析的效率和准确性。

Opinion Mining Device and Intelligent Terminal

The invention discloses an opinion digging device and an intelligent terminal. The device includes: a word vector model training module for training the word vector model using preset raw corpus; a text acquisition module for analysis to obtain the text to be analyzed, which includes a plurality of first words; and a word vector conversion module for analyzing the text to be analyzed according to the word vector model. Each first word is transformed into a word vector; the sentence vector calculation module is used to calculate the sentence vector of the text to be analyzed by using each word vector and its corresponding emotional weight. The emotional weight of each word vector is predetermined; and the emotional category determination module is used to determine the sentence vector of the text to be analyzed according to the sentence vector of the text to be analyzed. The emotional categories of the text to be analyzed are described. The technical scheme of the invention can improve the efficiency and accuracy of text sentiment analysis.

【技术实现步骤摘要】
意见挖掘装置以及智能终端
本专利技术涉及自然语言处理
,尤其涉及一种意见挖掘装置以及智能终端。
技术介绍
文本情感分析,又称意见挖掘(OpinionMining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析技术在网络营销、企业舆情监控、政府舆论监控等扮演越来越重要的角色。情感分类是文本情感分析技术的一项子任务,其利用底层情感信息抽取的结果将情感文本分为若干情感类别,如分为褒贬两类情感类别,其中,褒类情感类别对应的文本为正面文本,贬类情感类别对应的文本为负面文本。现有技术中,对文本进行分类的装置主要采用基于机器学习的监督分类技术。基于机器学习的监督分类装置包括训练分类器过程和使用分类器对待分类文本进行分类过程。其中,在训练分类器过程中,需要人工构建大量的特征工程,因此需要人工进行长时间劳动,极大的耗费了人力;另一方面,传统技术中所构建的文本向量表示存在稀疏性,容易导致维度灾难,并使分类器的训练时间较长,从而降低了对待分类文本进行分类的效率。训练得到的分类器由于缺乏对文本的语义信息表示,导致使用分类器对待分类文本进行分类的结果的准确率较低。
技术实现思路
本专利技术解决的技术问题是如何提高文本情感判断的效率和准确性。为解决上述技术问题,本专利技术实施例提供一种意见挖掘装置,包括:词向量模型训练模块,用以利用预设原始语料训练词向量模型;待分析文本获取模块,用以获取待分析文本,所述待分析文本包括多个第一词语;词向量转换模块,用以根据所述词向量模型将所述待分析文本中的各个第一词语转换为词向量;句向量计算模块,用以利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量,每个词向量的情感权重是预先确定的;情感类别确定模块,用以根据所述待分析文本的句向量确定所述待分析文本的情感类别,具体包括:第二情感概率计算单元,用以根据所述待分析文本的句向量计算所述待分析文本的情感概率;比对单元,用以将所述情感概率与多个阈值区间进行比对,每一阈值区间对应一种情感类别;第二情感类别确定单元,用以确定所述待分析文本的情感类别为所述情感概率落入的阈值区间对应的情感类别。可选地,所述待分析文本获取模块包括:分词单元,用以根据词典对待分析文本进行分词处理,得到多个第一词语,所述词典包括多个第二词语。可选地,所述待分析文本获取模块还包括:初始权重获取单元,用以获取每个第二词语的初始权重;调整单元,用以根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整,以得到每个第二词语对应的情感权重,第二词语对应的情感权重等同于所述第一词语的词向量对应的情感权重。可选地,所述调整单元包括:第一调整子单元,用以在第二词语的情感倾向为正面时,在所述第二词语的初始权重的基础上进行增大,以得到该第二词语的情感权重;第一调整子单元,用以在第二词语的情感倾向为负面时,在所述第二词语的初始权重的基础上进行减小,以得到该第二词语的情感权重。可选地,所述情感类别确定模块采用softmax函数、负采样函数或层次softmax函数确定所述待分析文本的情感类别。可选地,所述词向量转换模块包括:字转换单元,用以对于未登录词,将所述未登录词的各个字转换为字向量,并将所有字向量之和作为所述未登录词的词向量。可选地,所述词向量为N元语法特征向量,N为大于等于2的正整数。可选地,所述句向量计算模块将各个词向量与其对应的情感权重的乘积之和作为所述待分析文本的句向量。本专利技术实施例还公开了一种智能终端,其包括上述的意见挖掘装置。可选地,所述智能终端为服务机器人、手机或平板电脑。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术技术方案获取待分析文本,所述待分析文本包括多个第一词语;将所述待分析文本中的各个第一词语转换为词向量;利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量,每个词向量的情感权重是预先确定的;根据所述待分析文本的句向量确定所述待分析文本的情感类别。本专利技术技术方案在获得待分析文本中各个第一词语的词向量后,还可以确定各个词向量的情感权重;由于情感权重可以表征词向量的情感,词向量可以表征第一词语的语义,因此结合词向量及其情感权重得到句向量可以用于确定待分析文本的情感类别,保证了文本情感分类的准确性;此外,本专利技术技术方案的流程简单,不需要复杂运算,提高文本情感分析的效率。本专利技术技术方案中,基于句向量确定的待分析文本的情感概率可以表征待分析文本的情感倾向,不同的阈值区间指向不同的情感类别,通过比对情感概率和阈值区间,可以实现对待分析文本的更加细化的情感分类,提高了对文本情感分析的精细度。进一步,所述获取待分析文本包括还包括:获取每个第二词语的初始权重;根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整,以得到每个第二词语对应的情感权重,第二词语对应的情感权重等同于所述第一词语的词向量对应的情感权重。本专利技术技术方案获取的第二词语的初始权重可以表征第二词语的语义重要性,依据第二词语的情感倾向对所述初始权重进行调整后的情感权重,在表征语义的基础上还可以表征情感,从而可以用于待分析文本的情感分析,提高文本情感分析的准确性。进一步,所述将所述待分析文本中的各个第一词语转换为词向量包括:对于未登录词,将所述未登录词的各个字转换为字向量,并将所有字向量之和作为所述未登录词的词向量。由于未登录词未被收录在词典内,因此本专利技术技术方案中利用未登录词的各个字的字向量获取词向量,避免无法获取未登录词的词向量导致的待分析文本的情感分析失败,进一步保证了文本情感分析的准确性。附图说明图1是本专利技术实施例一种文本情感分析装置的结构示意图;图2是图1所示句向量计算模块的一种具体实施方式的结构示意图;图3是图1所示句向量计算模块的另一种具体实施方式的结构示意图;图4是本专利技术实施例的一种具体应用场景的示意图。具体实施方式如
技术介绍
中所述,由于人工构建大量的特征工程,因此需要人工进行长时间劳动,极大的耗费了人力;另一方面,传统技术中所构建的文本向量表示存在稀疏性,容易导致维度灾难,并使分类器的训练时间较长,从而降低了对待分类文本进行分类的效率。训练得到的分类器由于缺乏对文本的语义信息表示,导致使用分类器对待分类文本进行分类的结果的准确率较低。本专利技术技术方案在获得待分析文本中各个第一词语的词向量后,还可以确定各个词向量的情感权重;由于情感权重可以表征词向量的情感,词向量可以表征第一词语的语义,因此结合词向量及其情感权重得到句向量可以用于确定待分析文本的情感类别,保证了文本情感分类的准确性;此外,本专利技术技术方案的流程简单,不需要复杂运算,提高文本情感分析的效率。为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图1是本专利技术实施例一种意见挖掘装置的结构示意图。如图1所示,文本情感分析装置60可以包括待分析文本获取模块601、词向量转换模块602、句向量计算模块603和情感类别确定模块604。其中,待分析文本获取模块601用以获取待分析文本,所述待分析文本包括多个第一词语;词向量转换模块602用以将所述待分析文本中的各个第一词语转换为词向量;句向量计算模块603用以利用各个词向量及其对应的情感权本文档来自技高网
...

【技术保护点】
1.一种意见挖掘装置,其特征在于,包括:词向量模型训练模块,用以利用预设原始语料训练词向量模型;待分析文本获取模块,用以获取待分析文本,所述待分析文本包括多个第一词语;词向量转换模块,用以根据所述词向量模型将所述待分析文本中的各个第一词语转换为词向量;句向量计算模块,用以利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量,每个词向量的情感权重是预先确定的;情感类别确定模块,用以根据所述待分析文本的句向量确定所述待分析文本的情感类别,具体包括:第二情感概率计算单元,用以根据所述待分析文本的句向量计算所述待分析文本的情感概率;比对单元,用以将所述情感概率与多个阈值区间进行比对,每一阈值区间对应一种情感类别;第二情感类别确定单元,用以确定所述待分析文本的情感类别为所述情感概率落入的阈值区间对应的情感类别。

【技术特征摘要】
1.一种意见挖掘装置,其特征在于,包括:词向量模型训练模块,用以利用预设原始语料训练词向量模型;待分析文本获取模块,用以获取待分析文本,所述待分析文本包括多个第一词语;词向量转换模块,用以根据所述词向量模型将所述待分析文本中的各个第一词语转换为词向量;句向量计算模块,用以利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量,每个词向量的情感权重是预先确定的;情感类别确定模块,用以根据所述待分析文本的句向量确定所述待分析文本的情感类别,具体包括:第二情感概率计算单元,用以根据所述待分析文本的句向量计算所述待分析文本的情感概率;比对单元,用以将所述情感概率与多个阈值区间进行比对,每一阈值区间对应一种情感类别;第二情感类别确定单元,用以确定所述待分析文本的情感类别为所述情感概率落入的阈值区间对应的情感类别。2.根据权利要求1所述的意见挖掘装置,其特征在于,所述待分析文本获取模块包括:分词单元,用以根据词典对待分析文本进行分词处理,得到多个第一词语,所述词典包括多个第二词语。3.根据权利要求2所述的意见挖掘装置,其特征在于,所述待分析文本获取模块还包括:初始权重获取单元,用以获取每个第二词语的初始权重;调整单元,用以根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整,以得到每个第二词语对应的情...

【专利技术属性】
技术研发人员:陈培华朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1