文本情感信息的识别方法和装置制造方法及图纸

技术编号:24888858 阅读:20 留言:0更新日期:2020-07-14 18:16
本申请实施例公开了一种文本情感信息的识别方法和装置。所述方法包括:对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;将所述文本数据集中的文本转换为词向量;利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。

【技术实现步骤摘要】
文本情感信息的识别方法和装置
本申请实施例涉及信息处理领域,尤指一种文本情感信息的识别方法和装置。
技术介绍
在电商行业和新媒体的业务场景中,会产生大量的文本数据,比如对商品或服务的评价、对影视或音乐作品的评论以及社交媒体上发表的评论观点等。针对上述文本数据,可以通过对这些大量的文本数据做出分类,例如,分类比如是表达喜欢或是厌恶,支持或是反对的情感。在相关技术中,基于关键词的情感分析方法包括:通过使用预先标记好的词汇字典,将待分析的文本做分词处理后,用得到的单词和词典中的词汇做匹配,根据匹配到的词汇,确定该文本中表示积极或消极的词汇,并按照一定的规则计分处理;最后,利用得到的分数来判断该文本的情感是积极还是消极。在实际应用中,基于关键词的情感分析方法的结果,通常维护成本较高,并且在业务场景上的局限性和错误率在技术层面难以消除。
技术实现思路
为了解决上述任一技术问题,本申请实施例提供了一种文本情感信息的识别方法和装置。为了达到本申请实施例目的,本申请实施例提供了一种文本情感信息的识别方法,包括:...

【技术保护点】
1.一种文本情感信息的识别方法,其特征在于,包括:/n对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;/n将所述文本数据集中的文本转换为词向量;/n利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;/n利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。/n

【技术特征摘要】
1.一种文本情感信息的识别方法,其特征在于,包括:
对获取的数据进行处理,得到文本数据集,其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据;
将所述文本数据集中的文本转换为词向量;
利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型;
利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。


2.根据权利要求1所述的方法,其特征在于,所述对获取的数据进行处理,得到文本数据集,包括:
对获取到的每条数据进行分字处理,并保留所述每条数据中的停用词,得到文本数据集,其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。


3.根据权利要求1所述的方法,其特征在于,所述将所述文本数据集中的文本转换为词向量,包括:
将文本数据集中每条文本转换为词向量;
利用预先存储的词嵌入模型,将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作,得到从离散的词向量处理成紧凑的词向量的结果。


4.根据权利要求1所述的方法,其特征在于,所述利用预先构建的神经网络对所述词向量进行训练,得到情绪数据模型,包括:
将词向量传入长短期记忆LSTM网络的嵌入层;
控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输,并通过输出层输出文本的情感信息的识别结果。


5.根据权利要求1至4任一所述的方法,其特征在于:
所述对获取的数据进行处理,得到文本数据集之后,包括:
获取所述文本数据集中文本长度的分布信息;
根据所述文本分布信息,确定所述文本长度的基准值;
将所述文本数据集中的文本转换为词向量,包括:
利用所述文本的基准值对所述文本数据集中的文本进行筛选,得到满足所述文本的基准值的目标文本;
对所述目标文本进行词向量转换的操作。

<...

【专利技术属性】
技术研发人员:宋宇航付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1