一种语言文本处理方法、装置和存储介质制造方法及图纸

技术编号:20221764 阅读:37 留言:0更新日期:2019-01-28 20:16
本发明专利技术公开了一种语言文本处理方法、装置和存储介质,用以提高对语言文本所表达的情感极性分析结果的准确性。语言文本处理方法包括:获取待处理的语言文本;对待处理的语言文本进行分词得到第一分词对象,包括分词得到的词及其对应的拼音;根据分词结果,利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量,向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对第一样本数据中包含的第一分词对象进行训练得到的;根据第一分词对象向量,利用情感极性预测模型预测待处理的语言文本对应的情感极性类型,情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。

【技术实现步骤摘要】
一种语言文本处理方法、装置和存储介质
本专利技术涉及数据挖掘
,尤其涉及一种语言文本处理方法、装置和存储介质。
技术介绍
随着互联网的迅速发展,互联网已经成为了用户传播和获取各种信息的主要手段。在互联网世界里,用户可以通过常用的互联网交流渠道,如论坛、微博、博客、贴吧等方式对网络上存在的电子资源,例如,游戏、视频、文章、新闻、应用软件或者日常社会民情等等发表自己的观点及态度,通过对用户发表观点及态度的语言文本进行分析,可以确定用户对于相应电子资源的情绪、意见、价值判断和愿望等情感极性,其可以用于辅助对相应电子资源进行改进。现有技术中,利用卷积神经网络对语言文本的词向量进行建模预测文本的情感极性。其输入为用户发表的语言文本的词向量依序组成的矩阵,这些矩阵通过多个卷积和过滤得到多个对应的向量,对这些向量的每个元素进行非线性变化后通过最大采样得到一个个标量,这些标量通过全连接得到和预测标签类别相同维度的向量,上述的向量经过softmax变化得到每个类别的近似概率。由于现有的词向量转换模型主要考虑词之间的距离(比如欧氏距离等)来判断它们之间的语义相似度,这导致了正负情感词在语义空间上距本文档来自技高网...

【技术保护点】
1.一种语言文本处理方法,其特征在于,包括:获取待处理的语言文本;对所述待处理的语言文本进行分词得到第一分词对象,所述第一分词对象包括分词得到的词及其对应的拼音;根据分词结果,利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量,所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的;根据所述第一分词对象向量,利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型,所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。

【技术特征摘要】
1.一种语言文本处理方法,其特征在于,包括:获取待处理的语言文本;对所述待处理的语言文本进行分词得到第一分词对象,所述第一分词对象包括分词得到的词及其对应的拼音;根据分词结果,利用向量转换模型将分词得到的第一分词对象转换为第一分词对象向量,所述向量转换模型为根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练得到的;根据所述第一分词对象向量,利用情感极性预测模型预测所述待处理的语言文本对应的情感极性类型,所述情感极性预测模型为利用带有情感极性标签的第二样本数据进行训练得到的。2.如权利要求1所述的方法,其特征在于,利用带有情感极性标签的第二样本数据进行训练得到所述情感极性预测模型的方法,包括:针对任一第二样本数据,利用深度神经网络从所述第二样本数据中提取第一特征向量;以及利用浅层线性模型从所述第二样本数据中提取第二特征向量;分别将所述第一特征向量和第二特征向量转换为与预测标签维度相同的向量后求和后输出;根据输出的向量,确定所述第二样本数据对应于每一预测标签的概率;根据所述第二样本数据对应的标签及其对应的预测概率,判断情感极性预测模型的输出结果是否稳定;如果判断出情感极性预测模型的输出结果不稳定,则调整训练参数,返回执行情感极性预测模型训练的步骤,直至情感极性预测模型的输出结果稳定。3.如权利要求2所述的方法,其特征在于,针对任一第二样本数据,利用深度神经网络按照以下流程从所述第二样本数据中提取第一特征向量:针对任一第二样本数据,对所述第二样本数据进行分词得到第二分词对象;根据分词结果,利用所述向量转换模型将分词得到的第二分词对象转换为第二分词对象向量;根据所述第二分词对象向量,确定所述第一特征向量。4.如权利要求3所述的方法,其特征在于,所述第二分词对象包括分词得到的词及其对应的拼音,所述第二分词对象向量包括词向量和拼音向量;以及根据所述第二分词对象向量,确定所述第一特征向量,包括:根据所述训练参数和所述第二样本数据对应的词向量矩阵确定第一向量,所述词向量矩阵由所述词向量根据对应的词在所述第二样本数据中的顺序依序组成;根据所述训练参数和所述第二样本数据对应的拼音向量矩阵确定第二向量,所述拼音向量矩阵由所述拼音向量根据对应的拼音在所述第二样本数据中的顺序依序组成;根据所述第一向量和第二向量,确定所述第一特征向量。5.如权利要求1~4任一权利要求所述的方法,其特征在于,根据第一样本数据中第一分词对象之间的距离和第一分词对象的情感极性标签对所述第一样本数据中包含的第一分词对象进行训练过程中,按照以下方法确定所述向量转换模型的损失函数:根据表示第一分词对象之间距离的交叉熵和表示第一分词对象情感极性的交叉熵确定所述向量转换模型的损失函数。6.一种语言文本处理装置,其特征在于,包括:获取单元,用于获取待处理的语言文本;第一分词单元,用于对所述获得单元获取的待处理的语言文本进行...

【专利技术属性】
技术研发人员:刘绩刚李铮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1