【技术实现步骤摘要】
一种文本分析装置、方法及模型训练方法
本专利技术涉及通信领域,尤其涉及一种文本分析装置、方法及模型训练方法。
技术介绍
随着互联网的发展,网上购物越来越流行,人们对于网上购物的需求变得越来越高,这让各大电商平台得到了很大的发展机遇。为了更好地服务消费者和了解消费者的心声,非常重要的一个方式就是对消费者关于商品或服务的评论数据进行内在信息的数据挖掘分析。电商评论是指电子商务销售平台中顾客购买商品收货后,在评论系统中使用文字给予商家或者产品的评价。其中,文字评论既体现了顾客购物后情感的表达,也成为计划购物顾客的购买前的决策参考。为了提高客户满意度,现有电商平台都开发了自己的客户满意度评价系统,但大多都是给客户提供几个选项,例如差评、满意、非常满意等,主要通过客户的选择来进行统计分析,这种评价方式虽然简单,但并不能准确反映客户对商品或服务的情感倾向,或者说不能准确反映客户对商品或服务的哪些具体方面的喜欢或不喜欢的程度。现有的电商评价系统或类似的电子政务、网络推广、调研等场景也有同样类似的问题,基于选项的统计分析方法不能准确、客观地 ...
【技术保护点】
1.一种文本分析装置,其特征在于,所述装置包括:/n预处理层,用于对输入文本进行分词和词嵌入处理,将输入文本内容转换成词向量表示,输出句子矩阵E;/n密连接双向循环神经网络RNN层,用于对输入文本进行深层次特征的提取,该层包括多个双向RNN层,其中,第一层双向RNN层的输入为所述句子矩阵E,除第一层双向RNN层外,之后的每一双向RNN层的输入为句子矩阵E与之前所有双向RNN层的输出组合后的特征向量;/n平均池化层,用于采用平均池化的方式处理所述密连接双向RNN层输出的特征向量,提取输入文本的关键信息;/n输出层,用于使用分类器对平均池化层输出的特征向量进行分类,得到所述输入 ...
【技术特征摘要】
1.一种文本分析装置,其特征在于,所述装置包括:
预处理层,用于对输入文本进行分词和词嵌入处理,将输入文本内容转换成词向量表示,输出句子矩阵E;
密连接双向循环神经网络RNN层,用于对输入文本进行深层次特征的提取,该层包括多个双向RNN层,其中,第一层双向RNN层的输入为所述句子矩阵E,除第一层双向RNN层外,之后的每一双向RNN层的输入为句子矩阵E与之前所有双向RNN层的输出组合后的特征向量;
平均池化层,用于采用平均池化的方式处理所述密连接双向RNN层输出的特征向量,提取输入文本的关键信息;
输出层,用于使用分类器对平均池化层输出的特征向量进行分类,得到所述输入文本的关系分类结果。
2.根据权利要求1所述的装置,其特征在于,所述预处理层包括:
文本分词单元,用于对输入文本进行分词处理;
词向量单元,用于对词序列中的每个词进行词向量嵌入处理,生成以向量表示的句子矩阵E。
3.根据权利要求1所述的装置,其特征在于,所述除第一层双向RNN层外,之后的每一双向RNN层的输入特征向量的组合方式为:
其中,m代表双向RNN的层数,n代表句子矩阵E中词向量的个数,en代表句子矩阵E中第n个词向量,代表第m-1层双向RNN层输出的第n个词向量对应的输出,表示前向和后向的拼接。
4.根据权利要求1所述的装置,其特征在于,
所述密连接双向RNN层中所使用的双向RNN层为双向门控循环单元BiGRU、双向简单循环单元BiSRU、双向长短记忆网络BiLSTM或双向最少门控循环单元BiMGU。
5.一种文本分析方法,其特征在于,所述方法包括:
对输入文本进行分词和词嵌入处理,将输入文本内容转换成词向量表示,输出句子矩阵E;
将句子矩阵E输入到密集连接的多个双向循环神经网络层即双向RNN层,提取输入文本的深层次特征,其中,第一层双向RNN层的输入为所述句子矩阵E,除第一层双向RNN层外,之后的每一双向RNN层的输入为句子矩阵E与之前所有双向RNN层的输出组合后的特征向量;
采用平均池化的方式处理所...
【专利技术属性】
技术研发人员:王李鹏,王振杰,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。