文本数据的数据处理方法及应用技术

技术编号:18894530 阅读:42 留言:0更新日期:2018-09-08 10:58
本申请涉及文本数据的数据处理方法、数据处理装置和电子设备。该数据处理方法包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。

Data processing method and application of text data

The application relates to data processing method, data processing device and electronic equipment of text data. The data processing method includes: acquiring the user's text data; extracting the text data with the first feature extraction method to obtain the first feature data; extracting the text data with the second feature extraction method to obtain the second feature data; and training the mixture of the first feature data and the second feature data. A convolutional neural network model comprising a mixing layer for mixing the first characteristic data and the second characteristic data. The hybrid convolution neural network model is trained based on multi-feature data, which can improve the validity, reliability and robustness of the hybrid convolution neural network model.

【技术实现步骤摘要】
文本数据的数据处理方法及应用
本专利技术总体地涉及数据处理领域,特别是涉及用于基于文本数据的数据处理方法、数据处理装置和电子设备。
技术介绍
随着互联网技术的发展和普及,电子商务在人们日常生活和购物中所占的比重越来越大。在用户进行电子商务消费的过程中,会产生大量与产品相关的电子商务数据,例如,关于产品的评论数据。因此,针对如何通过对电子商务数据的数据挖掘,例如对电子商务数据进行情感信息挖掘,以更为全面地了解相关产品并进行产品优化和产业优化,已逐渐成为是当前科学研究的一个热点领域。在电子商务数据挖掘方面应用了大量的算法,这些算法都发挥着重要的作用,其种不少算法的应用非常成功,应用领域也很广。但是,这些算法也在不同方面、例如鲁棒性、可预测性方面存在不足。因此,需要改进的用于电子商务数据挖掘的数据处理方案。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数据处理方法、数据处理装置和电子设备,其基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。根据本申请的一方面,提供了一种数据处理方法,包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。在上述数据处理方法中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。在上述数据处理方法中,以第一特征提取方法提取所述文本数据以获得第一特征数据的步骤,包括:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及选择所述词向量空间中与所述情感词语对应的情感词向量作为所述第一特征数据。在上述数据处理方法中,在基于情感词典筛选出与所述情感词典匹配的情感词语的步骤之前包括:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。在上述数据处理方法中,基于所述情感特征种子词构建所述情感词典的步骤,包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;以及,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。在上述数据处理方法中,以第二特征提取方法提取所述文本数据以获得第二特征数据的步骤包括:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。在上述数据处理方法中,所述混合层位于所述混合神经网络模型的嵌入层和卷积层之间,所述混合层用于:接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据,所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值;和,将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。在上述数据处理方法中,所述混合层位于所述混合神经网络模型的池化层和全连接层之间,所述混合层用于:结合经过池化操作之后所获得一维向量和所述多特征数据所对应的向量。在上述数据处理方法中,所述文本数据是所述用户的电商网站的评论数据,所述评论数据包括评论信息和评论星级。在上述数据处理方法中,所述数据处理方法,还包括:获取待挖掘的用户的电商网站的评论信息;以及,通过训练完成的所述混合卷积神经网络获得所述用户的情感信息。根据本申请的另一方面,还提供一种数据处理装置,包括:文本数据获取单元,用于获取用户的文本数据;第一特征提取单元,用于以第一特征提取方法提取所述文本数据以获得第一特征数据;第二特征提取单元,用于以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,模型训练单元,用于以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。在上述数据处理装置中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。在上述数据处理装置中,所述第一特征提取单元用于:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及,基于所述词向量空间将所述情感词语转换为相应的情感词向量以作为所述第一特征数据。在上述数据处理装置中,所述第一特征提取单元在基于情感词典筛选出与所述情感词典匹配的情感词语之前,进一步用于:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。在上述数据处理装置中,所述第一特征提取单元用于基于所述情感特征种子词构建所述情感词典的步骤,包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;以及,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。在上述数据处理装置中,所述第二特征提取单元用于:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。在上述数据处理装置中,所述混合层位于所述混合神经网络模型的嵌入层和卷积层之间,所述混合层用于:接收所述第一特征数据和由所述嵌入层转换所述第二特征数据得到的向量化的第二特征数据,所述第一特征数据和所述向量化的第二特征数据对应的向量为其中ki表示经过第i个特征所提取得到的文本长度且是不确定值,m为高维映射的结果且是确定值;以及,将所述第一特征数据和所述向量化的第二特征数据转换为混合后的词向量其中n表示特征个数。在上述数据处理装置中,所述混合层位于所述混合神经网络模型的池化层和全连接层之间,所述混合层用于:拼接经过池化操作之后所获得一维向量。在上述数据处理装置中,所述文本数据是所述用户的在电商网站的评论数据,所述评论数据包括评论信息和评论星级。在上述数据处理装置中,所述文本文档来自技高网...

【技术保护点】
1.一种文本数据的数据处理方法,包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。

【技术特征摘要】
1.一种文本数据的数据处理方法,包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。2.如权利要求1所述的数据处理方法,其中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。3.如权利要求2所述的数据处理方法,其中,以第一特征提取方法提取所述文本数据以获得第一特征数据包括:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及选择所述词向量空间中与所述情感词语对应的情感词向量作为所述第一特征数据。4.如权利要求3所述的数据处理方法,其中,在基于情感词典筛选出与所述情感词典匹配的情感词语之前进一步包括:根据预设规则从开源资源中筛选出情感特征种子词;以及基于所述情感特征种子词构建所述情感词典。5.如权利要求4所述的数据处理方法,其中,基于所述情感特征种子词构建所述情感词典包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;和减小k的值,并将与所述更新后的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。6.如权利要求2所述的数据处理方法,其中,以第二特征提取方法提取所述文本数据以获得第二特征数...

【专利技术属性】
技术研发人员:杨鹏
申请(专利权)人:北京慧闻科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1