—基于焦点关注的主题类别分析方法技术

技术编号:22166940 阅读:28 留言:0更新日期:2019-09-21 10:35
本发明专利技术公开了—基于焦点关注的主题类别分析方法,属于大数据技术领域,包括建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块;解决对主题特征差异不明显的情况下进行二次主题划分的技术问题,本发明专利技术提出的局部循环卷积网络既可以学习文本序列之间的字词关系,还可以提取文本中的关键字词和相应的位置信息,本发明专利技术采用基于焦点关注的主题类别分析方法,当主题特征差异不明显的时候依然能得到良好的分类效果。

Topic Category Analysis Based on Focus Concern

【技术实现步骤摘要】
—基于焦点关注的主题类别分析方法
本专利技术属于大数据
,尤其涉及—基于焦点关注的主题类别分析方法。
技术介绍
随着互联网上的新闻数据不断增加,如何将新闻数据按照其主题进行正确地归类以方便人们浏览和查找显的尤为重要。目前,主题分类技术广泛应用在商业领域中,人们在浏览新闻时,首先按照类别筛选后,再进行相关阅读,常见的新闻分类类别有:体育、军事、科技、娱乐、教育、国际、财经等。互联网上关于各公司的新闻同样在日益增长,而与企业相关的新闻类别有:公司信息、公告报告、产品信息、成果奖项、投资融资等。为了分析公司的相关类别信息,通过新闻数据判别该公司的发展情况,对关于公司的新闻数据进行主题分类十分重要。主题分类是自然语言处理领域中一个非常经典的问题,传统的方法通过利用知识工程监理专家系统,然后通过专家规则进行分类,该方法不仅耗费精力,其覆盖的范围和准确率都十分有限,后来,普遍使用机器学习方法解决主题分类问题,通过人工特征工程和一个浅层分类器完成该任务,该方法的缺点和前期的知识工程一样,耗费人工精力。接着,目广泛使用深度学习进行文本的主题分类,该方法最大的优点是省去了大量的人工特征提取步骤,通过神经网络自动提取主题特征,其准确率要高于机器学习方法。通过观察发现,在主题的特征差异比较大的情况下,现有的主题分类技术能表现不错的效果,但是在主题特征之间差异不大的情况下,如对科技这一主题进一步划分为:数码、手机、平板、电脑等类别时,现有模型在其数据上表现效果往往不是很好,误分类的情况很多。目前在主题分类的问题中,现阶段所使用的方法主要是根据提取的上下文特征外接一个分类器进行主题的分类,这样做的主要缺点是针对某一主题类别进行二次划分的时候,分类的效果不是很好,尤其是当主题特征差异不明显的时候。
技术实现思路
本专利技术的目的是提供—基于焦点关注的主题类别分析方法,解决对主题特征差异不明显的情况下进行二次主题划分的技术问题。为实现上述目的,本专利技术采用如下技术方案:—基于焦点关注的主题类别分析方法,包括如下步骤:步骤1:建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块、池化模块、步骤2:中心服务器获取客户端服务器中的原始文本,并通过数据预处理模块进行清洗和筛选,生成预处理文本,其具体步骤如下:步骤A1:获取原始文本的文本主题数据作为原始数据,对原始数据进行ETL处理,即抽取、转换和加载操作;步骤A2:对原始数据进行文本数据和主题类别的提取;将文本数据和主题类别分别转换为文本列表和标签列表,每一条主题类别在标签列表中分别对应一条主题标签,文本列表中的每一条文本数据分别对应标签列表中的一条主题标签,对所有的文本数据进行分词操作,统计文本数据中所有的字词,形成字典表,将文本数据中的字词转化为字典表中的索引号,完成对文本数据的序列化操作,将序列化后的文本数据和对应的主体标签作为预处理文本;步骤A3:创建一个数据生成器,每批次产生指定数量的预处理文本;步骤3:向量学习模块对预处理文本进行向量学习,用向量表示预处理文本,具体步骤包括:使用CBOW训练预处理文本中的字词,得到关于预处理文本中所有字词的向量表示,即字向量,字向量代表每个字词的特征;加载训练得到的所有字向量,通过查找得到预处理文本中的每个字向量特征表示,完成对预处理文本的字向量表示;步骤4:特征提取模块使用卷积神经网络对预处理文本进行特征提取,对预处理文本的字向量进行类卷积操作,指定卷积核的大小,规定在每个卷积窗口内执行相应的操作,通过局部循环神经网络学习预处理文本的字词含义,同时捕捉上下文之间的重要信息;类卷积操作为局部循环神经网络GRU,通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示,包括如下步骤:步骤S1:设置一个局部循环卷积的内核大小为kernel_size,指定循环网络只在kernel_size区域内进行执行运算;步骤S2:对预处理文本进行补全操作,在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引,设置起始位置为0,终止位置为kernel_size-1;步骤S3:使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码,学习字词向量的表示方法,取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果;步骤S4:对每次局部循环卷积的结果进行拼接,逐步得到上下文特征向量;步骤S5:起始位置和终止位置均向预处理文本方向移动一个位置,判断终止位置是否小于预处理文本的序列长度,若满足条件,则跳转至步骤S3继续进行计算,否则退出循环,结束计算;步骤5:特征提取模块使用多层感知机对局部循环卷积神经网络提取得到的上下文字词特征连接一层全连接神经网络,进一步提取高度抽象的上下文的文本特征,得到的上下文信息的高层次特征;步骤6:注意力计算模块对高层次特征进行一次注意力计算,将焦点聚集在能体现文本主题类别的关键字词上,其具体步骤如下:步骤C1:对上下文字词特征向量进行线性变换,将其特征降低到一维,得到一个长度为文本序列大小的向量;步骤C2:对步骤C1得到的向量进行归一化操作,得到上下文中每个字词的权重向量;步骤C3:将权重向量与高层次特征相结合,得到新的上下文特征向量,该特征向量将焦点关注在对主题类别有贡献的关键字词上,设定该特征向量为主题特征向量;步骤:7:池化模块对主题特征向量进行最大池化操作,形成最终的文本特征向量表示,具体步骤如下:步骤D1:对主题特征向量执行卷积中的最大池化操作;步骤D2:将二维的上下文特征压缩成一维,进一步提取关字词以及其位置信息,得到最终的文本特征表示;步骤8:在中心服务器中建立Softmax分类器,使用Softmax分类器对得到的文本特征向量进行一层全连接神经网络的计算,该层神经元个数为标签字典中主题的数量,得到文本数据属于各主题类别的得分,通过Softmax归一化计算得到文本数据属于各主题的概率,取概率最大的主题作为文本数据最终的主题类别,得到文本数据属于各主题类别的概率。优选的,在执行步骤3时,CBOW即为ContinuousBagofWords,是一个使用上下文与层当面字词的语言模型,在此,加载预训练好的CBOW模型,将每个字词转换为字向量,因此经过转换后的一文本表示为其中,n为一文本的长度,de为字向量的维度。优选的,在执行步骤S2时,补全操作为在每个文本第一个字符前面补充kernel_size-1个0向量,即,设定两个变量pstart,pend分别表示初始位置和终止位置,其中,设定pstart=0,那么pend=pstart+kernel_size-1。优选的,在执行步骤6时,使用一层注意力计算权重向量,得到文本中各字词的权重,具体的计算过程如下:其中,s为权重向量,进行归一化操作,得到每个字词相应的权重,表示为atti,其具体公式如下:设定所述新的上下文特征向量为H′,根据以下公式计算H′的值:hi′=hi′*atti。优选的,在执行步骤D1时,所述最大池化操作为将所有字词每一维度的特征向量进行卷积中的max-pooling操作,再次保本文档来自技高网
...

【技术保护点】
1.—基于焦点关注的主题类别分析方法,其特征在于:包括如下步骤:步骤1:建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块;步骤2:中心服务器获取客户端服务器中的原始文本,并通过数据预处理模块进行清洗和筛选,生成预处理文本,其具体步骤如下:步骤A1:获取原始文本的文本主题数据作为原始数据,对原始数据进行ETL处理,即抽取、转换和加载操作;步骤A2:对原始数据进行文本数据和主题类别的提取;将文本数据和主题类别分别转换为文本列表和标签列表,每一条主题类别在标签列表中分别对应一条主题标签,文本列表中的每一条文本数据分别对应标签列表中的一条主题标签,对所有的文本数据进行分词操作,统计文本数据中所有的字词,形成字典表,将文本数据中的字词转化为字典表中的索引号,完成对文本数据的序列化操作,将序列化后的文本数据和对应的主体标签作为预处理文本;步骤A3:创建一个数据生成器,每批次产生指定数量的预处理文本;步骤3:向量学习模块对预处理文本进行向量学习,用向量表示预处理文本,具体步骤包括:使用CBOW训练预处理文本中的字词,得到关于预处理文本中所有字词的向量表示,即字向量,字向量代表每个字词的特征;加载训练得到的所有字向量,通过查找得到预处理文本中的每个字向量特征表示,完成对预处理文本的字向量表示;步骤4:特征提取模块使用卷积神经网络对预处理文本进行特征提取,对预处理文本的字向量进行类卷积操作,指定卷积核的大小,规定在每个卷积窗口内执行相应的操作,通过局部循环神经网络学习预处理文本的字词含义,同时捕捉上下文之间的重要信息;类卷积操作为局部循环神经网络GRU,通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示,包括如下步骤:步骤S1:设置一个局部循环卷积的内核大小为kernel_size,指定循环网络只在kernel_size区域内进行执行运算;步骤S2:对预处理文本进行补全操作,在预处理文本中的所有文本数据前面添加kernel_size‑1个空缺字段在字典中对应的索引,设置起始位置为0,终止位置为kernel_size‑1;步骤S3:使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码,学习字词向量的表示方法,取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果;步骤S4:对每次局部循环卷积的结果进行拼接,逐步得到上下文特征向量;步骤S5:起始位置和终止位置均向预处理文本方向移动一个位置,判断终止位置是否小于预处理文本的序列长度,若满足条件,则跳转至步骤S3继续进行计算,否则退出循环,结束计算;步骤5:特征提取模块使用多层感知机对局部循环卷积神经网络提取得到的上下文字词特征连接一层全连接神经网络,进一步提取高度抽象的上下文的文本特征,得到的上下文信息的高层次特征;步骤6:注意力计算模块对高层次特征进行一次注意力计算,将焦点聚集在能体现文本主题类别的关键字词上,其具体步骤如下:步骤C1:对上下文字词特征向量进行线性变换,将其特征降低到一维,得到一个长度为文本序列大小的向量;步骤C2:对步骤C1得到的向量进行归一化操作,得到上下文中每个字词的权重向量;步骤C3:将权重向量与高层次特征相结合,得到新的上下文特征向量,该特征向量将焦点关注在对主题类别有贡献的关键字词上,设定该特征向量为主题特征向量;步骤:7:池化模块对主题特征向量进行最大池化操作,形成最终的文本特征向量表示,具体步骤如下:步骤D1:对主题特征向量执行卷积中的最大池化操作;步骤D2:将二维的上下文特征压缩成一维,进一步提取关字词以及其位置信息,得到最终的文本特征表示;步骤8:在中心服务器中建立Softmax分类器,使用Softmax分类器对得到的文本特征向量进行一层全连接神经网络的计算,该层神经元个数为标签字典中主题的数量,得到文本数据属于各主题类别的得分,通过Softmax归一化计算得到文本数据属于各主题的概率,取概率最大的主题作为文本数据最终的主题类别,得到文本数据属于各主题类别的概率。...

【技术特征摘要】
1.—基于焦点关注的主题类别分析方法,其特征在于:包括如下步骤:步骤1:建立客户端服务器和中心服务器,客户端服务器用于获取原始文本,客户端服务器通过互联网与中心服务器通信;在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块;步骤2:中心服务器获取客户端服务器中的原始文本,并通过数据预处理模块进行清洗和筛选,生成预处理文本,其具体步骤如下:步骤A1:获取原始文本的文本主题数据作为原始数据,对原始数据进行ETL处理,即抽取、转换和加载操作;步骤A2:对原始数据进行文本数据和主题类别的提取;将文本数据和主题类别分别转换为文本列表和标签列表,每一条主题类别在标签列表中分别对应一条主题标签,文本列表中的每一条文本数据分别对应标签列表中的一条主题标签,对所有的文本数据进行分词操作,统计文本数据中所有的字词,形成字典表,将文本数据中的字词转化为字典表中的索引号,完成对文本数据的序列化操作,将序列化后的文本数据和对应的主体标签作为预处理文本;步骤A3:创建一个数据生成器,每批次产生指定数量的预处理文本;步骤3:向量学习模块对预处理文本进行向量学习,用向量表示预处理文本,具体步骤包括:使用CBOW训练预处理文本中的字词,得到关于预处理文本中所有字词的向量表示,即字向量,字向量代表每个字词的特征;加载训练得到的所有字向量,通过查找得到预处理文本中的每个字向量特征表示,完成对预处理文本的字向量表示;步骤4:特征提取模块使用卷积神经网络对预处理文本进行特征提取,对预处理文本的字向量进行类卷积操作,指定卷积核的大小,规定在每个卷积窗口内执行相应的操作,通过局部循环神经网络学习预处理文本的字词含义,同时捕捉上下文之间的重要信息;类卷积操作为局部循环神经网络GRU,通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示,包括如下步骤:步骤S1:设置一个局部循环卷积的内核大小为kernel_size,指定循环网络只在kernel_size区域内进行执行运算;步骤S2:对预处理文本进行补全操作,在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引,设置起始位置为0,终止位置为kernel_size-1;步骤S3:使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码,学习字词向量的表示方法,取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果;步骤S4:对每次局部循环卷积的结果进行拼接,逐步得到上下文特征向量;步骤S5:起始位置和终止位置均向预处理文本方向移动一个位置,判断终止位置是否小于预处理文本的序列长度,若满足条件,则跳转至步骤S3继续进行计算,否则退出循环,结束计算;步骤5:特征提取模块使用多层感知机对局部循环卷...

【专利技术属性】
技术研发人员:顾凌云王洪阳严涵
申请(专利权)人:成都冰鉴信息科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1