—基于焦点关注的主题类别分析方法技术

技术编号：22166940 阅读：28 留言：0更新日期：2019-09-21 10:35

本发明专利技术公开了—基于焦点关注的主题类别分析方法，属于大数据技术领域，包括建立客户端服务器和中心服务器，客户端服务器用于获取原始文本，客户端服务器通过互联网与中心服务器通信；在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块；解决对主题特征差异不明显的情况下进行二次主题划分的技术问题，本发明专利技术提出的局部循环卷积网络既可以学习文本序列之间的字词关系，还可以提取文本中的关键字词和相应的位置信息，本发明专利技术采用基于焦点关注的主题类别分析方法，当主题特征差异不明显的时候依然能得到良好的分类效果。

Topic Category Analysis Based on Focus Concern

全部详细技术资料下载

【技术实现步骤摘要】
—基于焦点关注的主题类别分析方法
本专利技术属于大数据
，尤其涉及—基于焦点关注的主题类别分析方法。
技术介绍
随着互联网上的新闻数据不断增加，如何将新闻数据按照其主题进行正确地归类以方便人们浏览和查找显的尤为重要。目前，主题分类技术广泛应用在商业领域中，人们在浏览新闻时，首先按照类别筛选后，再进行相关阅读，常见的新闻分类类别有：体育、军事、科技、娱乐、教育、国际、财经等。互联网上关于各公司的新闻同样在日益增长，而与企业相关的新闻类别有：公司信息、公告报告、产品信息、成果奖项、投资融资等。为了分析公司的相关类别信息，通过新闻数据判别该公司的发展情况，对关于公司的新闻数据进行主题分类十分重要。主题分类是自然语言处理领域中一个非常经典的问题，传统的方法通过利用知识工程监理专家系统，然后通过专家规则进行分类，该方法不仅耗费精力，其覆盖的范围和准确率都十分有限，后来，普遍使用机器学习方法解决主题分类问题，通过人工特征工程和一个浅层分类器完成该任务，该方法的缺点和前期的知识工程一样，耗费人工精力。接着，目广泛使用深度学习进行文本的主题分类，该方法最大的优点是省去了大量的人工特征提取步骤，通过神经网络自动提取主题特征，其准确率要高于机器学习方法。通过观察发现，在主题的特征差异比较大的情况下，现有的主题分类技术能表现不错的效果，但是在主题特征之间差异不大的情况下，如对科技这一主题进一步划分为：数码、手机、平板、电脑等类别时，现有模型在其数据上表现效果往往不是很好，误分类的情况很多。目前在主题分类的问题中，现阶段所使用的方法主要是根据提取的上下文特征外接一个分类器进...

【技术保护点】
1.—基于焦点关注的主题类别分析方法，其特征在于：包括如下步骤：步骤1：建立客户端服务器和中心服务器，客户端服务器用于获取原始文本，客户端服务器通过互联网与中心服务器通信；在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块；步骤2：中心服务器获取客户端服务器中的原始文本，并通过数据预处理模块进行清洗和筛选，生成预处理文本，其具体步骤如下：步骤A1：获取原始文本的文本主题数据作为原始数据，对原始数据进行ETL处理，即抽取、转换和加载操作；步骤A2：对原始数据进行文本数据和主题类别的提取；将文本数据和主题类别分别转换为文本列表和标签列表，每一条主题类别在标签列表中分别对应一条主题标签，文本列表中的每一条文本数据分别对应标签列表中的一条主题标签，对所有的文本数据进行分词操作，统计文本数据中所有的字词，形成字典表，将文本数据中的字词转化为字典表中的索引号，完成对文本数据的序列化操作，将序列化后的文本数据和对应的主体标签作为预处理文本；步骤A3：创建一个数据生成器，每批次产生指定数量的预处理文本；步骤3：向量学习模块对预处理文本进行向量学习，用向量表示预处理文...

【技术特征摘要】
1.—基于焦点关注的主题类别分析方法，其特征在于：包括如下步骤：步骤1：建立客户端服务器和中心服务器，客户端服务器用于获取原始文本，客户端服务器通过互联网与中心服务器通信；在中心服务器中建立数据预处理模块、向量学习模块、特征提取模块、注意力计算模块和池化模块；步骤2：中心服务器获取客户端服务器中的原始文本，并通过数据预处理模块进行清洗和筛选，生成预处理文本，其具体步骤如下：步骤A1：获取原始文本的文本主题数据作为原始数据，对原始数据进行ETL处理，即抽取、转换和加载操作；步骤A2：对原始数据进行文本数据和主题类别的提取；将文本数据和主题类别分别转换为文本列表和标签列表，每一条主题类别在标签列表中分别对应一条主题标签，文本列表中的每一条文本数据分别对应标签列表中的一条主题标签，对所有的文本数据进行分词操作，统计文本数据中所有的字词，形成字典表，将文本数据中的字词转化为字典表中的索引号，完成对文本数据的序列化操作，将序列化后的文本数据和对应的主体标签作为预处理文本；步骤A3：创建一个数据生成器，每批次产生指定数量的预处理文本；步骤3：向量学习模块对预处理文本进行向量学习，用向量表示预处理文本，具体步骤包括：使用CBOW训练预处理文本中的字词，得到关于预处理文本中所有字词的向量表示，即字向量，字向量代表每个字词的特征；加载训练得到的所有字向量，通过查找得到预处理文本中的每个字向量特征表示，完成对预处理文本的字向量表示；步骤4：特征提取模块使用卷积神经网络对预处理文本进行特征提取，对预处理文本的字向量进行类卷积操作，指定卷积核的大小，规定在每个卷积窗口内执行相应的操作，通过局部循环神经网络学习预处理文本的字词含义，同时捕捉上下文之间的重要信息；类卷积操作为局部循环神经网络GRU，通过局部循环神经网络GRU学习指定窗口大小内的上下文字词向量表示，包括如下步骤：步骤S1：设置一个局部循环卷积的内核大小为kernel_size，指定循环网络只在kernel_size区域内进行执行运算；步骤S2：对预处理文本进行补全操作，在预处理文本中的所有文本数据前面添加kernel_size-1个空缺字段在字典中对应的索引，设置起始位置为0，终止位置为kernel_size-1；步骤S3：使用循环神经网络GRU对起始位置和终止位置之间的上下文进行编码，学习字词向量的表示方法，取最后一个字词的最终状态作为kernel_size区域内循环卷积的结果；步骤S4：对每次局部循环卷积的结果进行拼接，逐步得到上下文特征向量；步骤S5：起始位置和终止位置均向预处理文本方向移动一个位置，判断终止位置是否小于预处理文本的序列长度，若满足条件，则跳转至步骤S3继续进行计算，否则退出循环，结束计算；步骤5：特征提取模块使用多层感知机对局部循环卷...

【专利技术属性】
技术研发人员：顾凌云，王洪阳，严涵，
申请(专利权)人：成都冰鉴信息科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人