基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统技术方案

技术编号:15197152 阅读:110 留言:0更新日期:2017-04-21 04:42
一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其包括如下步骤:S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;S3、根据分类结果同时实现文本中命名实体识别一体化。

Method and system for text classification and naming entity recognition based on depth recurrent neural network

A text classification based on the depth of recurrent neural network and named entity recognition integration method, which comprises the following steps: S1, already know the class texts for training; the training includes text segmentation, spatial pre reduction, weight calculation, lower dimension and neural network calculation, get the feature vector set; S2, will need to the text to be classified by classification; the classification including text segmentation, feature selection, weight calculation, neural network calculation and evaluation so as to obtain the classification results of the classification results; S3, according to the classification results and realize the integration of text named entity recognition.

【技术实现步骤摘要】

本专利技术涉及大数据文本处理
,特别涉及一种基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统。
技术介绍
随着科学技术尤其是信息技术的不断发展,人与人之间的交流方式已经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问,对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是随着网络通信的发展,网上可用文本信息的数量急剧膨胀,甚至可以说是成指数级增长,如果再像以前那样手工对这些文本进行分类不但费时费力,而且准确率也无法保证,因此自动文本分类技术应运而生。此外,自动文本分类技术在许多方面都有应用,例如:文档索引的建立、不良信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、智能信息检索以及其他需要对文档进行整理的地方。从60年代计算机刚刚兴起,人们就认识到了文本分类技术重要性,并进行了初步的探索和研究,一直到80年代末基本上都是基于规则的知识工程的方法。这种方法费时费力,准确率也不高,尤其对于不常出现的关键词很难建立规则,同时还需要一支由语言学家组成的智囊团的支持。所以随着90年代基于统计的自然语言技术的兴起,机器学习的方法逐渐被应用到文本分类技术中,并迅速成为主流趋势,出现了各种各样的基于统计的文本分类方法:k近邻方法、贝叶斯方法、支持向量机、规则学习方法、相关反馈方法、神经网络方法、决策树等等。但是现有的文本分类方法准确性和效率性有待提高;并且在识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等准确性不高。
技术实现思路
有鉴于此,本专利技术提出一种文本分类准确性、效率性高;同时能够完成命名实体识别一体化的基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统。一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其包括如下步骤:S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;S3、根据分类结果同时实现文本中命名实体识别一体化。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S1包括:结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;对特征子集中的每个特征项赋予权重值;对特征空间进行预降维并进行压缩;将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S2包括:结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;根据步骤S1中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;对选择的特征项赋予权重值;根据步骤S1得到的文本分类器对待分类的文本进行分类,得到分类结果.。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S3包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。本专利技术还提供一种基于深度循环神经网络的文本分类和命名实体识别一体化系统,其包括如下单元:文本训练单元,用于对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;文本分类单元,用于将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;命名实体识别单元,用于根据分类结果同时实现文本中命名实体识别一体化。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述文本训练单元包括:结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;对特征子集中的每个特征项赋予权重值;对特征空间进行预降维并进行压缩;将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述文本分类单元包括:结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;根据文本训练单元中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;对选择的特征项赋予权重值;根据文本训练单元得到的文本分类器对待分类的文本进行分类,得到分类结果.。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述命名实体识别单元包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。在本专利技术所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。实施本专利技术提供的基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统与现有技术相比具有以下有益效果:能够实现文本分类准确性、效率性高;同时能够完成命名实体识别一体化。附图说明图1是本专利技术实施例的基于深度循环神经网络的文本分类和命名实体识别一体化方法流程图。具体实施方式如图1所示,一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其包括如下步骤:S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权本文档来自技高网...
基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统

【技术保护点】
一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,其包括如下步骤:S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;S3、根据分类结果同时实现文本中命名实体识别一体化。

【技术特征摘要】
1.一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,其包括如下步骤:S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;S3、根据分类结果同时实现文本中命名实体识别一体化。2.如权利要求1所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述步骤S1包括:结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;对特征子集中的每个特征项赋予权重值;对特征空间进行预降维并进行压缩;将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。3.如权利要求2所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述步骤S2包括:结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;根据步骤S1中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;对选择的特征项赋予权重值;根据步骤S1得到的文本分类器对待分类的文本进行分类,得到分类结果。4.如权利要求3所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述步骤S3包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。5.如权利要求4所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。6.一种基于深度循环神经网络的文...

【专利技术属性】
技术研发人员:刘丽君李成华
申请(专利权)人:武汉泰迪智慧科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1