基于自然语言处理的专业化文档分类标签实现方法技术

技术编号:24331249 阅读:35 留言:0更新日期:2020-05-29 19:40
本发明专利技术公开了一种基于自然语言处理的专业化文档分类标签实现方法,涉及计算机网络管理技术领域。本发明专利技术包括:标签的提取;对S01中提取的多个标签进行分类,构成一级数据标签集;对S02中分类的多个标签进行排序,构成二级数据标签集;对S03排序后的多个标签进行降维,构成三级数据标签集;将经S04降维后的数据标签作为专业化文档的分类标签。本发明专利技术通过对专利文档进行标签定位,便于快速便捷的通过网络输入关键词找寻相关文档,同时也便于对文档的分类进行管理。

Implementation of specialized document classification label based on natural language processing

【技术实现步骤摘要】
基于自然语言处理的专业化文档分类标签实现方法
本专利技术属于计算机网络管理
,特别是涉及一种基于自然语言处理的专业化文档分类标签实现方法。
技术介绍
随着互联网技术的迅速发展,网络文档,例如,博文以及微博文的数量迅速膨胀,如何有效管理网络文档的海量数据资源,以及,从海量数据资源的文档中,向用户有效推荐文档,受到越来越多的关注。其中,文档分类技术作为管理海量数据以及推荐文档的关键技术,得到了巨大的发展,质量高的文档分类,可以为管理和推荐文档提供较好的支持。尽管数据语料库(corpus)可以保存大量信息,但是要找出相关信息可能仍然很困难。可以对文档进行标记以便于搜索相关信息。然而,在特定情形中,已知的文档标记技术在定位信息方面不是很有效。类似地,已知的搜索技术在定位相关信息方面也不是很有效。
技术实现思路
本专利技术的目的在于提供一种基于自然语言处理的专业化文档分类标签实现方法,以解决上述
技术介绍
提出的问题。为解决上述技术问题,本专利技术是通过以下技术方案实现的:本专利技术为基于自然语言处理的专业化文档分类标签实现方法,包括:S01、标签的提取;S02、对S01中提取的多个标签进行分类,构成一级数据标签集;S03、对S02中分类的多个标签进行排序,构成二级数据标签集;S04、对S03排序后的多个标签进行降维,构成三级数据标签集;S05、将经S04降维后的数据标签作为专业化文档的分类标签。进一步地,所述标签的提取包括:构建标签词库:使用N-gram生成候选词、计算候选词的内部组成;标签生成:对文档的原始数据进行解析和预处理,对原始数据内容进行识别,生成多个标签。进一步地,所述计算候选词的内部组成具体包括分析候选词的组成部分以及组成形式,其中,所述组成部分包括实词和虚词;所述实词包括名词、动词、形容词、数词、量词、代词;所述副词、介词、连词、助词、叹词;其中,所述组成形式包括实词、虚词和实词+虚词。进一步地,所述文档的原始数据包括文档名称、目录、作者、内容和字数;所述解析包括采用中文分词技术对所述文本内容进行文本分词;所述预处理包括文本分词结果去除停用词和低频词,具体为,通过在所述分词结果中剔除常用的停用词表中的停用词,根据文档文本大小设置最小词频,过滤掉低于所述最小词频的低频词;所述识别包括从去除停用词和低频词后的文本分词中,同时根据构建的标签词库提取多个标签词组。进一步地,所述S02中,对多个标签进行分类具体包括:构建基于迁移学习的多标签分类模型;利用基于迁移学习的多标签分类模型,对获得的多个标签进行分类,得到待分类文档的多个标签所组成的数据标签集。进一步地,所述S03中,对一级数据标签集内的多个标签进行排序包括:构建基于迁移学习的多标签排序模型;利用构建基于迁移学习的多标签排序模型对对一级数据标签集内的多个标签进行排序,得到二级数据标签集;其中,分析一级数据标签集内多个标签与多标签排序模型中模型标签的相关性顺序输出所有标签。进一步地,所述S04中,对二级数据标签集内的多个标签进行降维具体包括:特征选择和特征抽取。进一步地,所述特征选择为从样本的原有的特征中选取出一部分特征重新构成样本的特征矩阵。进一步地,所述特征抽取通过映射或者变换的方式,将原始特征从高维空间映射到低维空间,在低维的空间中表示样本;所述特征抽取算法分为线性和非线性方法。进一步地,所述降维中,还包括进行本征维数估计,所述本征维数的估计方法包括全局方法和局部方法;其中,所述全局方法会将数据集整体映射到低维空间中然后估计出数据的本征维数;其中,所述局部方法的实现需要运用近邻间的信息来估计数据流形拓扑维度。本专利技术具有以下有益效果:本专利技术通过对专利文档进行标签定位,便于快速便捷的通过网络输入关键词找寻相关文档,同时也便于对文档的分类进行管理;同时通过对标签的降维处理,简化标签信息,提高相邻标签的数量,提高搜索的范围。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。具体实施方式一种基于自然语言处理的专业化文档分类标签实现方法,包括:S01、标签的提取;S02、对S01中提取的多个标签进行分类,构成一级数据标签集;S03、对S02中分类的多个标签进行排序,构成二级数据标签集;S04、对S03排序后的多个标签进行降维,构成三级数据标签集;S05、将经S04降维后的数据标签作为专业化文档的分类标签。优选地,标签的提取包括:构建标签词库:使用N-gram生成候选词、计算候选词的内部组成;标签生成:对文档的原始数据进行解析和预处理,对原始数据内容进行识别,生成多个标签。优选地,计算候选词的内部组成具体包括分析候选词的组成部分以及组成形式,其中,组成部分包括实词和虚词;实词包括名词、动词、形容词、数词、量词、代词;副词、介词、连词、助词、叹词;其中,组成形式包括实词、虚词和实词+虚词。优选地,文档的原始数据包括文档名称、目录、作者、内容和字数;解析包括采用中文分词技术对文本内容进行文本分词;预处理包括文本分词结果去除停用词和低频词,具体为,通过在分词结果中剔除常用的停用词表中的停用词,根据文档文本大小设置最小词频,过滤掉低于最小词频的低频词;识别包括从去除停用词和低频词后的文本分词中,同时根据构建的标签词库提取多个标签词组。优选地,S02中,对多个标签进行分类具体包括:构建基于迁移学习的多标签分类模型;利用基于迁移学习的多标签分类模型,对获得的多个标签进行分类,得到待分类文档的多个标签所组成的数据标签集。优选地,S03中,对一级数据标签集内的多个标签进行排序包括:构建基于迁移学习的多标签排序模型;利用构建基于迁移学习的多标签排序模型对对一级数据标签集内的多个标签进行排序,得到二级数据标签集;其中,分析一级数据标签集内多个标签与多标签排序模型中模型标签的相关性顺序输出所有标签。优选地,S04中,对二级数据标签集内的多个标签进行降维具体包括:特征选择和特征抽取。优选地,特征选择为从样本的原有的特征中选取出一部分特征重新构成样本的特征矩阵。优选地,特征抽取通过映射或者变换的方式,将原始特征从高维空间映射到低维空间,在低维的空间中表示样本;特征抽取算法分为线性和非线性方法。特征抽取具体包括:把维度为N的高维原始样本集U={u,..,ucK"映射到维度为n的低维空间内,得到对应的投影集合r-(y,),..,}cK。当采用线性方法提取时,特征提取过程就转换为寻找一个线性变换矩阵W={w,w,..wex"w(<M)使得y=wru对矩阵的转置操作在上式中以上标T的形式表现。当使用非线性方法进行提取时则不需要学习类似的变换矩阵,对应低维表示可由原始数据直接推导得出。优选地,降维中,还包括进行本征维数估计,本征维数的估计方法包括全局方法和局部方法;其中,全本文档来自技高网...

【技术保护点】
1.基于自然语言处理的专业化文档分类标签实现方法,其特征在于,包括:/nS01、标签的提取;/nS02、对S01中提取的多个标签进行分类,构成一级数据标签集;/nS03、对S02中分类的多个标签进行排序,构成二级数据标签集;/nS04、对S03排序后的多个标签进行降维,构成三级数据标签集;/nS05、将经S04降维后的数据标签作为专业化文档的分类标签。/n

【技术特征摘要】
1.基于自然语言处理的专业化文档分类标签实现方法,其特征在于,包括:
S01、标签的提取;
S02、对S01中提取的多个标签进行分类,构成一级数据标签集;
S03、对S02中分类的多个标签进行排序,构成二级数据标签集;
S04、对S03排序后的多个标签进行降维,构成三级数据标签集;
S05、将经S04降维后的数据标签作为专业化文档的分类标签。


2.根据权利要求1所述的一种基于自然语言处理的专业化文档分类标签实现方法,其特征在于,所述标签的提取包括:
构建标签词库:使用N-gram生成候选词、计算候选词的内部组成;
标签生成:对文档的原始数据进行解析和预处理,对原始数据内容进行识别,生成多个标签。


3.根据权利要求2所述的一种基于自然语言处理的专业化文档分类标签实现方法,其特征在于,所述计算候选词的内部组成具体包括分析候选词的组成部分以及组成形式,
其中,所述组成部分包括实词和虚词;
所述实词包括名词、动词、形容词、数词、量词、代词;
所述副词、介词、连词、助词、叹词;
其中,所述组成形式包括实词、虚词和实词+虚词。


4.根据权利要求2所述的一种基于自然语言处理的专业化文档分类标签实现方法,其特征在于,所述文档的原始数据包括文档名称、目录、作者、内容和字数;
所述解析包括采用中文分词技术对所述文本内容进行文本分词;
所述预处理包括文本分词结果去除停用词和低频词,具体为,通过在所述分词结果中剔除常用的停用词表中的停用词,根据文档文本大小设置最小词频,过滤掉低于所述最小词频的低频词;
所述识别包括从去除停用词和低频词后的文本分词中,同时根据构建的标签词库提取多个标签词组。


5.根据权利要求1所述的一种基于自然语言处理的专业化文档...

【专利技术属性】
技术研发人员:陈绪龙李永明黄红亮
申请(专利权)人:安徽经邦软件技术有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1