基于自然语言处理的专业化文档分类标签实现方法技术

技术编号：24331249 阅读：50 留言：0更新日期：2020-05-29 19:40

本发明专利技术公开了一种基于自然语言处理的专业化文档分类标签实现方法，涉及计算机网络管理技术领域。本发明专利技术包括：标签的提取；对S01中提取的多个标签进行分类，构成一级数据标签集；对S02中分类的多个标签进行排序，构成二级数据标签集；对S03排序后的多个标签进行降维，构成三级数据标签集；将经S04降维后的数据标签作为专业化文档的分类标签。本发明专利技术通过对专利文档进行标签定位，便于快速便捷的通过网络输入关键词找寻相关文档，同时也便于对文档的分类进行管理。

Implementation of specialized document classification label based on natural language processing

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理的专业化文档分类标签实现方法
本专利技术属于计算机网络管理
，特别是涉及一种基于自然语言处理的专业化文档分类标签实现方法。
技术介绍
随着互联网技术的迅速发展，网络文档，例如，博文以及微博文的数量迅速膨胀，如何有效管理网络文档的海量数据资源，以及，从海量数据资源的文档中，向用户有效推荐文档，受到越来越多的关注。其中，文档分类技术作为管理海量数据以及推荐文档的关键技术，得到了巨大的发展，质量高的文档分类，可以为管理和推荐文档提供较好的支持。尽管数据语料库(corpus)可以保存大量信息，但是要找出相关信息可能仍然很困难。可以对文档进行标记以便于搜索相关信息。然而，在特定情形中，已知的文档标记技术在定位信息方面不是很有效。类似地，已知的搜索技术在定位相关信息方面也不是很有效。
技术实现思路
本专利技术的目的在于提供一种基于自然语言处理的专业化文档分类标签实现方法，以解决上述
技术介绍
提出的问题。为解决上述技术问题，本专利技术是通过以下技术方案实现的：本专利技术为基于...

【技术保护点】
1.基于自然语言处理的专业化文档分类标签实现方法，其特征在于，包括：/nS01、标签的提取；/nS02、对S01中提取的多个标签进行分类，构成一级数据标签集；/nS03、对S02中分类的多个标签进行排序，构成二级数据标签集；/nS04、对S03排序后的多个标签进行降维，构成三级数据标签集；/nS05、将经S04降维后的数据标签作为专业化文档的分类标签。/n

【技术特征摘要】
1.基于自然语言处理的专业化文档分类标签实现方法，其特征在于，包括：
S01、标签的提取；
S02、对S01中提取的多个标签进行分类，构成一级数据标签集；
S03、对S02中分类的多个标签进行排序，构成二级数据标签集；
S04、对S03排序后的多个标签进行降维，构成三级数据标签集；
S05、将经S04降维后的数据标签作为专业化文档的分类标签。

2.根据权利要求1所述的一种基于自然语言处理的专业化文档分类标签实现方法，其特征在于，所述标签的提取包括：
构建标签词库：使用N-gram生成候选词、计算候选词的内部组成；
标签生成：对文档的原始数据进行解析和预处理，对原始数据内容进行识别，生成多个标签。

3.根据权利要求2所述的一种基于自然语言处理的专业化文档分类标签实现方法，其特征在于，所述计算候选词的内部组成具体包括分析候选词的组成部分以及组成形式，
其中，所述组成部分包括实词和虚词；
所述实词包括名词、动词、形容词、数词、量词、代词；
所述副词、介词、连词、助词、叹词；
其中，所述组成形式包括实词、虚词和实词+虚词。

4.根据权利要求2所述的一种基于自然语言处理的专业化文档分类标签实现方法，其特征在于，所述文档的原始数据包括文档名称、目录、作者、内容和字数；
所述解析包括采用中文分词技术对所述文本内容进行文本分词；
所述预处理包括文本分词结果去除停用词和低频词，具体为，通过在所述分词结果中剔除常用的停用词表中的停用词，根据文档文本大小设置最小词频，过滤掉低于所述最小词频的低频词；
所述识别包括从去除停用词和低频词后的文本分词中，同时根据构建的标签词库提取多个标签词组。

5.根据权利要求1所述的一种基于自然语言处理的专业化文档...

【专利技术属性】
技术研发人员：陈绪龙，李永明，黄红亮，
申请(专利权)人：安徽经邦软件技术有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人