一种文档标签生成方法、系统及可读存储介质技术方案

技术编号：29584548 阅读：22 留言：0更新日期：2021-08-06 19:43

本发明专利技术提供了一种文档标签生成方法、系统及可读存储介质，包括以下步骤：S1自动化标签库生成：通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；S2标签分类算法：通过文本多分类模型，对系统原有文档和新入系统文档进行处理，通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配，生成对应的标签；S3标签反馈机制：对没有获得标签的文档重新通过S1中方法，获取关键词标签和名词实体标签并加入自动化标签库；S4标签库后期维护：对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中，同时定期训练文本多分类模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档标签生成方法、系统及可读存储介质
本专利技术涉及信息处理
，尤其涉及一种文档标签生成方法、系统及可读存储介质。
技术介绍
随着互联网技术的发展和各种网络技术地迅速普及，大量的文档会被储存于云盘等媒介中。但是对于这些不是以文本形式储存的数据，在人们很难通过直接的检索查找到文章中自己需要的内容或者通过检索查找到自己需要的文章。尤其是当文档内容涉密或者涉私不方便被公开时，这个问题更加严峻。因此，我们设计了一种基于文章主题模型和文本分类算法的文档标签生成方法，即满足文档内容的快速准确检索需求，也能够通过对内容的权限控制保证涉密涉私的内容的安全性。因此，有必要研究一种文档标签生成方法、系统及可读存储介质来应对现有技术的不足，以解决或减轻上述一个或多个问题。
技术实现思路
有鉴于此，本专利技术提供了一种文档标签生成方法、系统及可读存储介质，可以通过对文档内容的处理获得准确的关联标签。一方面，本专利技术提供一种文档标签生成方法，所述方法包括以下步骤：S1自动化标签库生成：通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；S2标签分类算法：通过文本多分类模型，对系统原有文档和新入系统文档进行处理，通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配，生成对应的标签；S3标签反馈机制：对没有获得标签的文档重新通过S1中方法，获取关键词标签和名词实体标签并加入自动化标签库；S4标签库

【技术保护点】
1.一种基于文章主题模型和命名实体抽取的文档标签生成方法，其特征在于，所述方法包括以下步骤：/nS1自动化标签库生成：通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；/nS2标签分类算法：通过文本多分类模型，对系统原有文档和新入系统文档进行处理，通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配，生成对应的标签；/nS3标签反馈机制：对没有获得标签的文档重新通过S1中方法，获取关键词标签和名词实体标签并加入自动化标签库；/nS4标签库后期维护：对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中，同时定期训练文本多分类模型。/n

【技术特征摘要】
1.一种基于文章主题模型和命名实体抽取的文档标签生成方法，其特征在于，所述方法包括以下步骤：
S1自动化标签库生成：通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；
S2标签分类算法：通过文本多分类模型，对系统原有文档和新入系统文档进行处理，通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配，生成对应的标签；
S3标签反馈机制：对没有获得标签的文档重新通过S1中方法，获取关键词标签和名词实体标签并加入自动化标签库；
S4标签库后期维护：对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中，同时定期训练文本多分类模型。

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：
S11：利用文章主题模型对有限数量文档进行聚类处理，提取出每个类别中的特有关键词，获取关键词标签并储存在备用标签库中；
S12：利用命名实体抽取算法从S11中文档中的命名实体进行抽取，获取名词实体标签，筛选并存入备用标签库；
S13：对备用标签库库中的名词实体标签和关键词标签进行去重以及近义词合并的处理，减少备用库中的标签数量；
S14：根据预设条件对标签进行处理，生成自动化标签库。

3.根据权利要求2所述的方法，其特征在于，所述S14中的预设条件包括但不限于合并类似标签，所述合并类似标签具体为：相同产品不同名称表述。

4.根据权利要求2所述的方法，其特征在于，所述S11具体包括：
S111：语料预处理，得到候选关键词集；
S112：文档中的关键词利用tf-idf及textrank打分的方式，由高到低排列，剔除停用词及不显示主题意义的词性，由此产生的tokens文件，作为LDA的输入文件；
S113：基于语料生成LDA模型，使用gensim自带的LDAmodel；
S114：将S113中的LDA模型用于某个文档得到该文档的topic概率分布和关键词，如果文档分词后得到的词语在候选关键词中，则将其作为关键词标签放入备用库中，否则列入停用词库。

5.根据权利要求4所述的方法，其特征在于，所述S114中候选关键词的得分score＝每个top...

【专利技术属性】
技术研发人员：李振，尹正，刘昊霖，鲍东岳，张雨枫，徐超，
申请(专利权)人：民生科技有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人