一种文档标签生成方法、系统及可读存储介质技术方案

技术编号:29584548 阅读:22 留言:0更新日期:2021-08-06 19:43
本发明专利技术提供了一种文档标签生成方法、系统及可读存储介质,包括以下步骤:S1自动化标签库生成:通过文章主题模型和命名实体抽取算法,从有限数量的文档中,获取关键词标签和名词实体标签,生成自动化标签库;S2标签分类算法:通过文本多分类模型,对系统原有文档和新入系统文档进行处理,通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配,生成对应的标签;S3标签反馈机制:对没有获得标签的文档重新通过S1中方法,获取关键词标签和名词实体标签并加入自动化标签库;S4标签库后期维护:对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中,同时定期训练文本多分类模型。

【技术实现步骤摘要】
一种文档标签生成方法、系统及可读存储介质
本专利技术涉及信息处理
,尤其涉及一种文档标签生成方法、系统及可读存储介质。
技术介绍
随着互联网技术的发展和各种网络技术地迅速普及,大量的文档会被储存于云盘等媒介中。但是对于这些不是以文本形式储存的数据,在人们很难通过直接的检索查找到文章中自己需要的内容或者通过检索查找到自己需要的文章。尤其是当文档内容涉密或者涉私不方便被公开时,这个问题更加严峻。因此,我们设计了一种基于文章主题模型和文本分类算法的文档标签生成方法,即满足文档内容的快速准确检索需求,也能够通过对内容的权限控制保证涉密涉私的内容的安全性。因此,有必要研究一种文档标签生成方法、系统及可读存储介质来应对现有技术的不足,以解决或减轻上述一个或多个问题。
技术实现思路
有鉴于此,本专利技术提供了一种文档标签生成方法、系统及可读存储介质,可以通过对文档内容的处理获得准确的关联标签。一方面,本专利技术提供一种文档标签生成方法,所述方法包括以下步骤:S1自动化标签库生成:通过文章主题模型和命名实体抽取算法,从有限数量的文档中,获取关键词标签和名词实体标签,生成自动化标签库;S2标签分类算法:通过文本多分类模型,对系统原有文档和新入系统文档进行处理,通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配,生成对应的标签;S3标签反馈机制:对没有获得标签的文档重新通过S1中方法,获取关键词标签和名词实体标签并加入自动化标签库;S4标签库后期维护:对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中,同时定期训练文本多分类模型。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1具体包括:S11:利用文章主题模型对有限数量文档进行聚类处理,提取出每个类别中的特有关键词,获取关键词标签并储存在备用标签库中;S12:利用命名实体抽取算法从S11中文档中的命名实体进行抽取,获取名词实体标签,筛选并存入备用标签库;S13:对备用标签库库中的名词实体标签和关键词标签进行去重以及近义词合并的处理,减少备用库中的标签数量;S14:根据预设条件对标签进行处理,生成自动化标签库。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S14中的预设条件包括但不限于合并类似标签,所述合并类似标签具体为:相同产品不同名称表述。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S11具体包括:S111:语料预处理,得到候选关键词集;S112:文档中的关键词利用tf-idf及textrank打分的方式,由高到低排列,剔除停用词及不显示主题意义的词性,由此产生的tokens文件,作为LDA的输入文件;S113:基于语料生成LDA模型,使用gensim自带的LDAmodel;S114:将S113中的LDA模型用于某个文档得到该文档的topic概率分布和关键词,如果文档分词后得到的词语在候选关键词中,则将其作为关键词标签放入备用库中,否则列入停用词库。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S114中候选关键词的得分score=每个topic的概率*每个单词属于该topic的概率。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S12具体包括:S121:语料预处理,得到清洁语料;S122:利用BERT+(LSTM)+CRF网络生成的明明实体抽取模型标注语料中出现的命名实体;S123:对文档中出现的命名实体做频率计算,并利用预设规则清除部分命名实体;S124:将预设频率内的名词实体作为名词实体标签放入备用库中。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2中文本多分类模型的训练方式为:使用多层级的注意力网络,训练文本多分类模型。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2中文本多分类模型具体包括:单词编码:将句子中的每个词嵌入到分布向量空间的词向量中,使用双向GRU对句子进行编码,通过将双方向的向量连接起来,得到句子的表示形式,同时捕获上下文信息;单词注意力机制:使用乘法注意力机制,利用一层MLP获取句子的隐含表示,然后用词级上下文向量来度量单词的重要性,并通过softmax函数得到归一化的重要性;句子编码:对句子向量使用双向GRU进行编码;句子注意力机制:使用乘法注意力机制,利用一层MLP获取句子的隐含表示,然后用句子向量来度量单词的重要性。如上所述的方面和任一可能的实现方式,进一步提供一种基于文章主题模型和命名实体抽取的文档标签生成系统,所述系统包括:自动化标签库生成模块,通过文章主题模型和命名实体抽取算法,从有限数量的文档中,获取关键词标签和名词实体标签,生成自动化标签库;标签分类算法模块,通过文本多分类模型,对系统原有文档和新入系统文档进行处理,生成对应的标签;标签反馈机制模块,对没有获得标签的文档重新进入自动化标签库生成模块,获取关键词标签和名词实体标签并加入自动化标签库;标签库后期维护模块,对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中,同时定期训练文本多分类模型。如上所述的方面和任一可能的实现方式,进一步提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的文档标签生成方法的步骤。与现有技术相比,本专利技术可以获得包括以下技术效果:本专利技术构建了一种基于文章主题模型和命名实体抽取的文档标签生成方法,对于用户储存在固定空间的批量文档文件可以自动初始化出标签库,并计算得到每篇文档对应的标签,并且在后续的使用中,可以对新加入的文档自动赋值标签,方便用户对文档的储存管理以及准确检索;在初始化抽取标签的过程中运用到了两种模型技术,文章主体模型能够帮助文档进行聚类,抽取出相似主题下的具有主题标志的关键词;而命名实体识别技术帮助我们对单篇文章的描述主体进行抽取,保证标签的全面覆盖,提升了初始化标签库的准确性以及全面性;在后续的多标签分类模型中,用到了多层级的注意力网络对文档进行分类,保证了模型输出的效果效果以及速度。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有技术效果。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术一个实施例提供的文档标签生成方法流程图;图2是本专利技术一个实施例提供的文章主题模型图;图3是本专利技术一个实施例提供的命名实体抽取图;图4是本专利技术一个实施例提供的多标签分类算法图。...

【技术保护点】
1.一种基于文章主题模型和命名实体抽取的文档标签生成方法,其特征在于,所述方法包括以下步骤:/nS1自动化标签库生成:通过文章主题模型和命名实体抽取算法,从有限数量的文档中,获取关键词标签和名词实体标签,生成自动化标签库;/nS2标签分类算法:通过文本多分类模型,对系统原有文档和新入系统文档进行处理,通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配,生成对应的标签;/nS3标签反馈机制:对没有获得标签的文档重新通过S1中方法,获取关键词标签和名词实体标签并加入自动化标签库;/nS4标签库后期维护:对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中,同时定期训练文本多分类模型。/n

【技术特征摘要】
1.一种基于文章主题模型和命名实体抽取的文档标签生成方法,其特征在于,所述方法包括以下步骤:
S1自动化标签库生成:通过文章主题模型和命名实体抽取算法,从有限数量的文档中,获取关键词标签和名词实体标签,生成自动化标签库;
S2标签分类算法:通过文本多分类模型,对系统原有文档和新入系统文档进行处理,通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配,生成对应的标签;
S3标签反馈机制:对没有获得标签的文档重新通过S1中方法,获取关键词标签和名词实体标签并加入自动化标签库;
S4标签库后期维护:对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中,同时定期训练文本多分类模型。


2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:
S11:利用文章主题模型对有限数量文档进行聚类处理,提取出每个类别中的特有关键词,获取关键词标签并储存在备用标签库中;
S12:利用命名实体抽取算法从S11中文档中的命名实体进行抽取,获取名词实体标签,筛选并存入备用标签库;
S13:对备用标签库库中的名词实体标签和关键词标签进行去重以及近义词合并的处理,减少备用库中的标签数量;
S14:根据预设条件对标签进行处理,生成自动化标签库。


3.根据权利要求2所述的方法,其特征在于,所述S14中的预设条件包括但不限于合并类似标签,所述合并类似标签具体为:相同产品不同名称表述。


4.根据权利要求2所述的方法,其特征在于,所述S11具体包括:
S111:语料预处理,得到候选关键词集;
S112:文档中的关键词利用tf-idf及textrank打分的方式,由高到低排列,剔除停用词及不显示主题意义的词性,由此产生的tokens文件,作为LDA的输入文件;
S113:基于语料生成LDA模型,使用gensim自带的LDAmodel;
S114:将S113中的LDA模型用于某个文档得到该文档的topic概率分布和关键词,如果文档分词后得到的词语在候选关键词中,则将其作为关键词标签放入备用库中,否则列入停用词库。


5.根据权利要求4所述的方法,其特征在于,所述S114中候选关键词的得分score=每个top...

【专利技术属性】
技术研发人员:李振尹正刘昊霖鲍东岳张雨枫徐超
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1