一种文档标签预测方法、系统、介质及电子器件技术方案

技术编号:27255138 阅读:12 留言:0更新日期:2021-02-04 12:34
本发明专利技术提供一种文档标签预测方法、系统、介质及电子器件,方法包括:根据原始文档,进行关键词提取,获取原始文档的关键词集;对关键词集中的关键词进行分类,获取与所述关键词对应的文档的分类体系;对关键词对应的文档的分类体系进行标注,获取训练数据集;将训练数据集输入文档分类神经网络进行训练,获取文档标签预测模型;将待预测文档输入所述文档标签预测模型,对所述待预测文档进行标签预测;本发明专利技术中的文档标签预测方法,通过对原始文档进行处理,获取文档标签预测模型,并通过将将待预测文档输入所述文档标签预测模型进行训练,实现对所述待预测文档的标签预测,文档与标签匹配程度较高,实施较方便,精确度较高。精确度较高。精确度较高。

【技术实现步骤摘要】
一种文档标签预测方法、系统、介质及电子器件


[0001]本专利技术涉及电子领域,尤其涉及一种文档标签预测方法、系统、介质及电子器件。

技术介绍

[0002]文字是人类文明的载体,蕴含了大量有价值的信息,由于文字是一种典型的非结构化数据,给文本内容打上相应的标签,应用起来十分困难,目前,通常采用人工的方式为文档添加标签,标签与文档内容的匹配程度较低,精确度较低,工作效率较低。

技术实现思路

[0003]本专利技术提供一种文档标签预测方法、系统、介质及电子器件,以解决现有技术中不便于为文档添加标签及匹配度较低的问题。
[0004]本专利技术提供的文档标签预测方法,包括:
[0005]根据原始文档,进行关键词提取,获取所述原始文档的关键词集;
[0006]对所述关键词集中的关键词进行分类,获取与所述关键词对应的文档的分类体系;
[0007]对所述关键词对应的文档的分类体系进行标注,获取训练数据集;
[0008]将所述训练数据集输入文档分类神经网络进行训练,获取文档标签预测模型;
[0009]将待预测文档输入所述文档标签预测模型,对所述待预测文档进行标签预测。
[0010]可选的,获取训练数据集的步骤包括:
[0011]获取所述关键词集中的关键词的关联词汇,所述关联词汇与所述关键词集中的关键词具有上下位关系;
[0012]根据关键词集中的关键词和所述关联词汇,对原始文档进行分类,获取文档分类体系,将所述关键词集中的关键词和所述关联词汇作为所述文档分类体系中的关联关键词;
[0013]对所述文档分类体系进行标注,获取所述训练数据集。
[0014]可选的,根据原始文档,进行关键词提取的步骤包括:
[0015]获取原始文档;
[0016]对所述原始文档进行分词,获取第一原始词汇集,进而获取所述第一原始词汇集中的词汇的词频;
[0017]根据所述第一原始词汇集中的词汇的词频,确定无关词汇,进而获取停用词集;
[0018]根据原始文档,进行关键词提取,获取所述原始文档的关键词集;
[0019]根据所述停用词集,对所述关键词集进行停用词筛选,进而确定所述关键词集。
[0020]可选的,对所述待预测文档进行标签预测的步骤包括:
[0021]对所述待预测文档进行分词并去除停用词,进而获取待预测词汇集;
[0022]将待预测词汇进行向量化,得到待预测向量化词汇;
[0023]根据上述待预测向量化词汇,将所述待预测文档向量化,获取待预测文档向量;
[0024]将所述待预测文档向量输入所述文档标签预测模型进行训练,对所述待预测文档进行标签预测。
[0025]可选的,将所述待预测文档向量输入所述文档标签预测模型进行训练,对所述待预测文档进行标签预测的步骤包括:
[0026]根据所述待预测文档向量,对所述待预测文档进行关键词提取,将所得关键词与不同类别中的关联关键词进行匹配,获取匹配结果;
[0027]根据所述匹配结果,对所述待预测文档进行分类与标注,获取所述待预测文档的类别;
[0028]根据所述待预测文档的类别对应的关联关键词,对所述待预测文档进行标签预测。
[0029]可选的,根据所述待预测文档的类别对应的关联关键词,对所述待预测文档进行标签预测的步骤包括:
[0030]获取所述待预测文档的类别对应的关联关键词的权重;
[0031]根据所述关联关键词的权重和所述关联关键词在所述原始文档中的词频,获取所述关联关键词的分数;
[0032]根据所述关联关键词的分数,对所述待预测文档进行标签预测;
[0033]其中,获取所述待预测文档的类别对应的关联关键词的权重的数学表达为:
[0034][0035]其中,w为所述关联关键词的权重,n
word
为所述关联关键词出现的次数,n
doc
为同一类别的关联关键词所对应的原始文档的数量。
[0036]可选的,根据所述关联关键词的分数,对所述待预测文档进行标签预测的步骤包括:
[0037]当所述关联关键词的分数大于所述预设的分数阈值时,则对所述待预测文档进行标签预测,其中,获取所述关联关键词的分数的数学表达为:
[0038][0039]其中,s为所述关联分数,n为所述高频词汇的数量,w
i
为所述高频词汇对应的权重,x
i
为所述高频词汇的词频,i为词汇的编号。
[0040]本专利技术还提供一种文档标签预测系统,包括:
[0041]预处理模块,用于根据原始文档,进行关键词提取,获取所述原始文档的关键词集;并对所述关键词集中的关键词进行分类,获取与所述关键词对应的文档的分类体系;
[0042]处理模块,用于对所述关键词对应的文档的分类体系进行标注,获取训练数据集;并将所述训练数据集输入文档分类神经网络进行训练,获取文档标签预测模型;
[0043]预测模块,用于将待预测文档输入所述文档标签预测模型,对所述待预测文档进行标签预测;所述预处理模块、处理模块和预测模块连接。
[0044]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述方法。
[0045]本专利技术还提供一种电子终端,包括:处理器及存储器;
[0046]所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如上述中任一项所述方法。
[0047]本专利技术的有益效果:本专利技术中的文档标签预测方法,通过对原始文档进行处理,获取文档标签预测模型,并通过将将待预测文档输入所述文档标签预测模型进行训练,实现对所述待预测文档的标签预测,文档与标签匹配程度较高,实施较方便,精确度较高。
附图说明
[0048]图1是本专利技术实施例中文档标签预测方法的一流程示意图;
[0049]图2是本专利技术实施例中文档标签预测方法的另一流程示意图;
[0050]图3是本专利技术实施例中文档标签预测系统的结构示意图。
具体实施方式
[0051]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0052]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0053]专利技术人发现,文字是一种典型的非结构化数据,给文本内容打上相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档标签预测方法,其特征在于,包括:根据原始文档,进行关键词提取,获取所述原始文档的关键词集;对所述关键词集中的关键词进行分类,获取与所述关键词对应的文档的分类体系;对所述关键词对应的文档的分类体系进行标注,获取训练数据集;将所述训练数据集输入文档分类神经网络进行训练,获取文档标签预测模型;将待预测文档输入所述文档标签预测模型,对所述待预测文档进行标签预测。2.根据权利要求1所述的文档标签预测方法,其特征在于,获取训练数据集的步骤包括:获取所述关键词集中的关键词的关联词汇,所述关联词汇与所述关键词集中的关键词具有上下位关系;根据关键词集中的关键词和所述关联词汇,对原始文档进行分类,获取文档分类体系,将所述关键词集中的关键词和所述关联词汇作为所述文档分类体系中的关联关键词;对所述文档分类体系进行标注,获取所述训练数据集。3.根据权利要求1所述的文档标签预测方法,其特征在于,根据原始文档,进行关键词提取的步骤包括:获取原始文档;对所述原始文档进行分词,获取第一原始词汇集,进而获取所述第一原始词汇集中的词汇的词频;根据所述第一原始词汇集中的词汇的词频,确定无关词汇,进而获取停用词集;根据原始文档,进行关键词提取,获取所述原始文档的关键词集;根据所述停用词集,对所述关键词集进行停用词筛选,进而确定所述关键词集。4.根据权利要求1所述的文档标签预测方法,其特征在于,对所述待预测文档进行标签预测的步骤包括:对所述待预测文档进行分词并去除停用词,进而获取待预测词汇集;将待预测词汇进行向量化,得到待预测向量化词汇;根据上述待预测向量化词汇,将所述待预测文档向量化,获取待预测文档向量;将所述待预测文档向量输入所述文档标签预测模型进行训练,对所述待预测文档进行标签预测。5.根据权利要求4所述的获训练集方法,其特征在于,将所述待预测文档向量输入所述文档标签预测模型进行训练,对所述待预测文档进行标签预测的步骤包括:根据所述待预测文档向量,对所述待预测文档进行关键词提取,将所得关键词与不同类别中的关联关键词进行匹配,获取匹配结果;根据所述匹配结果,对所述待预测文档进行分类与标注,获取所述待预测文档的类别;根据所述待预测文档的...

【专利技术属性】
技术研发人员:李开兴邓黎唐建烊宗涵
申请(专利权)人:中冶赛迪技术研究中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1