文档标注方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36511631 阅读:15 留言:0更新日期:2023-02-01 15:40
本发明专利技术涉及文档标注技术领域,提供一种文档标注方法、装置、电子设备及存储介质,其中方法包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。本发明专利技术提供的方法、装置、电子设备及存储介质,结合各个关键词和标签列表中的各个标签之间的相似度和各个关键词在待标注文档中的词频,确定待标注文档的目标标签,保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。性强。性强。

【技术实现步骤摘要】
文档标注方法、装置、电子设备及存储介质


[0001]本专利技术涉及文档标注
,尤其涉及一种文档标注方法、装置、电子设备及存储介质。

技术介绍

[0002]文档自动标注旨在为给定文档打上一个或多个标签,便于后续对文档进行分类、搜索、摘要等处理。
[0003]现有技术中,传统的机器学习的文档标注方法和深度学习的文档标注方法,均为有监督学习方法,其模型的训练依赖于大量的标注数据。然而,在实际应用中,有些场景下只能获得一部分无标签文档以及标签列表,而另一些场景下,由于数据隐私等问题,仅仅能获得标签列表,而标注样本的缺失,直接影响了文档自动标注的可靠性。

技术实现思路

[0004]本专利技术提供一种文档标注方法、装置、电子设备及存储介质,用以解决现有技术中有监督学习的文档标注方法依赖于大量的标注数据进行训练的缺陷。
[0005]本专利技术提供一种文档标注方法,包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
[0006]根据本专利技术提供的一种文档标注方法,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签,包括:基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;基于所述多个标签的标签得分,确定所述待标注文档的目标标签。
[0007]根据本专利技术提供的一种文档标注方法,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分,包括:基于如下公式,确定所述待标注文档的多个标签的标签得分:其中,表示待标注文档的第个标签的标签得分,表示第个关键词,
表示第个标签,表示关键词的总数,为第个关键词和第个标签的相似度,为第个关键词在待标注文档中的词频,是对进行归一化后的词频。
[0008]根据本专利技术提供的一种文档标注方法,所述基于所述多个标签的标签得分,确定所述待标注文档的目标标签,包括:基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档的目标标签。
[0009]根据本专利技术提供的一种文档标注方法,所述对所述待标注文档进行关键词抽取,得到多个关键词,包括:应用关键词抽取模型,对所述待标注文档进行关键词抽取,得到多个关键词;所述关键词抽取模型是基于样本文本和所述样本文本对应的样本关键词训练得到的。
[0010]根据本专利技术提供的一种文档标注方法,所述样本文本和所述样本文本对应的样本关键词的获取步骤,包括:获取所述标签列表中各个标签相关的论文文档,所述论文文档自身携带有论文关键词;基于所述论文文档,确定所述样本文本,基于所述论文关键词,确定所述样本文本对应的样本关键词。
[0011]根据本专利技术提供的一种文档标注方法,所述基于所述论文文档,确定所述样本文本,包括:基于所述论文文档中的标题和摘要,确定样本文本。
[0012]本专利技术还提供一种文档标注装置,包括:获取单元,用于获取待标注文档和标签列表;关键词抽取单元,用于对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;确定标签单元,用于基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。
[0013]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文档标注方法。
[0014]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文档标注方法。
[0015]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文档标注方法。
[0016]本专利技术提供的文档标注方法、装置、电子设备及存储介质,结合各个关键词和标签列表中的各个标签之间的相似度,以及各个关键词在待标注文档中的词频,确定待标注文档的目标标签,相似度与词频的结合保证了目标标签确定的可靠性和准确性,并且不受标注样本获取数量的限制,实现容易,且目标标签的可靠性强。
附图说明
[0017]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术提供的文档标注方法的流程示意图之一;图2是本专利技术提供的文档标注方法中步骤130的流程示意图;图3是本专利技术提供的样本文本和样本文本对应的样本关键词的获取步骤流程示意图;图4是本专利技术提供的文档标注方法的流程示意图之二;图5是本专利技术提供的文档标注装置的结构示意图;图6是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0019]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]相关技术中,文档自动标注旨在为给定文档打上一个或多个标签,便于后续对文档进行分类、搜索、摘要等处理。在文档管理场景中,如人工智能、大数据、区块链等场景,通常已有标签库,当新文档入库时,需给新文档打上已有标签库内的标签。
[0021]常见的文档标注方法有文本分类方法,文本分类方法将文本标签作为一个多分类任务来解决。传统的文本分类方法首先利用BoW(Bag of Words)、TF

IDF(Term Frequency

Inverse Document Frequency)等方法获取文本特征,然后使用Naive Bayes(朴素贝叶斯算法)、SVM(Support Vector Machine,支持向量机)、Radom forest(随机森林)等机器学习算法来构建文本分类模型,自2019年Bert模型被提出以来,基于Bert(Bidirectional Encoder Representation from Transformers)模型的深度学习文本分类模型成为主流的文本分类方法。
[0022]在英文文本的标注场景下,提出了一种仅仅利用标签名而无需标签数据的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档标注方法,其特征在于,包括:获取待标注文档和标签列表;对所述待标注文档进行关键词抽取,得到多个关键词,并统计各个关键词在所述待标注文档中的词频;基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签。2.根据权利要求1所述的文档标注方法,其特征在于,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的目标标签,包括:基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分;基于所述多个标签的标签得分,确定所述待标注文档的目标标签。3.根据权利要求2所述的文档标注方法,其特征在于,所述基于所述各个关键词和所述标签列表中的各个标签之间的相似度,以及所述各个关键词在所述待标注文档中的词频,确定所述待标注文档的多个标签的标签得分,包括:基于如下公式,确定所述待标注文档的多个标签的标签得分:其中,表示待标注文档的第个标签的标签得分,表示第个关键词,表示第个标签,表示关键词的总数,为第个关键词和第个标签的相似度,为第个关键词在待标注文档中的词频,是对进行归一化后的词频。4.根据权利要求2所述的文档标注方法,其特征在于,所述基于所述多个标签的标签得分,确定所述待标注文档的目标标签,包括:基于所述多个标签的标签得分,以及阈值得分和/或所述待标注文档的预设标签数目,对所述多个标签进行筛选,并将筛选所得的标签确定为所述待标注文档...

【专利技术属性】
技术研发人员:郑玉玲王凌云王梓凝刘兆蓬宋丹丹
申请(专利权)人:成方金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1