一种文档标签的确定方法、系统及计算机设备技术方案

技术编号:27582073 阅读:19 留言:0更新日期:2021-03-09 22:38
本发明专利技术提供的一种文档标签的确定方法、系统及计算机设备,方法包括:标签抽取步骤,抽取待抽取文档中不同标签类型的候选标签;标签处理步骤,根据预设规则对不同标签类型的候选标签及其在待抽取文档中的位置赋予相应的分数;标签确定步骤,对待抽取文档中不同标签类型的候选标签和其位置分数进行累加,统计出所有候选标签的最终得分数,根据最终得分数对所有候选标签进行排序,并根据预设阈值和排序结果确定待抽取文档中的目标标签。该方法采用标签抽取技术对关键词和一些特殊词进行抽取,使得抽取的标签更有价值,屏蔽了很多词频很高却无实际意义的词汇,从而免去了人工复检等工作,提高了抽取的准确性和工作效率。高了抽取的准确性和工作效率。高了抽取的准确性和工作效率。

【技术实现步骤摘要】
一种文档标签的确定方法、系统及计算机设备


[0001]本专利技术涉及自然语言处理
,特别涉及一种文档标签的确定方法、系统及计算机设备。

技术介绍

[0002]如今,很多企业都有大量的文档文本数据,包括产品手册,商业合同,部署文档等等专业性很强的文档。而为了便于统一管理,大多数公司将这些文档数据集中起来,并且提供查询、推荐等智能化服务。为方便查询、推荐等服务,通常情况下利用文档名或文档标题来代表文档,而文档名或文档标题中携带的信息是有限的,很多文档的一些重要信息并没有在文档名或文档标题中体现出来,这就会给查询、推荐等服务带来一定的局限性。文档标签的抽取是通过自然语言处理(NLP)技术从文档中抽取一条或几条文档的重要信息,这些信息是用户真正关注的内容,包括实体、关键短语等,利用这些信息可以使查询、推荐等服务更加智能化,更加准确,从而提升效率。
[0003]现有的技术大部分都是直接对文档进行关键词提取。如基于TF-IDF(词频-逆文档频率),将词频和逆文档频率的乘积作为单词的得分,选取得分较高的几个单词作为关键词。基于TextRank的方法,利用局部词汇关系,即共现窗口,构建候选关键词图,采用共现关系构造任两点之间的边,根据公式迭代计算各节点的权重,直至收敛。最后,对节点权重进行排序,选取排序靠前的几个词作为关键词。
[0004]但就现有技术而言,在语料质量不高的情况下,采用现有技术的效果往往不太理想。而且,只依赖于词频或词语共现来判断词语的重要程度在有些情况下不够准确。即使在提取之前已经进行了去停用词操作,提取出的关键词仍然可能是一些出现较多却无明显意义的词汇,所以往往需要在提取后再进行人工筛选。此外,采用现有技术不能有针对性的对一些关注的词语类型(如产品名称,部门名称,文档类型等等)进行集中抽取。

技术实现思路

[0005]为解决现有技术中关键词抽取不准确以及无法有针对性的对一些特殊的词语进行抽取的技术问题,本专利技术提供了一种文档标签的确定方法,采用标签抽取技术对关键词和一些特殊词进行抽取,使得抽取的标签更有价值,屏蔽了很多词频很高却无实际意义的词汇,从而免去了人工复检等工作,提高了抽取的准确性和工作效率。
[0006]本专利技术提供了一种文档标签的确定方法,包括如下步骤:
[0007]标签抽取步骤,抽取待抽取文档中不同标签类型的候选标签;
[0008]标签处理步骤,根据预设规则对不同标签类型的所述候选标签及其在所述待抽取文档中的位置赋予相应的分数;
[0009]标签确定步骤,对所述待抽取文档中不同标签类型的所述候选标签的分数和其位置分数进行累加,统计出所有所述候选标签的最终得分数,根据所述最终得分数对所有所述候选标签进行排序,并根据预设阈值和排序结果确定所述待抽取文档中的目标标签。
[0010]上述的文档标签的确定方法,其中,所述标签确定步骤中统计出所有所述候选标签的最终得分数的方法,具体包括:
[0011]当所述候选标签属于单一标签类型时,以此标签类型不同位置的相同所述候选标签的分数和其位置分数的累加和作为最终得分数;
[0012]当所述候选标签属于两种以上标签类型时,分别计算一种标签类型的所述候选标签的第一得分数,所述第一得分数等于此标签类型不同位置的相同所述候选标签的位置分数和不同标签类型不同位置的相同所述候选标签的分数的累加和,以不同标签类型的相同所述候选标签的所述第一得分数的累加和作为最终得分数。
[0013]上述的文档标签的确定方法,其中,所述标签抽取步骤中所述候选标签的标签类型包括:实体标签、名词短语标签及历史标签。
[0014]上述的文档标签的确定方法,其中,所述标签抽取步骤中抽取待抽取文档中的实体标签的方法,具体包括:
[0015]采用基于词典的方法,和/或基于深度学习神经网络的方法抽取所述待抽取文档中的实体标签。
[0016]上述的文档标签的确定方法,其中,所述标签抽取步骤中所述实体标签包括:文档标题实体、文档内容中的产品实体、部门实体、作者实体及文档类型实体。
[0017]上述的文档标签的确定方法,其中,所述标签抽取步骤中抽取待抽取文档中名词短语标签的方法,具体包括:
[0018]根据Spacy模型解析所述待抽取文档的依存关系,并识别所述待抽取文档中的实体;
[0019]基于所述依存关系,抽取所述待抽取文档中的名词短语;
[0020]对token数大于1的所述名词短语进行整合;
[0021]将识别得到的所述实体和整合后的所述名词短语进行合并,确定所述待抽取文档中的所述名词短语标签。
[0022]上述的文档标签的确定方法,其中,所述标签抽取步骤中抽取待抽取文档中历史标签的方法,具体包括:
[0023]将所述待抽取文档与历史标签数据库进行匹配,若匹配成功,则从所述待抽取文档中抽取所述历史标签;
[0024]判断所述历史标签中是否包括上下文边界验证失败的所述历史标签,若是,则过滤掉上下文边界验证失败的所述历史标签。
[0025]上述的文档标签的确定方法,其中,还包括:
[0026]文本抽取步骤,根据所述目标标签及其在所述待抽取文档中的位置,抽取所述目标标签所在的上下文。
[0027]本专利技术还提供一种实现如上所述的文档标签的确定方法的系统,包括:
[0028]标签抽取单元,用于抽取待抽取文档中不同标签类型的候选标签;
[0029]标签处理单元,用于根据预设规则对不同标签类型的所述候选标签及其在所述待抽取文档中的位置赋予相应的分数;
[0030]标签确定单元,用于对所述待抽取文档中不同标签类型的所述候选标签的分数和其位置分数进行累加,统计出所有所述候选标签的最终得分数,根据所述最终得分数对所
有所述候选标签进行排序,并根据预设阈值和排序结果确定所述待抽取文档中的目标标签。
[0031]本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述的文档标签的确定方法。
[0032]本专利技术的技术效果或优点:
[0033]本专利技术提供的一种文档标签的确定方法,抽取待抽取文档中不同标签类型的候选标签,根据预设规则对不同标签类型的候选标签及其在待抽取文档中的位置赋予相应的分数,对待抽取文档中不同标签类型的候选标签的分数和其位置分数进行累加,统计出所有候选标签的最终得分数,根据最终得分数对所有候选标签进行排序,并根据预设阈值和排序结果确定待抽取文档中的目标标签。通过上述方式,该方法采用标签抽取技术对关键词和一些特殊词进行抽取,使得抽取的标签更有价值,屏蔽了很多词频很高却无实际意义的词汇,从而免去了人工复检等工作,提高了抽取的准确性和工作效率。
附图说明
[0034]图1为本专利技术实施例提供的一个文档标签的确定方法的流程图;
[0035]图2为本专利技术实施例提供的一个实现文档标签的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档标签的确定方法,其特征在于,包括如下步骤:标签抽取步骤,抽取待抽取文档中不同标签类型的候选标签;标签处理步骤,根据预设规则对不同标签类型的所述候选标签及其在所述待抽取文档中的位置赋予相应的分数;标签确定步骤,对所述待抽取文档中不同标签类型的所述候选标签的分数和其位置分数进行累加,统计出所有所述候选标签的最终得分数,根据所述最终得分数对所有所述候选标签进行排序,并根据预设阈值和排序结果确定所述待抽取文档中的目标标签。2.根据权利要求1所述的文档标签的确定方法,其特征在于,所述标签确定步骤中统计出所有所述候选标签的最终得分数的方法,具体包括:当所述候选标签属于单一标签类型时,以此标签类型不同位置的相同所述候选标签的分数和其位置分数的累加和作为最终得分数;当所述候选标签属于两种以上标签类型时,分别计算一种标签类型的所述候选标签的第一得分数,所述第一得分数等于此标签类型不同位置的相同所述候选标签的位置分数和不同标签类型不同位置的相同所述候选标签的分数的累加和,以不同标签类型的相同所述候选标签的所述第一得分数的累加和作为最终得分数。3.根据权利要求1所述的文档标签的确定方法,其特征在于,所述标签抽取步骤中所述候选标签的标签类型包括:实体标签、名词短语标签及历史标签。4.根据权利要求3所述的文档标签的确定方法,其特征在于,所述标签抽取步骤中抽取待抽取文档中的实体标签的方法,具体包括:采用基于词典的方法,和/或基于深度学习神经网络的方法抽取所述待抽取文档中的实体标签。5.根据权利要求4所述的文档标签的确定方法,其特征在于,所述标签抽取步骤中所述实体标签包括:文档标题实体、文档内容中的产品实体、部门实体、作者实体及文档类型实体。6.根据权利要求3所述的文档标签的确定方法,其特征...

【专利技术属性】
技术研发人员:刘俊辰陈奇宁尤旸
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1