知识标签挖掘方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30784693 阅读:17 留言:0更新日期:2021-11-16 07:46
本公开提供了知识标签挖掘方法、装置、电子设备及存储介质,涉及深度学习、自然语言处理以及知识图谱等人工智能领域,其中的方法可包括:从文本语料中挖掘出候选序列,组成候选序列集合;根据候选序列集合生成第一正样本集合以及第一负样本集合,其中,候选序列集合中的任一候选序列均位于第一正样本集合或第一负样本集合中;根据第一正样本集合以及第一负样本集合训练得到第一评分模型,利用第一评分模型分别确定出候选序列集合中的各候选序列的第一质量评分;根据第一质量评分从候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。应用本公开所述方案,可提升获取到的知识标签的准确性等。的知识标签的准确性等。的知识标签的准确性等。

【技术实现步骤摘要】
知识标签挖掘方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,特别涉及深度学习、自然语言处理以及知识图谱等领域的知识标签挖掘方法、装置、电子设备及存储介质。

技术介绍

[0002]知识标签挖掘是指针对给定的文本语料,如可包括行业文档、论文和新闻资讯等,从中自动提取出高质量的短语标签的过程,对于下游的知识体系构建、文档内容理解、文档信息抽取等非常重要。
[0003]目前的知识标签挖掘方式包括无监督学习等方式,即可首先从文本语料中挖掘出候选序列,之后可通过计算紧密度和自由度等指标从中筛选出符合要求的候选序列,作为挖掘出的知识标签。但是,这种方式的准确性通常较差。

技术实现思路

[0004]本公开提供了知识标签挖掘方法、装置、电子设备及存储介质。
[0005]一种知识标签挖掘方法,包括:
[0006]从文本语料中挖掘出候选序列,组成候选序列集合;
[0007]根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;
[0008]根据所述第一正样本集合以及所述第一负样本集合训练得到第一评分模型,利用所述第一评分模型分别确定出所述候选序列集合中的各候选序列的第一质量评分;
[0009]根据所述第一质量评分从所述候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。
[0010]一种知识标签挖掘装置,包括:第一处理模块、第二处理模块、第三处理模块以及第四处理模块;
[0011]所述第一处理模块,用于从文本语料中挖掘出候选序列,组成候选序列集合;
[0012]所述第二处理模块,用于根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;
[0013]所述第三处理模块,用于根据所述第一正样本集合以及所述第一负样本集合训练得到第一评分模型,利用所述第一评分模型分别确定出所述候选序列集合中的各候选序列的第一质量评分;
[0014]所述第四处理模块,用于根据所述第一质量评分从所述候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。
[0015]一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
[0019]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
[0020]一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
[0021]上述公开中的一个实施例具有如下优点或有益效果:针对获取到的各候选序列,可分别利用训练得到的评分模型确定出其质量评分,进而可根据质量评分筛选出符合要求的候选序列,作为挖掘出的知识标签,从而提升了获取到的知识标签的准确性等。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1为本公开所述知识标签挖掘方法实施例的流程图;
[0025]图2为本公开所述知识标签挖掘方法的整体实现过程示意图;
[0026]图3为本公开所述知识标签挖掘装置实施例300的组成结构示意图;
[0027]图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。
具体实施方式
[0028]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0030]图1为本公开所述知识标签挖掘方法实施例的流程图。如图1所示,包括以下具体实现方式。
[0031]在步骤101中,从文本语料中挖掘出候选序列,组成候选序列集合。
[0032]在步骤102中,根据候选序列集合生成第一正样本集合以及第一负样本集合,其中,候选序列集合中的任一候选序列均位于第一正样本集合或第一负样本集合中。
[0033]在步骤103中,根据第一正样本集合以及第一负样本集合训练得到第一评分模型,利用第一评分模型分别确定出候选序列集合中的各候选序列的第一质量评分。
[0034]在步骤104中,根据第一质量评分从候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。
[0035]上述方法实施例所述方案中,针对获取到的各候选序列,可分别利用训练得到的评分模型确定出其质量评分,进而可根据质量评分筛选出符合要求的候选序列,作为挖掘出的知识标签,从而提升了获取到的知识标签的准确性等。
[0036]如何从文本语料中挖掘出候选序列不作限制,比如,针对文本语料,可基于N元模型(n

gram)生成大量的词序列,进而可从这些词序列中选出频繁出现(即出现频率大于预定阈值)的词序列,作为挖掘出的候选序列。
[0037]可利用挖掘出的候选序列组成候选序列集合。本公开的一个实施例中,还可从挖掘出的候选序列中过滤掉不符合要求的候选序列,利用保留下来的候选序列组成所述候选序列集合。
[0038]挖掘出的候选序列中可能存在大量的非短语序列,这些候选序列会对后续处理造成干扰,而且也会增加后续处理的工作量,因此可先过滤掉,以提升后续的处理效率以及处理结果的准确性等。
[0039]本公开的一个实施例中,在从挖掘出的候选序列中过滤掉不符合要求的候选序列时,针对任一候选序列,若确定该候选序列与预先构建的任一短语模板相匹配,则可确定该候选序列为符合要求的候选序列,否则,可确定该候选序列为不符合要求的候选序列。
[0040]可根据领域已积累的实体词组成的实体词典以及通过对文本语料进行分析得到的短语标签的词性及句法依存特征等,构建多个短语模板,具体数量可根据实际需要而定。所述短语模板可包括名词和名词的组合、形容词和名词的组合、主谓短语等。
[0041]针对任一候选序列,若确定该候选序列与所构建的任一短语模板相匹配,那么则可认为该候选序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识标签挖掘方法,包括:从文本语料中挖掘出候选序列,组成候选序列集合;根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;根据所述第一正样本集合以及所述第一负样本集合训练得到第一评分模型,利用所述第一评分模型分别确定出所述候选序列集合中的各候选序列的第一质量评分;根据所述第一质量评分从所述候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。2.根据权利要求1所述的方法,还包括:从挖掘出的候选序列中过滤掉不符合要求的候选序列,利用保留下的候选序列组成所述候选序列集合。3.根据权利要求2所述的方法,其中,所述从挖掘出的候选序列中过滤掉不符合要求的候选序列包括:针对任一候选序列,若确定所述候选序列与预先构建的任一短语模板相匹配,则确定所述候选序列为符合要求的候选序列,否则,确定所述候选序列为不符合要求的候选序列。4.根据权利要求1所述的方法,其中,所述根据所述候选序列集合生成第一正样本集合以及第一负样本集合包括:分别获取所述候选序列集合中的各候选序列的第二质量评分;利用所述候选序列集合中所述第二质量评分大于预定阈值的候选序列组成所述第一正样本集合,利用所述候选序列集合中所述第二质量评分小于或等于所述预定阈值的候选序列组成所述第一负样本集合。5.根据权利要求4所述的方法,其中,所述分别获取所述候选序列集合中的各候选序列的第二质量评分包括:确定出所述候选序列集合中出现在预先构建的实体词典中的候选序列,利用确定出的候选序列组成第二正样本集合;对所述候选序列集合中未出现在所述实体词典中的候选序列进行负采样,利用负采样得到的候选序列组成第二负样本集合;根据所述第二正样本集合以及所述第二负样本集合训练得到第二评分模型,利用所述第二评分模型分别确定出所述候选序列集合中的各候选序列的所述第二质量评分。6.根据权利要求5所述的方法,其中,所述第二评分模型为M个,M为正整数;所述方法还包括:当M大于一时,对所述候选序列集合中未出现在所述实体词典中的候选序列分别进行M次负采样,利用M次负采样得到的候选序列组成M个第二负样本集合;根据所述第二正样本集合以及每个第二负样本集合,分别训练得到一个第二评分模型;针对所述候选序列集合中的任一候选序列,分别利用M个第二评分模型确定出所述候选序列的第二质量评分,综合M个第二质量评分确定出所述候选序列的最终的第二质量评分。7.根据权利要求1~6中任一项所述的方法,还包括:
利用所述第一正样本集合以及所述第一负样本集合训练得到短语抽取模型,利用所述短语抽取模型对所述文本语料进行短语抽取;结合所述候选序列集合中的各候选序列的所述第一质量评分以及抽取结果,确定出所述知识标签。8.根据权利要求7所述的方法,还包括:根据所述候选序列集合中的各候选序列的所述第一质量评分,通过自举Bootstrapping方式更新所述第一正样本集合以及所述第一负样本集合,迭代训练所述第一评分模型以及所述短语抽取模型。9.根据权利要去7所述的方法,其中,所述第一评分模型包括:基于预训练模型训练得到的第一评分模型;和/或,所述短语抽取模型包括:基于预训练模型训练得到的短语抽取模型。10.一种知识标签挖掘装置,包括:第一处理模块、第二处理模块、第三处理模块以及第四处理模块;所述第一处理模块,用于从文本语料中挖掘出候选序列,组成候选序列集合;所述第二处理模块,用于根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;所述第三处理模块,用于根据所述第一正样本集合...

【专利技术属性】
技术研发人员:王述冯知凡柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1