【技术实现步骤摘要】
知识标签挖掘方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,特别涉及深度学习、自然语言处理以及知识图谱等领域的知识标签挖掘方法、装置、电子设备及存储介质。
技术介绍
[0002]知识标签挖掘是指针对给定的文本语料,如可包括行业文档、论文和新闻资讯等,从中自动提取出高质量的短语标签的过程,对于下游的知识体系构建、文档内容理解、文档信息抽取等非常重要。
[0003]目前的知识标签挖掘方式包括无监督学习等方式,即可首先从文本语料中挖掘出候选序列,之后可通过计算紧密度和自由度等指标从中筛选出符合要求的候选序列,作为挖掘出的知识标签。但是,这种方式的准确性通常较差。
技术实现思路
[0004]本公开提供了知识标签挖掘方法、装置、电子设备及存储介质。
[0005]一种知识标签挖掘方法,包括:
[0006]从文本语料中挖掘出候选序列,组成候选序列集合;
[0007]根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;
[0008]根据所述第一正样本集合以及所述第一负样本集合训练得到第一评分模型,利用所述第一评分模型分别确定出所述候选序列集合中的各候选序列的第一质量评分;
[0009]根据所述第一质量评分从所述候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。
[0010]一种知识标签挖掘装置,包括:第一处理模块、第二处理模块、第三处理模 ...
【技术保护点】
【技术特征摘要】
1.一种知识标签挖掘方法,包括:从文本语料中挖掘出候选序列,组成候选序列集合;根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;根据所述第一正样本集合以及所述第一负样本集合训练得到第一评分模型,利用所述第一评分模型分别确定出所述候选序列集合中的各候选序列的第一质量评分;根据所述第一质量评分从所述候选序列集合中选出符合要求的候选序列,作为挖掘出的知识标签。2.根据权利要求1所述的方法,还包括:从挖掘出的候选序列中过滤掉不符合要求的候选序列,利用保留下的候选序列组成所述候选序列集合。3.根据权利要求2所述的方法,其中,所述从挖掘出的候选序列中过滤掉不符合要求的候选序列包括:针对任一候选序列,若确定所述候选序列与预先构建的任一短语模板相匹配,则确定所述候选序列为符合要求的候选序列,否则,确定所述候选序列为不符合要求的候选序列。4.根据权利要求1所述的方法,其中,所述根据所述候选序列集合生成第一正样本集合以及第一负样本集合包括:分别获取所述候选序列集合中的各候选序列的第二质量评分;利用所述候选序列集合中所述第二质量评分大于预定阈值的候选序列组成所述第一正样本集合,利用所述候选序列集合中所述第二质量评分小于或等于所述预定阈值的候选序列组成所述第一负样本集合。5.根据权利要求4所述的方法,其中,所述分别获取所述候选序列集合中的各候选序列的第二质量评分包括:确定出所述候选序列集合中出现在预先构建的实体词典中的候选序列,利用确定出的候选序列组成第二正样本集合;对所述候选序列集合中未出现在所述实体词典中的候选序列进行负采样,利用负采样得到的候选序列组成第二负样本集合;根据所述第二正样本集合以及所述第二负样本集合训练得到第二评分模型,利用所述第二评分模型分别确定出所述候选序列集合中的各候选序列的所述第二质量评分。6.根据权利要求5所述的方法,其中,所述第二评分模型为M个,M为正整数;所述方法还包括:当M大于一时,对所述候选序列集合中未出现在所述实体词典中的候选序列分别进行M次负采样,利用M次负采样得到的候选序列组成M个第二负样本集合;根据所述第二正样本集合以及每个第二负样本集合,分别训练得到一个第二评分模型;针对所述候选序列集合中的任一候选序列,分别利用M个第二评分模型确定出所述候选序列的第二质量评分,综合M个第二质量评分确定出所述候选序列的最终的第二质量评分。7.根据权利要求1~6中任一项所述的方法,还包括:
利用所述第一正样本集合以及所述第一负样本集合训练得到短语抽取模型,利用所述短语抽取模型对所述文本语料进行短语抽取;结合所述候选序列集合中的各候选序列的所述第一质量评分以及抽取结果,确定出所述知识标签。8.根据权利要求7所述的方法,还包括:根据所述候选序列集合中的各候选序列的所述第一质量评分,通过自举Bootstrapping方式更新所述第一正样本集合以及所述第一负样本集合,迭代训练所述第一评分模型以及所述短语抽取模型。9.根据权利要去7所述的方法,其中,所述第一评分模型包括:基于预训练模型训练得到的第一评分模型;和/或,所述短语抽取模型包括:基于预训练模型训练得到的短语抽取模型。10.一种知识标签挖掘装置,包括:第一处理模块、第二处理模块、第三处理模块以及第四处理模块;所述第一处理模块,用于从文本语料中挖掘出候选序列,组成候选序列集合;所述第二处理模块,用于根据所述候选序列集合生成第一正样本集合以及第一负样本集合,其中,所述候选序列集合中的任一候选序列均位于所述第一正样本集合或所述第一负样本集合中;所述第三处理模块,用于根据所述第一正样本集合...
【专利技术属性】
技术研发人员:王述,冯知凡,柴春光,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。