【技术实现步骤摘要】
一种知识抽取方法、系统、设备及存储介质
[0001]本专利技术涉及数据处理
,特别是涉及一种知识抽取方法、系统、设备及存储介质。
技术介绍
[0002]随着大数据、机器学习和人工智能在不同应用领域的发展,信息抽取技术急速发展,基于半结构化数据的知识抽取及知识图谱构建技术已经广泛应用于搜索、推荐、数据分析、自然语言处理、图像识别等领域,并取得了十分显著的成功。然而,面向半结构化数据的传统知识抽取技术,无法处理大数据环境下海量的非结构化文本数据,造成大量资源浪费并制约知识图谱的进一步发展,并对下游任务效果产生负面影响。因此,知识抽取任务,即大规模抽取包含语义信息的结构化知识,已经成为业界众多机构的重要研究方向之一。
[0003]德国马普所提出一种基于图(Graph)的模式识别技术,利用标签传播算法可以解决小规模文本数据语义偏移问题,还提出一种基于树(Tree)的模式识别技术并成功应用于大规模文本数据,实现医疗领域多元关系知识抽取。微软使用such as,including等简单字符串模式,构建复杂知识实例评估框架, ...
【技术保护点】
【技术特征摘要】
1.一种知识抽取方法,其特征在于,包括:确定文本语料库;对所述文本语料库进行标注,并构建索引,得到标注语料库;设置用于表征关系信息的种子数据,并从所述标注语料库中检索出包括所述种子数据中的检索词的各个句子;针对任意1个句子,确定出所述句子的检索词距离,并通过所述句子的语法解析树确定出所述句子的检索词的语法解析树距离,并为所述句子中的每个实体找到与所述实体距离最近的动词词组,且确定出各个动词词组的语法解析树距离;针对任意1个句子,基于确定出的所述句子各项距离,按照预设的权重规则确定出所述句子的各个动词词组各自的加权值;根据每1个所述句子的各个动词词组各自的加权值,通过汇总得出加权值之和最高的K个动词词组,作为选定的K个目标动词词组;K为正整数;针对任意1个所述目标动词词组,从所述标注语料库中检索出包括所述目标动词词组的各个句子,并按照预设规则进行校验;将通过校验之后的各个句子,汇总为对应于所述种子数据的知识抽取内容。2.根据权利要求1所述的知识抽取方法,其特征在于,所述对所述文本语料库进行标注,包括:对所述文本语料库进行实体标注,以将文本链接至实体;对所述文本语料库进行共指消解,以将文本中的代词链接至所述代词的原始名词。3.根据权利要求2所述的知识抽取方法,其特征在于,所述对所述文本语料库进行实体标注,包括:通过实体识别工具对所述文本语料库进行实体标注。4.根据权利要求2所述的知识抽取方法,其特征在于,所述对所述文本语料库进行共指消解,包括:通过自然语义处理工具对所述文本语料库进行共指消解。5.根据权利要求2所述的知识抽取方法,其特征在于,还包括:基于实体标注后的结果以及所述共指消解后的结果,当任意1个代词指向无歧义的名词对象时,将所述代词链接至实体。6.根据权利要求1所述的知识抽取方法,其特征在于,在对文本语料库进行标注之前,还包括:对所述文本语料库进行数据清理,以消除无关信息。7.根据权利要求1所述的知识抽取方法,其特征在于,所述为所述句子中的每个实体找到与所述实体距离最近的动词词组,包括:通过最近邻居法,为所述句子中的每个实体找到与所述实体距离最近的动词词组。8.根据权利要求1所述的知识抽取方法,其特征在于,针对任意1个句子,基于确定出的所述句子各项距离,按照预设的权重规则确定出所述句子的各个动词词组各自的加权值,包括:针对任意1个句子中确定出的任意1个动词词组,将句子的检索词距离对应的加权值,句子的检索词的语法解析树距离对应的加权值,以及所述动词词组的语法解析树距离对应
的加权值进行求和,得出所述动词词组的加权值;其中,句子的检索词距离与句子的检索词距离对应的加权值呈负相关,句子的检索词的语法解析树距离与句子的检索词的语法解析树距离对应的加权值呈负相关,动词词组的语法解析树距离与动词词组的语法解析树距离对应的加权值呈负相关。9.根据权利要求8所述的知识抽取方法,其特征在于,针对任意1个句子中确定出的任意1个动词词组,通过函数f1确定出句子的检索词距离对应的加权值,通过函数f2确定出句子的检索词的语法解析树距离对应的加权值,通过函数f3确定出动词词组的语法解析树距离对应的加权值;并且,函数f1为函数值基于句子的检索词距离进行...
【专利技术属性】
技术研发人员:刘宇,王丽,郭振华,赵雅倩,李仁刚,闫瑞栋,刘璐,徐聪,金良,贾麒,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。