知识抽取方法技术

技术编号:39520358 阅读:40 留言:0更新日期:2023-11-25 18:59
本发明专利技术实施例提供了一种知识抽取方法

【技术实现步骤摘要】
知识抽取方法、装置、计算机设备及存储介质


[0001]本专利技术涉及数据处理
,特别涉及一种知识抽取方法

装置

计算机设备及存储介质


技术介绍

[0002]知识抽取是指从大量文本中自动抽取出有用的信息和知识

目前知识抽取的方法主要有以下几种:规则模式匹配是基于人工定义的规则或模式来抽取特定类型的知识

通过设计匹配模式或规则,系统可以从文本中识别出实体

关系等

[0003]但是,规则模式匹配方法存在的缺陷是:需要手动编写规则,对于复杂的知识抽取任务和大规模文本处理可能不够灵活和高效;遇到规则未覆盖的语言结构或文本变化时,规则匹配难以进行准确的抽取;无法捕捉到丰富的上下文信息,因为规则匹配通常是基于局部的语法和关键词匹配,难以进行全局的语义理解

[0004]机器学习方法包括监督学习和无监督学习

在监督学习中,可以使用已标注的训练数据来训练分类器或序列标注模型,以识别实体和关本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种知识抽取方法,其特征在于,包括:接收查询知识的疑问语句,将所述疑问语句划分为多个第一文本块,提取所述疑问语句中的疑问词;将所述疑问词与预存疑问词数据集进行匹配,获得所述疑问词的同义词组,其中,所述同义词组包括与所述疑问词语义相同的疑问词;将供查询的知识文本数据划分为多个第二文本块;通过匹配模型将所述同义词组中的疑问词

所述第一文本块分别与每个所述第二文本块进行相似度匹配,将相似度符合预设阈值的第二文本块确定为目标文本块,提取所述目标文本块,其中,所述匹配模型是通过训练大语言模型得到的;将提取的各个所述目标文本块整合为所述疑问语句的知识应答
。2.
如权利要求1所述的知识抽取方法,其特征在于,将供查询的知识文本数据划分为多个第二文本块,包括:识别供查询的知识文本数据中的不同主题,其中,每个主题包括多个单词,每个单词由一个主题生成;针对供查询的知识文本数据中的每个文档,计算每个文档的主题概率分布和每个主题的单词概率分布,其中,主题概率分布包括不同主题出现在该文档中的概率,单词概率分布包括不同单词由该主题生成的概率;根据所述主题概率分布,将概率大于第一概率阈值的主题确定为出现在该文档的主题;根据所述单词概率分布,将概率大于第二概率阈值的单词确定为由该主题生成的;针对每个文档中出现的每个主题,将每个主题所生成的单词按照语义单元划分为多个第二文本块
。3.
如权利要求2所述的知识抽取方法,其特征在于,将每个主题所生成的单词按照语义单元划分为多个第二文本块,包括:按照知识的概念范围将每个主题所生成的单词划分为不同的知识层次,其中,所述知识层次包括知识定义原理层次

多领域知识交叉扩展层次以及知识应用层次;在每个知识层次中,按照语义单元,将每个知识层次的单词划分为多个第二文本块
。4.
如权利要求2所述的知识抽取方法,其特征在于,计算每个文档的主题概率分布和单词概率分布,包括:通过以下公式计算主题概率分布:通过以下公式计算单词概率分布:其中,为第
m
篇文档出现第
k
个主题的概率,为第
m
篇文档中属于第
k
个主题的
单词总数,为主题先验参数向量的第
k
个值,为第
k
个主题生成第
t
个单词的概率,为第
k
个主题在所有文档中生成第
t
个单词的总数,为单词先验参数向量的第
t
个值,
V
为单词总数,
K
为主题总数
。5.
如权利要求1所述的知识抽取方法,其特征在于,将供查询的知识文本数据划分为多个第二文本块,包括:按照知识的概念范围将供查询的知识文本数据划分为不同的知识层次,其中,所述知识层次包括知识定...

【专利技术属性】
技术研发人员:王伟贾惠迪邹克旭郭东宸常鹏慧孙悦丽朱珊娴田启明
申请(专利权)人:北京英视睿达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1