一种基于神经符号混合检索增强的知识获取方法技术

技术编号:36809131 阅读:13 留言:0更新日期:2023-03-09 00:34
本发明专利技术公开了一种基于神经符号混合检索增强的知识获取方法,包括:获取与事件抽取任务相关的事件语料库、语义图谱、符号化的知识库;根据语义图谱通过弱监督方式将事件语料库中每条语料文本与符号化的知识库中事件类型进行映射以构建检索知识库;进行针对目标文本的事件抽取时,为目标文本从检索知识库中检索相关的多条候选语料文本,依据候选语料文本与事件类型的映射关系为目标文本检索最优的事件类型,并提取最优事件类型对应的事件子图和最优语料文本作为提示知识;将提示知识转换成提示文本后与目标文本结合作为输入文本,利用语言模型对输入文本进行知识获取,得到基于目标文本的事件抽取结果。该方法增强知识获取准确性和效率。确性和效率。确性和效率。

【技术实现步骤摘要】
一种基于神经符号混合检索增强的知识获取方法


[0001]本专利技术属于基于自然处理的知识获取
,具体涉及一种基于神经符号混合检索增强的知识获取方法。

技术介绍

[0002]知识获取技术一直都是自然语言处理中非常重要的技术。虽然预训练语言模型已经具有了强大的文本理解能力,但是在解决一些检索任务的过程中,外部知识能够很大程度的帮助现有的模型。因此,许多基于检索增强的方法被提出。现有获取任务相关的知识的技术仍然存在一些问题:
[0003]问题1:很多的事件抽取任务都是通过单一文本或者图谱作为知识来源,例如文献Generating disentangled arguments with prompts:a simple event extraction framework that works.公开的将事件描述文本作为知识来源,再例如文献OntoED:Low

resource Event Detection with Ontology Embedding公开的只利用了事件相关的本体图谱进行增强。这些方法并不能够有效地利用不同来源的外部知识。而单一的外部知识往往存在稀疏性的问题,比如符号化的知识图谱,虽然是人类高质量构建的高知识密度的知识信息,但是符号化的知识图谱是不完整的,同时不同类型与粒度的知识信息总是存在不同的形式,比如三元组,实体集等,这些不同形式的知识信息也难以形成统一的表示,并不利用于事件检索任务时作为外部知识。
[0004]问题2:虽然现有的事件检索方式能够检索到与任务相关的外部知识,但是也同时会引入不相关的知识噪声。这些知识噪声可能会对语言模型的检索表现产生负面影响。形成这种知识噪声的一部分原因是因为检索到的知识信息虽然和输入相关,但是并不适用于检索任务本身。例如在事件抽取任务上,与输入相关的文本的可能与在事件上的相似不大,而是在其它方面,比如场景描述,天气背景相关,这就导致这些文本的效用不大。
[0005]因此,提供一种更有效的知识获取方法,具有更重要的现实意义。

技术实现思路

[0006]鉴于上述,本专利技术的目的是提供一种基于神经符号混合检索增强的知识获取方法,能够提升知识获取的能力,增强知识获取准确性和效率,降低计算开销。
[0007]为实现上述专利技术目的,实施例提供的一种基于神经符号混合检索增强的知识获取方法,包括以下步骤:
[0008]获取与事件抽取任务相关的事件语料库、语义图谱、符号化的知识库;
[0009]根据语义图谱通过弱监督方式将事件语料库中每条语料文本与符号化的知识库中事件类型进行映射以构建检索知识库;
[0010]进行针对目标文本的事件抽取时,为目标文本从检索知识库中检索相关的多条候选语料文本,依据候选语料文本与事件类型的映射关系为目标文本检索最优的事件类型,并提取最优事件类型对应的事件子图和最优语料文本作为提示知识;
[0011]将提示知识转换成提示文本后与目标文本结合作为输入文本,利用语言模型对输入文本进行知识获取,得到基于目标文本的事件抽取结果。
[0012]优选地,所述根据语义图谱通过弱监督方式将事件语料库中每条语料文本与符号化的知识库中事件类型进行映射以构建检索知识库,包括:
[0013]对将事件语料库中每条语料文本进行分词得到每个单词和对应的词性,将每个单词映射到语义图谱得到每个单词的语义;
[0014]根据词性从每条语料文本包含的所有单词中筛选目标词性的单词作为候选单词,其中,目标词性是指能够确定事件类型的词性;
[0015]为候选单词检索匹配符号化的知识库中的事件触发词,依据检索匹配的事件触发词,将事件触发词连接的事件类型关联到候选单词对应的语料文本,实现语料文本与事件类型的映射,以构建检索知识库。
[0016]优选地,在检索知识库中,语料文本与其映射的包含事件类型的事件子图形成一对映射,其中,语料文本作为映射的键,事件子图作为映射的值。
[0017]优选地,所述为目标文本从检索知识库中检索相关的多条候选语料文本,包括:
[0018]通过BM25检索方式为从检索知识库中为目标文本检索多条相似的语料文本作为候选语料文本。
[0019]优选地,所述依据候选语料文本与事件类型的映射关系为目标文本检索最优的事件类型,包括:
[0020]将候选语料文本和事件类型输入至二分类模型中,依据二分类模型输出的预测候选语料文本是输入事件类型的概率值,筛选概率值最大的事件类型作为最优事件类型。
[0021]优选地,所述提取最优事件类型对应的事件子图和最优语料文本作为提示知识,包括:
[0022]依据最优事件类型从知识图谱中提取事件子图,其中,事件子图包括与最优事件类型关联的上下级事件类型、事件触发词、论元词;
[0023]根据候选语料文本与事件类型的映射关系提取最优事件类型对应的候选语料文本作为最优语料文本。
[0024]优选地,所述将提示知识转换成提示文本后与目标文本结合作为输入文本,包括:
[0025]从事件子图中抽取最优事件类型与其关联的上下级事件类型,形成结构化的事件结构信息;
[0026]从事件子图中抽取最优事件类型与其关联的事件触发词,形成结构化的触发词信息;
[0027]从事件子图中抽取最优事件类型与其关联的论元词,形成结构化的论元模板信息;
[0028]将事件结构信息、触发词信息以及论元模板信息转换为文本信息,该文本信息与最优语料文本同时作为提示文本。
[0029]优选地,所述符号化的知识库包括schema图或知识图谱。
[0030]优选地,采用StandfordNLP对每条语料文本进行分词。
[0031]优选地,所述语义图谱为WordNet语义图谱。
[0032]与现有技术相比,本专利技术具有的有益效果至少包括:
[0033]通过构建检索知识库,已将文本表示的外部知识和符号化表示的外部知识进行混合映射连接,该检索知识库由于是与事件抽取任务相关的,噪声知识少,更利于作为提示知识。在检索知识库的基础上,通过候选语料文本和事件类型的混合检索,能够顾自动筛选出与事件抽取任务相关的提示知识,由于提示知识都是检索知识库得到的,降低了数据计算量,降低了计算开销。提取的提示知识作为语言模型的输入一部分,增强语言模型从目标文本中获取知识的能力,增强事件抽取结果的准确性和效率。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0035]图1是实施例提供的基于神经符号混合检索增强的知识获取方法的流程示意图。
具体实施方式
[0036]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经符号混合检索增强的知识获取方法,其特征在于,包括以下步骤:获取与事件抽取任务相关的事件语料库、语义图谱、符号化的知识库;根据语义图谱通过弱监督方式将事件语料库中每条语料文本与符号化的知识库中事件类型进行映射以构建检索知识库;进行针对目标文本的事件抽取时,为目标文本从检索知识库中检索相关的多条候选语料文本,依据候选语料文本与事件类型的映射关系为目标文本检索最优的事件类型,并提取最优事件类型对应的事件子图和最优语料文本作为提示知识;将提示知识转换成提示文本后与目标文本结合作为输入文本,利用语言模型对输入文本进行知识获取,得到基于目标文本的事件抽取结果。2.根据权利要求1所述的基于神经符号混合检索增强的知识获取方法,其特征在于,所述根据语义图谱通过弱监督方式将事件语料库中每条语料文本与符号化的知识库中事件类型进行映射以构建检索知识库,包括:对将事件语料库中每条语料文本进行分词得到每个单词和对应的词性,将每个单词映射到语义图谱得到每个单词的语义;根据词性从每条语料文本包含的所有单词中筛选目标词性的单词作为候选单词,其中,目标词性是指能够确定事件类型的词性;为候选单词检索匹配符号化的知识库中的事件触发词,依据检索匹配的事件触发词,将事件触发词连接的事件类型关联到候选单词对应的语料文本,实现语料文本与事件类型的映射,以构建检索知识库。3.根据权利要求1或2所述的基于神经符号混合检索增强的知识获取方法,其特征在于,在检索知识库中,语料文本与其映射的包含事件类型的事件子图形成一对映射,其中,语料文本作为映射的键,事件子图作为映射的值。4.根据权利要求1所述的基于神经符号混合检索增强的知识获取方法,其特征在于,所述为目标文本从检索知识库中检索相关的多条候选语料文本,包括:通过BM25检索方式为从检索知识库中为目标文本检索...

【专利技术属性】
技术研发人员:陈华钧姚云志毛盛宇张宁豫邓淑敏
申请(专利权)人:新华融合媒体科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1