当前位置: 首页 > 专利查询>黄智胜专利>正文

一种基于混合编码和重排序的知识筛选方法技术

技术编号:38707264 阅读:12 留言:0更新日期:2023-09-08 14:47
本发明专利技术涉及一种基于混合编码和重排序的知识筛选方法,本发明专利技术首先分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码,然后基于上述编码,使用基于迭代的检索算法从知识库中检索出约100条左右的候选知识,最后训练排序模型,对上述候选知识排序,筛选出十几或几十条知识作为最终用于解决问题或支撑假设的知识。本发明专利技术采用两种编码器结合的混合编码方法能够更好地学习所选知识与给定问题或假设之间的语义关联,有利于提高知识筛选的效果。本发明专利技术采用基于深度学习、人工神经网络的大规模预训练语言模型作为候选知识的重排序器,能够提高知识筛选的准确性、反应速度和容错性。反应速度和容错性。反应速度和容错性。

【技术实现步骤摘要】
一种基于混合编码和重排序的知识筛选方法


[0001]本专利技术涉及自然语言处理
,尤其是一种知识筛选方法,更具体涉及一种基于混合编码和重排序的知识筛选方法。
技术背景
[0002]知识筛选是一种从知识库中检索知识的任务,通常是给定一个要解决的问题或要论证的假设,从知识库中筛选出与该问题或假设有关的一系列知识,这些知识一起提供了足够的证据来回答该问题或论证假设成立。
[0003]知识筛选作为自然语言处理领域的一种基础研究任务,涉及自然语言处理的诸多原理和技术,例如:信息检索、文本特征抽取、文本排序、文本分类、阅读理解等。当今互联网中存在大量的文本数据,如何从这些数据中选择出有用的信息,或者结合知识库中的知识回答人们的问题,引起了人们的广泛关注。将知识筛选作为自动推理、智能问答等系统的上游任务变得日趋普遍和重要。在自动推理中,筛选出来的知识可以为推理任务提供支撑证据;在问答任务中,根据具体的问题从外部知识库选择需要的知识,对于正确回答该问题至关重要。
[0004]通常,知识筛选都是在大规模知识库上进行的,知识库中所包含知识的数量巨大,如何从这些知识库中快速地筛选出相关知识是非常具有挑战性的。其中一个主要的挑战是所筛选的知识不一定直接与问题或假设相关,有些知识只与已经被筛选出的其他知识相关,因此对此类知识的筛选更加困难。目前用于知识筛选的方法多是基于文本之间语义相似性的方法,在上述与问题或假设关系不大的知识筛选上效果较差。一些研究者提出通过多次迭代的方式进行知识筛选,每次迭代筛选出一条知识,根据第次筛选到的知识为条件,来选择第次的知识。此类方法可以较为有效地减轻上述挑战带来的问题,但随着迭代次数的增加,可能会筛选出错误的知识,将错误的知识作为下一次筛选的条件,就会影响筛选的准确性,甚至让后面几次的筛选结果偏差越来越大。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出一种基于混合编码和重排序的知识筛选方法,本专利技术采用从粗到细两阶段的方式,首先利用两种不同类型的编码器将知识库里的知识编码成向量,并利用检索技术从大规模知识库中检索出与问题或假设相关的N条候选知识(N≈100),然后训练排序模型,对上述候选知识进行排序,根据排序结果筛选出用于解决问题或支撑假设的前K条知识(K<25)。
[0006] 本专利技术的技术方案为: 基于混合编码和重排序的知识筛选方法,包括以下步骤:
[0007] S1)、分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码;
[0008] S2)、基于步骤S1)所产生的编码,使用基于迭代的检索算法对知识库中的知识进行检索,检索出第一条候选知识,然后将该知识与给定的问题或假设进行拼接,迭代的检索
出第二条候选知识,依次不断迭代,直到检索出N条候选知识;
[0009] S3)、训练排序模型,对步骤S2)所产生的N条候选知识进行排序,根据排序结果筛选K条知识作为最终用于解决问题或支撑假设的知识。
[0010]上述方法中,步骤S1)中,使用稀疏编码器对知识库中所有的知识以及给定的某个问题或假设进行编码,具有包括以下步骤:
[0011] S101)、将知识库中的句子形式的知识输入到一个稀疏编码器中,例如BM25编码器,将编码器输出的向量作为该知识对应的稀疏编码;
[0012] S102)、将给定的问题或假设输入到上述稀疏编码器中,将编码器的输出作为该问题或假设的稀疏编码;
[0013] S103)、将知识库中的句子形式的知识输入到一个稠密编码器中,例如BERT编码器,将编码器输出的向量作为该知识对应的稠密编码;
[0014] S104)、将给定的问题或假设输入到上述稠密编码器中,将编码器的输出作为该问题或假设的稠密编码;
[0015]稀疏编码和稠密编码在形式上都是向量,不同之处在于稀疏编码向量中0的数量较多,其他数值一般为整数,形式上看起来该向量比较“稀疏”,向量总体长度较长;而稠密编码向量由0到1之间的浮点小数中组成,几乎没有0,形式上看起来该向量比较“稠密”,向量总体长度较短。
[0016]上述方法中,步骤S2)中,基于步骤S1)所产生的编码,使用基于迭代的检索算法对知识库中的知识进行检索,检索出第一条候选知识,具有包括以下步骤:
[0017] S201)、依次将知识库中的一条知识的稀疏编码与给定问题或假设的稀疏编码一同输入到一个相似度打分函数中,例如余弦相似度函数,计算知识库中每一个知识与给定问题或假设的相似度得分;
[0018] S202)、依次将知识库中的一条知识的稠密编码与给定问题或假设的稠密编码一同输入到一个相似度打分函数中,例如余弦相似度函数,计算知识库中每一个知识与给定问题或假设的相似度得分;
[0019] S203)、将步骤S201)得到的相似度得分与步骤S202)得到的相似度得分相加,作为知识库中每一个知识与给定问题或假设的最终相似度得分,将知识库中最终相似度得分最高的知识作为检索出第一条候选知识。
[0020]上述方法中,步骤S2)中,将该知识与给定的问题或假设进行拼接,迭代的检索出第二条候选知识,具有包括以下步骤::
[0021] S204)、将步骤S203)产生的候选知识作为句子拼接在给定的问题或假设的句子后面,将拼接后的文本作为一个整体分别输入到步骤S101)的稀疏编码器和步骤S103)的稠密编码器中,得到对应的稀疏编码和稠密编码;
[0022] S205)、依次将知识库中的一条知识的稀疏编码与步骤S204)得到的稀疏编码一同输入到步骤S201)使用的打分函数中,计算知识库中每一个知识与步骤S204)中拼接后的文本的相似度得分;
[0023] S206)、依次将知识库中的一条知识的稠密编码与步骤S204)得到的稠密编码一同输入到步骤S201)使用的打分函数中,计算知识库中每一个知识与步骤S204)中拼接后的文本的相似度得分;
[0024] S207)、将步骤S205)得到的相似度得分与步骤S206)得到的相似度得分相加,作为知识库中每一个知识与步骤S204)中拼接后的文本的最终相似度得分,将知识库中没有被选为候选知识的所有知识中最终相似度得分最高的知识作为检索出第二条候选知识。
[0025]上述方法中,步骤S2)中,依次不断迭代,直到检索出N条候选知识,具有为:不断重复步骤S204)到步骤S207),每迭代一次将产生一条新的候选知识,直到共产生出N条候选知识时,停止迭代。
[0026]上述方法中,步骤S3)中,训练排序模型,具体为:
[0027]选择一种预训练语言模型,例如BERT语言模型、TANDA语言模型等作为排序模型,使用人工标注好的知识筛选数据集对预训练语言模型进行微调。其中知识筛选数据集由正样本和负样本两类数据组成,正样本的形式是(问题,相关知识,1)这样的三元组;负样本的形式为(问题,不相关知识,0)这样的三元组。知识筛选数据集是由人工构造的。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合编码和重排序的知识筛选方法,其特征在于,包括以下步骤:S1)、分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码;S2)、基于步骤S1)所产生的编码,使用基于迭代的检索算法对知识库中的知识进行检索,检索出第一条候选知识,然后将该知识与给定的问题或假设进行拼接,迭代的检索出第二条候选知识,依次不断迭代,直到检索出N条候选知识;S3)、训练排序模型,对步骤S2)所产生的N条候选知识进行排序,根据排序结果筛选K条知识作为最终用于解决问题或支撑假设的知识。2.根据权利要求1所述的一种基于混合编码和重排序的知识筛选方法,其特征在于:步骤S1)中,分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码,具体如下:将知识库中的句子形式的知识输入到一个稀疏编码器中,将编码器输出的向量作为该知识对应的稀疏编码;将给定的问题或假设输入到上述稀疏编码器中,将编码器的输出作为该问题或假设的稀疏编码;将知识库中的句子形式的知识输入到一个稠密编码器中,将编码器输出的向量作为该知识对应的稠密编码;将给定的问题或假设输入到上述稠密编码器中,将编码器的输出作为该问题或假设的稠密编码。3.根据权利要求1所述的一种基于混合编码和重排序的知识筛选方法,其特征在于:步骤S2)中,使用基于迭代的检索算法对知识库中的知识进行检索,检索出第一条候选知识,具体如下:依次将知识库中的一条知识的稀疏编码与给定问题或假设的稀疏编码一同输入到一个相似度打分函数中,计算知识库中每一个知识与给定问题或假设的相似度得分;依次将知识库中的一条知识的稠密编码与给定问题或假设的稠密编码一同输入到一个相似度打分函数中,计算知识库中每一个知识与给定问题或假设的相似度得分;将上述两次计算得到的相似度得分相加,作为知识库中每一个知识与给定问题或假设的最终相似度得分,将知识库中最终相似度得分最高的知识作为检索出第一条候选知识。4.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:黄智胜陈涛贾旭东张仲维
申请(专利权)人:黄智胜
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1