一种基于混合编码和重排序的知识筛选方法技术

技术编号：38707264 阅读：12 留言：0更新日期：2023-09-08 14:47

本发明专利技术涉及一种基于混合编码和重排序的知识筛选方法，本发明专利技术首先分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码，然后基于上述编码，使用基于迭代的检索算法从知识库中检索出约100条左右的候选知识，最后训练排序模型，对上述候选知识排序，筛选出十几或几十条知识作为最终用于解决问题或支撑假设的知识。本发明专利技术采用两种编码器结合的混合编码方法能够更好地学习所选知识与给定问题或假设之间的语义关联，有利于提高知识筛选的效果。本发明专利技术采用基于深度学习、人工神经网络的大规模预训练语言模型作为候选知识的重排序器，能够提高知识筛选的准确性、反应速度和容错性。反应速度和容错性。反应速度和容错性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合编码和重排序的知识筛选方法

[0001]本专利技术涉及自然语言处理
，尤其是一种知识筛选方法，更具体涉及一种基于混合编码和重排序的知识筛选方法。
技术背景
[0002]知识筛选是一种从知识库中检索知识的任务，通常是给定一个要解决的问题或要论证的假设，从知识库中筛选出与该问题或假设有关的一系列知识，这些知识一起提供了足够的证据来回答该问题或论证假设成立。
[0003]知识筛选作为自然语言处理领域的一种基础研究任务，涉及自然语言处理的诸多原理和技术，例如：信息检索、文本特征抽取、文本排序、文本分类、阅读理解等。当今互联网中存在大量的文本数据，如何从这些数据中选择出有用的信息，或者结合知识库中的知识回答人们的问题，引起了人们的广泛关注。将知识筛选作为自动推理、智能问答等系统的上游任务变得日趋普遍和重要。在自动推理中，筛选出来的知识可以为推理任务提供支撑证据；在问答任务中，根据具体的问题从外部知识库选择需要的知识，对于正确回答该问题至关重要。
[0004]通常，知识筛选都是在大规模知识库上进行的，知识库中所包含知识的数量巨大，如何从这些知识库中快速地筛选出相关知识是非常具有挑战性的。其中一个主要的挑战是所筛选的知识不一定直接与问题或假设相关，有些知识只与已经被筛选出的其他知识相关，因此对此类知识的筛选更加困难。目前用于知识筛选的方法多是基于文本之间语义相似性的方法，在上述与问题或假设关系不大的知识筛选上效果较差。一些研究者提出通过多次迭代的方式进行知识筛选，每次迭代筛选出一条知识，根据第次筛...

【技术保护点】

【技术特征摘要】
1.一种基于混合编码和重排序的知识筛选方法，其特征在于，包括以下步骤：S1)、分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码；S2)、基于步骤S1)所产生的编码，使用基于迭代的检索算法对知识库中的知识进行检索，检索出第一条候选知识，然后将该知识与给定的问题或假设进行拼接，迭代的检索出第二条候选知识，依次不断迭代，直到检索出N条候选知识；S3)、训练排序模型，对步骤S2)所产生的N条候选知识进行排序，根据排序结果筛选K条知识作为最终用于解决问题或支撑假设的知识。2.根据权利要求1所述的一种基于混合编码和重排序的知识筛选方法，其特征在于：步骤S1)中，分别使用稀疏编码器和稠密编码器对知识库中所有的知识以及给定的某个问题或假设进行编码，具体如下：将知识库中的句子形式的知识输入到一个稀疏编码器中，将编码器输出的向量作为该知识对应的稀疏编码；将给定的问题或假设输入到上述稀疏编码器中，将编码器的输出作为该问题或假设的稀疏编码；将知识库中的句子形式的知识输入到一个稠密编码器中，将编码器输出的向量作为该知识对应的稠密编码；将给定的问题或假设输入到上述稠密编码器中，将编码器的输出作为该问题或假设的稠密编码。3.根据权利要求1所述的一种基于混合编码和重排序的知识筛选方法，其特征在于：步骤S2)中，使用基于迭代的检索算法对知识库中的知识进行检索，检索出第一条候选知识，具体如下：依次将知识库中的一条知识的稀疏编码与给定问题或假设的稀疏编码一同输入到一个相似度打分函数中，计算知识库中每一个知识与给定问题或假设的相似度得分；依次将知识库中的一条知识的稠密编码与给定问题或假设的稠密编码一同输入到一个相似度打分函数中，计算知识库中每一个知识与给定问题或假设的相似度得分；将上述两次计算得到的相似度得分相加，作为知识库中每一个知识与给定问题或假设的最终相似度得分，将知识库中最终相似度得分最高的知识作为检索出第一条候选知识。4.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员：黄智胜，陈涛，贾旭东，张仲维，
申请(专利权)人：黄智胜，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人