【技术实现步骤摘要】
面向文本知识推理模型持续学习的样本选择方法和装置
[0001]本专利技术涉及一种面向文本知识推理模型持续学习的样本选择方法和装置,属于自然语言推理的
技术介绍
[0002]自然语言推理任务是指给定前提文本和假设文本,以前提文本为标准,去判断假设文本的正确、错误或无关等不同情况。文本知识推理是自然语言推理任务的一种特殊形式,其中前提文本是指专业领域的知识点或涉及专业领域知识点的事实描述,假设文本是指不同人员描述其对于前提文本中的知识点理解或认知结果。例如在经济法考试中,前提文本是指经济法领域的专业知识或涉及的事实描述,对应试题的参考答案,如“根据公司法律制度的规定,有限责任公司的自然人股东因继承发生变化时,其他股东主张行使优先购买权的,人民法院不予支持,但公司章程另有规定或者全体股东另有约定的除外。”假设文本是指不同人员对于上述知识点的理解结果,在上述案例中对应考生答案,如“钱某请求行使有限购买权,人民法院不予以支持。有限责任公司的股东去世的情况,股权由其继承人继承。”在本例中,文本知识推理任务是依据前提文本即参考答案判断假设文本即考生答案是否正确。文本知识推理在主观题评阅、专业知识问答、知识推理等领域具有重要应用价值。
[0003]在专业知识文本推理问题中,专业领域知识点的类别数量庞大、知识点描述形式多样,前提文本的内容和形式不断翻新,而假设文本因与个体专业知识水平和表达能力密切相关,其质量参差不齐、形式多样。前提文本和假设文本的这些问题使描述同一知识点的样本混淆度高、辨识困难,而低频使用的知识点对 ...
【技术保护点】
【技术特征摘要】
1.一种面向文本知识推理模型持续学习的样本选择方法,其特征在于,包括:历史任务样本选取和当前任务样本选取;(1)其中所述历史任务样本选取,包括:获取中心向量和选取样本;所述获取中心向量时:对于形如的有标签样本集合,使用公式(I)(II)计算其表层特征中心向量和隐式特征中心向量,其中代表数据集中描述第个知识点的所有样本,分别为获取文本的表层特征和隐式特征的函数:公式(I)(II)中和的表示表层特征中心向量和隐式特征中心向量的次序,意为第个表层特征中心向量和第个隐式特征中心向量;获取文本的表层特征和隐式特征:所述表层特征,使用词频和逆文档频率表示,记为,所述隐式特征,使用Sentence
‑
BERT向量表示,记为,其中为被编码的文本;所述选取样本时,包括:(1
‑
1)确定选取加入记忆集中的样本个数:(1
‑
2)选取样本:通过代表性、差异性、平衡性指标衡量样本来选取记忆集,并在选取样本时,利用下述两种方案之一遍历样本,方案
①
:根据样本向量与中心向量的距离升序进行遍历,其中向量包括表层特征向量和隐式特征向量;方案
②
:每个样本等概率随机进行遍历;若被遍历的样本满足代表性、差异性、平衡性,则加入记忆集;否则,舍弃被遍历的样本,继续进行下一个遍历,直至选取的样本数量满足要求;(2)其中,当前任务样本选取,包括:样本代表性分析、样本困难性分析和样本采样;(2
‑
1)当前任务样本选取中的样本代表性分析;(2
‑
2)当前任务所述样本选取中的样本困难性分析;(2
‑
3)当前任务所述样本选取中的样本采样。2.根据权利要求1所述的一种面向文本知识推理模型持续学习的样本选择方法,其特征在于,在步骤(1)中:所述(1
‑
1)确定选取加入记忆集中的样本个数:根据任务的先后顺序,记当前任务为第个任务,历史第个任务的数据集中选取的样本量为,如公式(III),其中为模型训练需要选取的样本总量,即记忆集样本量和当前任务选取样本量之和:通过公式(IV)确定从第i任务的数据集的第个知识点的相关样本中选取的样本数量
为,以使得抽取的每个知识点的样本的数量分布与原数据集的一致:其中表示第个数据集;表示第个数据集中描述第个知识点的数据集;在步骤(2)中,(2
‑
1)所述当前任务样本选取中的样本代表性分析,包括:对于当前任务数据集的第知识点的候选样本集中的样本的假设文本表层特征向量组成的集合进行聚类,指定聚类数为,根据公式(VI),得到个聚簇;当前任务中第个知识点需要抽取的样本数量为,针对每个聚簇,计算簇中样本方差以及簇中样本数量来分析样本代表性:根据公式(V)确定簇中采样的样本数量,意为第个任务中,针对第个知识点的第个簇中选取的样本数:个簇中选取的样本数:(2
‑
2)当前任务所述样本选取中的样本困难性分析,包括:借助预训练的专业文本推理模型,输入样本的前提文本和假设文本进行推理预测,得到类别集合上预测概率分布,表示概率最大的类别标签,使用公式(VII)计算推理模型对样本所预测的概率分布中的最大输出概率与第二大输出概率的差值来衡量样本的困难性:其中表示专业文本推理模型预测样本类别为的概率,表示由专业文本推理模型预测样本类别为c的概率;(2
‑
3)当前任务所述样本选取中的样本采样,包括:(2
‑3‑
1)对于当前任务数据集的第个知识点的候选样本集进行步骤(2
‑
1)所述的样本代表性分析,得到从每个聚簇中的采样样本数量,以维持筛选出的样本集的代表性;(2
‑3‑
2)之后对样本进行步骤(2
‑
2)所述的样本困难性分析,计算样本的困难性量化值;对于簇,从中采样困难性最高的个样本,即根据样本的值从小到大选取个样本,加入筛选的小样本集中;对簇均进行上述采样过程,完成知识点样本的采样;对当前任务中的所有知识点经过上述采样过程,完成在当前任务上的数据筛选,最终筛选出当前任务的训练用样本集数量为。
3.根据权利要求1所述的一种面向文本知识推理模型持续学习的样本选择方法,其特征...
【专利技术属性】
技术研发人员:孙宇清,杨磊稳,马磊,杨涛,袁峰,
申请(专利权)人:山东山大鸥玛软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。