面向文本知识推理模型持续学习的样本选择方法和装置制造方法及图纸

技术编号:36934271 阅读:15 留言:0更新日期:2023-03-22 18:56
一种面向文本知识推理模型持续学习的样本选择方法和装置,属于自然语言推理的技术领域,包括历史任务样本选取和当前任务样本选取;其中所述历史任务样本选取包括:确定选取加入记忆集中的样本个数;选取样本:通过代表性、差异性、平衡性指标衡量样本来选取记忆集,并在选取样本时,利用下述两种方案之一遍历样本;其中,当前任务样本选取包括:样本代表性分析、样本困难性分析和样本采样。本发明专利技术能够兼顾代表性、平衡性和差异性等样本性质,相比于既往技术基于聚类中心选取代表性样本的方法,能更好地适配复杂文本推理场景,有效地使用少量样本去近似原样本的分布,使模型记忆历史任务上学习到的知识。务上学习到的知识。务上学习到的知识。

【技术实现步骤摘要】
面向文本知识推理模型持续学习的样本选择方法和装置


[0001]本专利技术涉及一种面向文本知识推理模型持续学习的样本选择方法和装置,属于自然语言推理的


技术介绍

[0002]自然语言推理任务是指给定前提文本和假设文本,以前提文本为标准,去判断假设文本的正确、错误或无关等不同情况。文本知识推理是自然语言推理任务的一种特殊形式,其中前提文本是指专业领域的知识点或涉及专业领域知识点的事实描述,假设文本是指不同人员描述其对于前提文本中的知识点理解或认知结果。例如在经济法考试中,前提文本是指经济法领域的专业知识或涉及的事实描述,对应试题的参考答案,如“根据公司法律制度的规定,有限责任公司的自然人股东因继承发生变化时,其他股东主张行使优先购买权的,人民法院不予支持,但公司章程另有规定或者全体股东另有约定的除外。”假设文本是指不同人员对于上述知识点的理解结果,在上述案例中对应考生答案,如“钱某请求行使有限购买权,人民法院不予以支持。有限责任公司的股东去世的情况,股权由其继承人继承。”在本例中,文本知识推理任务是依据前提文本即参考答案判断假设文本即考生答案是否正确。文本知识推理在主观题评阅、专业知识问答、知识推理等领域具有重要应用价值。
[0003]在专业知识文本推理问题中,专业领域知识点的类别数量庞大、知识点描述形式多样,前提文本的内容和形式不断翻新,而假设文本因与个体专业知识水平和表达能力密切相关,其质量参差不齐、形式多样。前提文本和假设文本的这些问题使描述同一知识点的样本混淆度高、辨识困难,而低频使用的知识点对应的样本数量少,冷门专业知识点还存在缺少标注样本的问题。面对持续增加的知识点样本数据,尤其是历史样本数据中未曾涉及的知识点,智能模型不仅要解决少样本和噪音等样本挑战,而且要解决持续学习挑战,即在学习新知识点的同时不遗忘既有知识,达到增加模型的泛化能力和鲁棒性的目的。
[0004]引入持续学习是为了让文本知识推理智能模型不仅能很好地完成新问题,还能以良好的性能处理历史任务。在人工智能领域,记忆回放策略是最为有效的持续学习方法,例如,文献Wang,Hong等人于2019年发表的文章:"Sentence embedding alignment for lifelong relationextraction."arXiv preprint arXiv:1903.02588。
[0005]通过保存之前任务的部分样本参与下一次训练以达到持续学习的目的,其中之前任务的部分样本构成的集合称为记忆集,记忆集中样本质量决定了推理模型在历史任务上的性能。
[0006]例如:中国专利文献CN114722892A提供一种基于机器学习的持续学习方法及装置,使用历史数据训练生成器,使用生成器生成对应任务的伪样本集作为记忆集,这种方法难以保证生成样本的质量,影响持续学习效果。
[0007]中国专利文献CN113688882A提出一种记忆增强的连续学习神经网络模型的训练方法及装置,受人脑记忆回放的启发,利用简单的数据回放方法,通过存储数据的均值和方差的方式构建可扩展的记忆模块,实现对原有任务的记忆增强效果,但是这种方案只考虑
数据集合的众数代表性样本,没有样本的困难性和多样性。
[0008]中国专利文献CN113590958A公开一种基于样本回放的序列推荐模型的持续学习方法,依据物品类别平衡策略对小部分具有代表性的范例样本进行采样,生成记忆集,这种方式并没有考虑样本的困难性和差异性。综上所述,现有工作难以满足文本知识推理模型的持续学习需求。
[0009]综上可知,现有技术存在的问题包括:针对描述同一知识点样本形式多样,质量参差不齐的问题;针对知识点类别覆盖和知识点类别上样本数量不均衡问题;选取加入记忆集的样本时,描述同一知识点的样本形式或质量重复性高的问题。

技术实现思路

[0010]针对现有技术的不足,本专利技术公开一种面向文本知识推理模型持续学习的样本选择方法。
[0011]本专利技术还公开一种实现上述样本选择方法的装置。
[0012]针对上述问题,本专利技术针对描述同一知识点样本形式多样,质量参差不齐问题,提出代表性指标;针对知识点类别覆盖和知识点类别上样本数量不均衡问题,提出了平衡性指标;为了防止选取加入记忆集的样本中,描述同一知识点的样本形式或质量重复性高的问题,提出了差异性指标。基于此,本专利技术又提出了兼顾样本质量和样本特征分布的多种选择策略和样本选择技术,提升了专业知识文本推理持续学习的模型性能和鲁棒性,对于其他文本理解任务也具有理论意义。
[0013]专业术语解释1、专业知识:指专业领域如金融、法律、会计等,所涉及的理论、技术、概念、事实描述等文本,区别于通用知识和常识知识。
[0014]2、专业知识点:专业知识的最小组成单位,采用规范化文本描述形式,后文简称知识点,记为。
[0015]3、前提文本:是指专业领域知识点或涉及专业领域知识点的事实描述。同一个知识点可能有多个前提文本进行描述,记为。
[0016]4、假设文本:是指不同人员对于专业领域知识点的理解结果的文本描述。一个前提文本可能有多个对应的假设文本,记为。
[0017]5、任务:在模型持续学习的过程中,要从一系列任务中进行学习,这些任务具有时序关系,模型的学习在每个任务上是单独进行的。
[0018]6、数据集:每个任务都有自己的数据集,数据集的每个样本是形如的元组,其中为前提文本,为假设文本,,其中0、1、2分别表示样本标签为蕴含,矛盾或中立。任务与数据集的关系如图1所示。
[0019]7、Sentence

Bert模型:是指记载在文献Reimers N, Gurevych I. Sentence

bert: Sentence embeddings using siamesebert

networks[J]. arXiv preprint arXiv:1908.10084, 2019.中的模型。
[0020]8、SentenceTransformer:是使用python的pytorch框架对Sentence

Bert模型的代码实现,目前无中文翻译。
[0021]本专利技术详细的技术方案如下:
一种面向文本知识推理模型持续学习的样本选择方法,其特征在于,包括:历史任务样本选取和当前任务样本选取;(1)其中所述历史任务样本选取,包括:获取中心向量和选取样本,所述中心向量是指描述同一知识点的所有样本的中心向量,所述选取样本是选取合适的样本加入到记忆样本集合中;所述获取中心向量时:对于形如的有标签样本集合,使用公式(I)(II)计算其表层特征中心向量和隐式特征中心向量,其中代表数据集中描述第个知识点的所有样本,分别为获取文本的表层特征和隐式特征的函数:公式(I)(II)中和的表示表层特征中心向量和隐式特征中心向量的次序,意为第个表层特征中心向量和第个隐式特征中心向量;获取文本的表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向文本知识推理模型持续学习的样本选择方法,其特征在于,包括:历史任务样本选取和当前任务样本选取;(1)其中所述历史任务样本选取,包括:获取中心向量和选取样本;所述获取中心向量时:对于形如的有标签样本集合,使用公式(I)(II)计算其表层特征中心向量和隐式特征中心向量,其中代表数据集中描述第个知识点的所有样本,分别为获取文本的表层特征和隐式特征的函数:公式(I)(II)中和的表示表层特征中心向量和隐式特征中心向量的次序,意为第个表层特征中心向量和第个隐式特征中心向量;获取文本的表层特征和隐式特征:所述表层特征,使用词频和逆文档频率表示,记为,所述隐式特征,使用Sentence

BERT向量表示,记为,其中为被编码的文本;所述选取样本时,包括:(1

1)确定选取加入记忆集中的样本个数:(1

2)选取样本:通过代表性、差异性、平衡性指标衡量样本来选取记忆集,并在选取样本时,利用下述两种方案之一遍历样本,方案

:根据样本向量与中心向量的距离升序进行遍历,其中向量包括表层特征向量和隐式特征向量;方案

:每个样本等概率随机进行遍历;若被遍历的样本满足代表性、差异性、平衡性,则加入记忆集;否则,舍弃被遍历的样本,继续进行下一个遍历,直至选取的样本数量满足要求;(2)其中,当前任务样本选取,包括:样本代表性分析、样本困难性分析和样本采样;(2

1)当前任务样本选取中的样本代表性分析;(2

2)当前任务所述样本选取中的样本困难性分析;(2

3)当前任务所述样本选取中的样本采样。2.根据权利要求1所述的一种面向文本知识推理模型持续学习的样本选择方法,其特征在于,在步骤(1)中:所述(1

1)确定选取加入记忆集中的样本个数:根据任务的先后顺序,记当前任务为第个任务,历史第个任务的数据集中选取的样本量为,如公式(III),其中为模型训练需要选取的样本总量,即记忆集样本量和当前任务选取样本量之和:通过公式(IV)确定从第i任务的数据集的第个知识点的相关样本中选取的样本数量
为,以使得抽取的每个知识点的样本的数量分布与原数据集的一致:其中表示第个数据集;表示第个数据集中描述第个知识点的数据集;在步骤(2)中,(2

1)所述当前任务样本选取中的样本代表性分析,包括:对于当前任务数据集的第知识点的候选样本集中的样本的假设文本表层特征向量组成的集合进行聚类,指定聚类数为,根据公式(VI),得到个聚簇;当前任务中第个知识点需要抽取的样本数量为,针对每个聚簇,计算簇中样本方差以及簇中样本数量来分析样本代表性:根据公式(V)确定簇中采样的样本数量,意为第个任务中,针对第个知识点的第个簇中选取的样本数:个簇中选取的样本数:(2

2)当前任务所述样本选取中的样本困难性分析,包括:借助预训练的专业文本推理模型,输入样本的前提文本和假设文本进行推理预测,得到类别集合上预测概率分布,表示概率最大的类别标签,使用公式(VII)计算推理模型对样本所预测的概率分布中的最大输出概率与第二大输出概率的差值来衡量样本的困难性:其中表示专业文本推理模型预测样本类别为的概率,表示由专业文本推理模型预测样本类别为c的概率;(2

3)当前任务所述样本选取中的样本采样,包括:(2
‑3‑
1)对于当前任务数据集的第个知识点的候选样本集进行步骤(2

1)所述的样本代表性分析,得到从每个聚簇中的采样样本数量,以维持筛选出的样本集的代表性;(2
‑3‑
2)之后对样本进行步骤(2

2)所述的样本困难性分析,计算样本的困难性量化值;对于簇,从中采样困难性最高的个样本,即根据样本的值从小到大选取个样本,加入筛选的小样本集中;对簇均进行上述采样过程,完成知识点样本的采样;对当前任务中的所有知识点经过上述采样过程,完成在当前任务上的数据筛选,最终筛选出当前任务的训练用样本集数量为。
3.根据权利要求1所述的一种面向文本知识推理模型持续学习的样本选择方法,其特征...

【专利技术属性】
技术研发人员:孙宇清杨磊稳马磊杨涛袁峰
申请(专利权)人:山东山大鸥玛软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1