阅读理解候选选项个数不确定时的训练方法、装置及系统制造方法及图纸

技术编号：32552467 阅读：13 留言：0更新日期：2022-03-05 11:52

本发明专利技术提供了阅读理解候选选项个数不确定时的训练方法、装置及系统，该方法包括：步骤S10、任务分组：将至少一篇阅读理解样本作为训练集，并将所述训练集划分为至少一个子任务，将答案候选选项个数相同的问题划分到同一子任务中，组成新训练集；步骤S20、多任务采样：从新训练集中选取任一子任务中的一批次阅读理解的问题样本，作为模型训练的输入数据；步骤S30、模型训练：对输入的输入数据进行多次训练，直至模型收敛。本发明专利技术的技术方案，采用了多任务视角在一个模型中解决了选择题阅读理解任务中选项个数不同的问题，并可以将多个模型变为单个模型，且不同选项个数的数据可以在一个模型中互相学习，从而降低整体数据的标注量。量。量。

全部详细技术资料下载

【技术实现步骤摘要】
阅读理解候选选项个数不确定时的训练方法、装置及系统

[0001]本专利技术书一个或多个实施例涉及数据处理
，尤其涉及一种阅读理解候选选项个数不确定时的训练方法、装置及系统。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
[0003]在医疗场景下，我们需要根据特定文书回答不同问题，而不同问题对应着若干个候选选项，这是一种典型的选择题阅读理解任务。在该任务中，我们需要根据一篇参考文章和一个相关问题，从若干个选项中，选择一个作为正确答案，如图1所示。
[0004]上述情况是，现有的选择题类型阅读理解模型能够处理固定选项个数的问题。而在实际应用场景中，一个问题的选项个数可能不一样，则原有模型只能在选项个数相同的一类数据上训练。如图2所示，在第一个问题训练的模型，无法将第二个问题加入训练。
[0005]基于上述问题，我们亟需一种新的训练方式，用于解决选项个数不一致场景下的选择题型阅读理解模型训练。

技术实现思路

[0006]本说明书一个或多个实施例描述了一种基于多任务的医疗阅读理解候选选项个数不确定时的训练方法、装置及系统，解决医疗阅读理解场景下候选选项个数不确定时的阅读理解模型训练。
[0007]本说明书一个或多个实施例...

【技术保护点】

【技术特征摘要】
1.阅读理解候选选项个数不确定时的训练方法，其特征在于，所述方法包括：任务分组：将至少一篇阅读理解样本作为训练集，并将所述训练集划分为至少一个子任务，将答案候选选项个数相同的问题划分到同一子任务中，组成新训练集；多任务采样：从新训练集中选取任一子任务中的一批次阅读理解的问题样本，作为模型训练的输入数据；模型训练：对输入的输入数据进行多次训练，直至模型收敛。2.根据权利要求1所述的方法，其特征在于，所述选取新训练集中任一子任务中的一批次问题，作为模型训练的输入数据，具体为：从新任务集中，选取任一子任务；从选取的子任务中选择一批次问题样本，作为模型训练的输入数据。3.根据权利要求1所述的方法，其特征在于，所述对输入的输入数据进行多次训练，直至模型收敛，具体为：将输入数据，输入到共享层，进行语义编码，生成该批次问题样本的表示；基于生成的问题样本表示，激活子任务层，并前向计算损失；其中，激活的子任务层为输入数据所属的子任务中的答案候选选项个数对应的子任务层；基于损失，反向传播，并更新对应的子任务层和共享层的参数值；重复上述过程，直至模型收敛。4.根据权利要求3所述的方法，其特征在于，所述共享层为阅读理解中使用预训练语言训练号的编码器。5.阅读理解候选选项个数不确定时的训练装置，其特征在于，所述装置包括：任务分组器，用于将训练集划分为至少一个子任务，并将答案候选选项个数相同的问题划分到同一个子任务中，组成新训练集；其中，所述训练集由至少一个阅读理解样本组成；多任务采样器，用于在所述子任务...

【专利技术属性】
技术研发人员：丘德来，丁颖，张瀚之，刘升平，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人