文档标签模型的训练方法及装置制造方法及图纸

技术编号：24035781 阅读：40 留言：0更新日期：2020-05-07 01:51

本申请公开了文档标签模型的训练方法及装置，涉及文档标签预测技术领域。具体实现方案为：获取经过预训练的文档标签模型，文档标签模型采用各个应用场景的通用训练数据进行预训练得到；获取待适用的应用场景的场景训练数据，场景训练数据包括：待适用的应用场景下的多个文档以及对应的标签信息；获取文档标签模型中与待适用的应用场景相关的子模型；采用场景训练数据对子模型进行训练，得到训练好的文档标签模型，从而能够减少待适用的应用场景下训练文档标签模型所需要的训练数据，在确保文档标签模型的准确度的情况下降低训练成本。

Training method and device of document label model

全部详细技术资料下载

【技术实现步骤摘要】
文档标签模型的训练方法及装置
本申请涉及数据处理
，具体涉及文档标签预测
，尤其涉及文档标签模型的训练方法及装置。
技术介绍
目前，文档的标签预测技术是文档内容理解的重要工作。对于新的文档标签预测场景，主要的解决思路有以下两种，一种是训练通用的文档标签模型：训练模型时不考虑各个场景间的差别，在所有场景都使用通用的文档标签模型。另一种是单独训练文档标签模型：单独为新的场景准备训练数据进行训练。第一种方法中，训练得到的模型，缺乏场景或者领域针对性，在单个场景下的预测准确度低。第二种方法中，需要准备的训练数据需求量大，训练成本高。
技术实现思路
本申请提出一种文档标签模型的训练方法及装置，根据待适用的应用场景的场景训练数据，对经过预训练的文档标签模型中与待适用的应用场景相关的子模型进行训练，从而在确保文档标签模型的准确度的前提下，降低待适用的应用场景下文档标签模型的训练成本。本申请一方面实施例提出了一种文档标签模型的训练方法，包括：获取经过预训练的文档标签模型，所述文档标签模型采用各个应用场景的通用训练数据进行预训练得到；获取待适用的应用场景的场景训练数据，所述场景训练数据包括：所述待适用的应用场景下的多个文档以及对应的标签信息；获取所述文档标签模型中与所述待适用的应用场景相关的子模型；采用所述场景训练数据对所述子模型进行训练，得到训练好的文档标签模型。在本申请一个实施例中，所述文档标签模型包括：预处理层、候选召回层、粗排层和精排层；<...

【技术保护点】
1.一种文档标签模型的训练方法，其特征在于，包括：/n获取经过预训练的文档标签模型，所述文档标签模型采用各个应用场景的通用训练数据进行预训练得到；/n获取待适用的应用场景的场景训练数据，所述场景训练数据包括：所述待适用的应用场景下的多个文档以及对应的标签信息；/n获取所述文档标签模型中与所述待适用的应用场景相关的子模型；/n采用所述场景训练数据对所述子模型进行训练，得到训练好的文档标签模型。/n

【技术特征摘要】
1.一种文档标签模型的训练方法，其特征在于，包括：
获取经过预训练的文档标签模型，所述文档标签模型采用各个应用场景的通用训练数据进行预训练得到；
获取待适用的应用场景的场景训练数据，所述场景训练数据包括：所述待适用的应用场景下的多个文档以及对应的标签信息；
获取所述文档标签模型中与所述待适用的应用场景相关的子模型；
采用所述场景训练数据对所述子模型进行训练，得到训练好的文档标签模型。

2.根据权利要求1所述的方法，其特征在于，所述文档标签模型包括：预处理层、候选召回层、粗排层和精排层；
所述候选召回层包括：并联的关键词召回子模型、多标签分类召回子模型、显式召回子模型和隐式召回子模型；
所述粗排层包括：并联的规则子模型和语义匹配子模型；
与所述待适用的应用场景相关的子模型包括：语义匹配子模型，以及以下子模型中的任意一个或者多个：多标签分类召回子模型、显式召回子模型和隐式召回子模型。

3.根据权利要求2所述的方法，其特征在于，在与所述待适用的应用场景相关的子模型包括：语义匹配子模型、多标签分类召回子模型、显式召回子模型和隐式召回子模型时，所述采用所述场景训练数据对所述子模型进行训练，得到训练好的文档标签模型，包括：
针对所述场景训练数据中的每个文档，将所述文档分别输入多标签分类召回子模型、显式召回子模型和隐式召回子模型，并将各个输出结果进行合并，得到候选标签结果；
将所述文档以及所述候选标签结果输入所述语义匹配子模型，获取所述文档与所述候选标签结果中各个候选标签的相关度；
根据所述文档与所述候选标签结果中各个候选标签的相关度，以及所述文档对应的标签信息，对语义匹配子模型、多标签分类召回子模型、显式召回子模型和隐式召回子模型的系数进行调整，得到训练好的文档标签模型。

4.根据权利要求1所述的方法，其特征在于，所述场景训练数据还包括：标签集合，所述标签集合包括：文档标签模型可以预测的标签，以便文档标签模型结合所述标签集合对场景训练数据中的文档进行标签预测。

5.根据权利要求3所述的方法，其特征在于，所述采用所述场景训练数据对所述子模型进行训练，得到训练好的文档标签模型之前，还包括：
对所述文档标签模型中的多标签分类召回子模型、显式召回子模型和隐式召回子模型的系数进行初始化操作。

6.一种文档标签模型的训练装置，其特征在于，包括：
获取模块，用于获取经过预训练的文档标签模型，所述文档标签模型采用各个应用场景的通用训练数据进行预训练得到；
所述获取模块，还...

【专利技术属性】
技术研发人员：刘呈祥，何伯磊，肖欣延，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人