一种模型训练方法及装置制造方法及图纸

技术编号：29935564 阅读：27 留言：0更新日期：2021-09-04 19:11

本说明书公开了一种模型训练方法及装置，可基于已构建知识库中的各实体，从目标领域相关的各段文本中，确定包含任一实体的训练样本，并根据实体在各训练样本中位置及其实体属性，对各训练样本进行序列标注。之后，通过各训练样本及其标注，对预训练的语言模型进一步训练。基于已构建知识库中各实体，确定各训练样本，并对各训练样本进行自动标注的方式，节省了人工标注成本。了人工标注成本。了人工标注成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法及装置

[0001]本申请涉及机器学习
，尤其涉及一种模型训练方法及装置。

技术介绍

[0002]知识图谱，是一种由节点和边组成的图数据结构，主要应用于智能问答以及信息推荐等领域。其中，知识图谱中每个节点表示一个实体，每条边表示实体与实体之间的关联关系。
[0003]目前，在构建各领域的知识图谱时，首先需要获取相关领域的百科数据，并对获取到的百科数据进行知识挖掘，获取相关的实体内容以及各实体之间的关联关系。最后，根据各实体及其之间的关联关系，构建该相关领域的知识图谱。
[0004]其中，常见的一种知识挖掘方法是基于机器学习或深度学习的方法，可通过预先训练的文本识别模型从百科数据中识别出相关实体。
[0005]但是，通过机器学习模型进行知识挖掘，则在进行模型训练时，需要大量人工标注的语料数据，需要耗费较高的人力成本。

技术实现思路

[0006]本说明书实施例提供一种模型训练方法及装置，用于部分解决现有技术中的问题。
[0007]本说明书实施例采用下述技术方案：
[000本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取目标领域相关的第一文本数据集；根据已构建知识库中的各实体，从所述第一文本数据集包含的各段文本中，确定包含任一实体的文本，作为训练样本，并针对每个训练样本，根据所述实体在该训练样本中的位置以及所述实体的实体属性，对该训练样本进行序列标注；将该训练样本输入预训练的语言模型，确定所述语言模型输出的预测结果；根据各训练样本的标注与所述语言模型输出的预测结果，调整所述语言模型中的模型参数，所述语言模型用于进行知识挖掘。2.如权利要求1所述的方法，其特征在于，所述目标领域相关的第一文本数据集至少包含目标领域相关的百科数据以及历史上的用户生成内容中的一种，其中，所述用户生成内容包含用户搜索数据以及用户评论数据。3.如权利要求1所述的方法，其特征在于，所述方法还包括：获取所述目标领域相关的第二文本数据集；根据已构建知识库中的各实体的实体属性，确定正则匹配规则，并根据所述正则匹配规则，从所述第二文本数据集的各段文本中，确定符合所述正则匹配规则的若干实体及其实体属性；根据确定出的各实体，对所述已构建知识库中的实体进行更新。4.如权利要求1所述的方法，其特征在于，所述方法还包括：当处于预设训练阶段时，获取所述目标领域相关的第三文本数据集，并将所述第三文本数据集中的各段文本作为测试样本，针对每个测试样本，将该测试样本输入调整后的语言模型中，确定所述语言模型输出的预测结果；根据所述预测结果的置信度，从各测试样本中确定易错样本；根据所述易错样本及其序列标注，重新调整所述语言模型中的模型参数，直至达到预设训练指标为止。5.如权利要求4所述的方法，其特征在于，所述预测结果包含预测实体以及预测实体属性；确定易错样本之前，所述方法还包括：根据各测试样本的预测实体分别在预设的各业务维度上的业务指标，确定各预测实体的质量得分；确定质量得分超出预设得分阈值的各预测实体。6.如权利要求1所述的方法，其特征在于，所述方法还包括：获取所述目标领域相关的第四文本数据集；针对所述第四文本数据集中的每段文本，将该段文本输入训练完成的语言模型中，确定该段文本的预测结果；根...

【专利技术属性】
技术研发人员：彦虹羽，郑刚，沈亮，陈骐，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人