【技术实现步骤摘要】
模型预训练方法、装置和文本分析方法、装置及存储介质
[0001]本公开涉及机器学习
,特别是一种模型预训练方法、装置和文本分析方法、装置及存储介质。
技术介绍
[0002]语义相似性的深度学习(Deep learning for Semantic similarity)在很多重要场景都有应用价值,比如检索系统、智能问答中用做语义召回或者精排特征,基于BERT的语义相似度分析技术是相关技术中广泛采用的方式,在工业界语义检索和智能问答占有重要地位。
[0003]基于BERT模型结构的预训练方式,对增强下游任务型模型效果起着至关重要的作用。尤其是在工业界,工作中产生大量技术和业务相关文档知识,以及对应的技术标准库等,对于这些知识的搜索以及基于技术文档的智能问答需要大量语义标签,而工业界构建大量语义标签成本较大,专业词汇以及保密性的限制。
技术实现思路
[0004]本公开的一个目的在于避免对于人工标注的数据的依赖,提高模型训练的准确度和效率。
[0005]根据本公开的一些实施例的一个方面,提出一 ...
【技术保护点】
【技术特征摘要】
1.一种模型预训练方法,包括:获取文本中的初始语句对应的获取匹配语句;根据预定短语掩盖策略,分别在所述初始语句和所述匹配语句中掩盖短语,获取训练数据;根据所述训练数据和BERT模型,获取所述预设BERT模型输出的第一编码,并根据所述第一编码和卷积编码器获取第一向量表示;根据所述第一编码和正态分布,获取噪声编码,并根据所述噪声编码和所述卷积编码器,获取第二向量表示;基于解码器对所述噪声编码进行解码,获取第二编码,并根据所述第一向量表示和所述第二向量表示,确定第一损失值;根据所述第一编码和所述第二编码获取第三编码,确定所述第三编码中的每个元素位置的词汇概率和预测损失值,获取第二损失值;通过判别器判断所述第三编码中编码的种类,并确定第三损失值;根据所述第一损失值、所述第二损失值和所述第三损失值调节目标模型的参数,直至训练完成,其中,所述目标模型包括所述BERT模型、卷积编码器、解码器和所述判别器。2.根据权利要求1所述的方法,其中,所述根据预定短语掩盖策略,分别在所述初始语句和所述匹配语句中掩盖短语,获取训练数据包括:确定所述初始语句和对应的所述匹配语句的相同短语和不同短语;分别在所述初始语句和所述匹配语句中,将预定第一比例的所述相同短语掩盖,将预定第二比例的不同短语掩盖,获取训练数据,其中,所述初始语句和所述匹配语句中被掩盖的所述相同短语相同。3.根据权利要求1所述的方法,其中,所述获取文本中的初始语句对应的获取匹配语句包括:通过文本分割预定文本,获取第一语句集合,所述第一语句结合中包含所述预定文本的多个初始语句;根据预定文本搜索工具,获取每个所述初始语句的预定第一数量的相似语句,所述预定第一数量大于1;根据所述初始语句和对应的所述相似语句,基于语义相似度在所述相似语句中确定匹配语句。4.根据权利要求3所述的方法,其中,所述根据预定文本搜索工具,获取每个所述初始语句的预定第一数量的相似语句包括:基于预定搜索引擎,根据所述初始语句获取相似语句集合;根据所述相似语句集合中的语句的相似率从高到低的顺序,获取预定第一数量的相似语句,确定第二集合,所述第二集合中包含所述初始语句、所述相似语句,以及每个所述初始语句与所述相似语句的对应关系;所述根据所述初始语句和对应的所述相似语句,基于语义相似度在所述相似语句中确定匹配语句包括:根据所述第二集合和词语向量转换算法,获取所述第二集合中语句的向量;
根据所述初始语句的向量与对应的相似语句的向量之间的余弦距离,确定最相似的相似语句作为所述匹配语句。5.根据权利要求1所述的方法,其中,所述第一编码中包含所述训练数据中掩盖后的初始语句的编码,和所述训练数据中掩盖后的匹配语句的编码。6.根据权利要求1所述的方法,其中,所述第三编码中所述第一编码占预定第三比例,所述第二编码占预定第四比例,所述预定第三比例与所述预定第四比例之和为1。7.根据权利要求1所述的方法,其中,所述确定所述第三编码中的每个元素位置的词汇概率和预测损失值,获取第二损失值包括:根据非掩盖的元素位置的预测损失值和预定第一权重获取非掩盖损失值;根据掩盖的元素位置的预测损失值和预定第二权重获取掩盖损失值;根据所述非掩盖损失值和所述掩盖损失值获取所述第二损失值。8.根据权利要求1所述的方法,其中,所述确定第三...
【专利技术属性】
技术研发人员:伍佳伟,陈明威,李想,
申请(专利权)人:江苏徐工国重实验室科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。