分类模型训练方法及装置、目标文本确定方法及装置制造方法及图纸

技术编号:29403986 阅读:9 留言:0更新日期:2021-07-23 22:42
本申请提供的所述目标文本确定方法及装置,其中,所述方法包括获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率。具体的,所述目标文本确定方法提出了一种两阶段文本检索策略,首先将目标问题输入搜索数据库,通过搜索数据库获取该目标问题对应的多个初始文本,实现第一阶段的文本粗召回,然后将第一阶段召回的初始文本,通过预先训练的分类模型进行进一步的筛选,从而在多个初始文本中筛选出与目标问题最相关的、较为准确的目标文本。

【技术实现步骤摘要】
分类模型训练方法及装置、目标文本确定方法及装置
本申请涉及人工智能领域,特别涉及一种分类模型训练方法及装置、一种目标文本确定方法及装置、一种计算设备及一种计算机可读存储介质。
技术介绍
在信息检索
,常见的文本召回方法主要包括文本匹配召回、标签召回和语义召回,其中,文本匹配召回是根据用户的问题语句(Query)中的关键词到语料库中,基于关键词的词频-逆文本频率指数(TermFrequency-InverseDocumentFrequency,TF-IDF)统计分析方法匹配最相关的文本(Doc);标签召回是根据语料库中的文本的标签来匹配最相关的召回文本;语义召回是通过语义相似度计算与问题语句最相关的文本,而常见的语义匹配召回主要为基于表示的语义匹配,通过将用户的问题语句和文本分别表示成语义向量,然后对问题语句的语义向量和文本的语义向量进行语义相似度计算来进行匹配召回。然而,通过此种语义匹配召回方式学习出来的语义向量有局限性,问题语句和召回文本之间没有交互,也没有考虑上下文的信息,导致匹配的精度不高。因此,如何提高问题语句和召回文本之间的匹配精度,就成了亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供了一种分类模型训练方法及装置、一种目标文本确定方法及装置、一种计算设备及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种分类模型训练,包括:获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。根据本申请实施例的第二方面,提供了一种目标文本确定方法,包括:获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型上述分类模型训练方法获得;基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。根据本申请实施例的第三方面,提供了一种分类模型训练装置,包括:训练数据获取模块,被配置为获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;训练样本构建模块,被配置为基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;模型训练模块,被配置为基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。根据本申请实施例的第四方面,提供了一种目标文本确定装置,包括:问题获取模块,被配置为获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;概率获得模块,被配置为将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由上述分类模型训练方法获得;文本确定模块,被配置为基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时所述分类模型训练方法的步骤或者所述目标文本确定方法的步骤。根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述分类模型训练方法的步骤或者所述目标文本确定方法的步骤。本申请提供的所述目标文本确定方法,包括获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由上述分类模型训练方法获得;基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。具体的,所述目标文本确定方法提出了一种两阶段文本检索策略,首先将目标问题输入搜索数据库,通过搜索数据库获取该目标问题对应的多个初始文本,实现第一阶段的文本粗召回,然后将第一阶段召回的初始文本,通过预先训练的分类模型进行进一步的筛选,从而在多个初始文本中筛选出与目标问题最相关的、较为准确的目标文本。此外,在通过分类模型对第一阶段召回的初始文本进行筛选时,将目标问题与每个初始文本进行拼接输入分类模型中,分类模型会计算拼接后的文本中每一个位置上面的词向量与该文本上其他词向量之间的相似度,相当于将拼接后的文本中的词向量两两交互计算,通过参考每个词向量周围的所有位置上的词向量的特征,从而实现结合拼接后的文本的上下文语境信息,提升目标问题与初始文本的匹配精度,可以更加准确的获得目标问题对应的目标文本。附图说明图1是本申请实施例提供的计算设备的结构框图;图2是本申请实施例提供的一种语义匹配模型的训练方法的流程图;图3是本申请实施例提供的一种语义匹配模型的训练方法的另一流程图;图4是本申请实施例提供的一种语义匹配模型的训练方法的另一流程图;图5是本申请实施例提供的一种语义匹配模型的训练方法的另一流程图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。Embedding::即嵌入式表达,词嵌入是计算机处理文本必不可少的一个环节,即将输入的自然语言符号通过一个数值矩阵映射到固定长度的向量,从而将复杂的文本问题转化为数学问题。Transformer模型:一种基于注意力模型来解决序列问题的神经网络模型,该模型主要分为编码器(encoder)和解码器(decoder)两部本文档来自技高网...

【技术保护点】
1.一种分类模型训练方法,其特征在于,包括:/n获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;/n基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;/n基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。/n

【技术特征摘要】
1.一种分类模型训练方法,其特征在于,包括:
获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;
基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;
基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。


2.根据权利要求1所述的分类模型训练方法,其特征在于,所述基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本,包括:
将所述样本问题输入搜索数据库,获得所述样本问题对应的初始样本文本;
将所述样本问题对应的样本答案与所述初始样本文本进行匹配,将匹配相似度大于等于预设相似度阈值的初始样本文本作为第一样本文本;
基于所述样本问题和所述第一样本文本,构建所述样本问题对应的正训练样本;
基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本,构建所述样本问题对应的负训练样本。


3.根据权利要求2所述的分类模型训练方法,其特征在于,所述基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本,构建所述样本问题对应的负训练样本,包括:
将所述样本问题对应的样本答案与所述初始样本文本进行匹配,将匹配相似度小于预设相似度阈值的初始样本文本作为第二样本文本;
基于所述样本问题从所述搜索数据库中,获取与所述初始样本文本不同的第三样本文本;
从与所述样本问题不同的其他样本问题对应的初始样本文本中确定第四样本文本;
基于所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本,构建所述样本问题对应的负训练样本。


4.根据权利要求2所述的分类模型训练方法,其特征在于,所述将所述样本问题输入搜索数据库,获得所述样本问题对应的初始样本文本,包括:
将所述样本问题输入搜索数据库,获得所述样本问题对应的至少一个待筛选样本文本;
对所述样本问题进行语义分析,基于语义分析结果从所述至少一个待筛选样本文本中筛选所述样本问题对应的初始样本文本。


5.根据权利要求2所述的分类模型训练方法,其特征在于,所述基于所述样本问题和所述第一样本文本,构建所述样本问题对应的正训练样本,包括:
将所述样本问题和所述第一样本文本进行拼接;
将所述样本问题和所述第一样本文本拼接后的结果作为所述样本问题对应的正训练样本,并为所述正训练样本添加对应的第一标签。


6.根据权利要求3所述的分类模型训练方法,其特征在于,所述基于所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本,构建所述样本问题对应的负训练样本,包括:
将所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本进行拼接;
将所述样本问题,和和所述第二样本文本、所述第三样本文本和/或所述第四样本文本拼接后的结果作为所述样本问题对应的负训练样本,并为所述负训练样本添加对应的第二标签。


7.根据权利要求1-6任意一项所述的分类模型训练方法,其特征在于,所述分类模型包括输入层、编码层和二分类层;
相应地,所述基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型,包括:
将所述训练样本通过所述输入层输入所述分类模型,并通过所述编码层获得所述训练样本的编码向量;
将所述训练样本的编码向量输入所述二分类层,获得所述训练样本的初始概率;
基于所述训练样本的...

【专利技术属性】
技术研发人员:戴淑敏李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1