分类模型训练方法及装置、目标文本确定方法及装置制造方法及图纸

技术编号：29403986 阅读：38 留言：0更新日期：2021-07-23 22:42

本申请提供的所述目标文本确定方法及装置，其中，所述方法包括获取目标问题，并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本；将所述目标问题和所述至少一个初始文本输入分类模型，获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率。具体的，所述目标文本确定方法提出了一种两阶段文本检索策略，首先将目标问题输入搜索数据库，通过搜索数据库获取该目标问题对应的多个初始文本，实现第一阶段的文本粗召回，然后将第一阶段召回的初始文本，通过预先训练的分类模型进行进一步的筛选，从而在多个初始文本中筛选出与目标问题最相关的、较为准确的目标文本。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型训练方法及装置、目标文本确定方法及装置
本申请涉及人工智能领域，特别涉及一种分类模型训练方法及装置、一种目标文本确定方法及装置、一种计算设备及一种计算机可读存储介质。
技术介绍
在信息检索
，常见的文本召回方法主要包括文本匹配召回、标签召回和语义召回，其中，文本匹配召回是根据用户的问题语句(Query)中的关键词到语料库中，基于关键词的词频-逆文本频率指数(TermFrequency-InverseDocumentFrequency，TF-IDF)统计分析方法匹配最相关的文本(Doc)；标签召回是根据语料库中的文本的标签来匹配最相关的召回文本；语义召回是通过语义相似度计算与问题语句最相关的文本，而常见的语义匹配召回主要为基于表示的语义匹配，通过将用户的问题语句和文本分别表示成语义向量，然后对问题语句的语义向量和文本的语义向量进行语义相似度计算来进行匹配召回。然而，通过此种语义匹配召回方式学习出来的语义向量有局限性，问题语句和召回文本之间没有交互，也没有考虑上下文的信息，导致匹配的精度不高。因此，如何提高...

【技术保护点】
1.一种分类模型训练方法，其特征在于，包括：/n获取训练数据集合，其中，所述训练数据集合包括样本问题以及所述样本问题对应的样本答案；/n基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本，构建所述样本问题对应的训练样本；/n基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练，获得所述分类模型。/n

【技术特征摘要】
1.一种分类模型训练方法，其特征在于，包括：
获取训练数据集合，其中，所述训练数据集合包括样本问题以及所述样本问题对应的样本答案；
基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本，构建所述样本问题对应的训练样本；
基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练，获得所述分类模型。

2.根据权利要求1所述的分类模型训练方法，其特征在于，所述基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本，构建所述样本问题对应的训练样本，包括：
将所述样本问题输入搜索数据库，获得所述样本问题对应的初始样本文本；
将所述样本问题对应的样本答案与所述初始样本文本进行匹配，将匹配相似度大于等于预设相似度阈值的初始样本文本作为第一样本文本；
基于所述样本问题和所述第一样本文本，构建所述样本问题对应的正训练样本；
基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本，构建所述样本问题对应的负训练样本。

3.根据权利要求2所述的分类模型训练方法，其特征在于，所述基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本，构建所述样本问题对应的负训练样本，包括：
将所述样本问题对应的样本答案与所述初始样本文本进行匹配，将匹配相似度小于预设相似度阈值的初始样本文本作为第二样本文本；
基于所述样本问题从所述搜索数据库中，获取与所述初始样本文本不同的第三样本文本；
从与所述样本问题不同的其他样本问题对应的初始样本文本中确定第四样本文本；
基于所述样本问题，和所述第二样本文本、所述第三样本文本和/或所述第四样本文本，构建所述样本问题对应的负训练样本。

4.根据权利要求2所述的分类模型训练方法，其特征在于，所述将所述样本问题输入搜索数据库，获得所述样本问题对应的初始样本文本，包括：
将所述样本问题输入搜索数据库，获得所述样本问题对应的至少一个待筛选样本文本；
对所述样本问题进行语义分析，基于语义分析结果从所述至少一个待筛选样本文本中筛选所述样本问题对应的初始样本文本。

5.根据权利要求2所述的分类模型训练方法，其特征在于，所述基于所述样本问题和所述第一样本文本，构建所述样本问题对应的正训练样本，包括：
将所述样本问题和所述第一样本文本进行拼接；
将所述样本问题和所述第一样本文本拼接后的结果作为所述样本问题对应的正训练样本，并为所述正训练样本添加对应的第一标签。

6.根据权利要求3所述的分类模型训练方法，其特征在于，所述基于所述样本问题，和所述第二样本文本、所述第三样本文本和/或所述第四样本文本，构建所述样本问题对应的负训练样本，包括：
将所述样本问题，和所述第二样本文本、所述第三样本文本和/或所述第四样本文本进行拼接；
将所述样本问题，和和所述第二样本文本、所述第三样本文本和/或所述第四样本文本拼接后的结果作为所述样本问题对应的负训练样本，并为所述负训练样本添加对应的第二标签。

7.根据权利要求1-6任意一项所述的分类模型训练方法，其特征在于，所述分类模型包括输入层、编码层和二分类层；
相应地，所述基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练，获得所述分类模型，包括：
将所述训练样本通过所述输入层输入所述分类模型，并通过所述编码层获得所述训练样本的编码向量；
将所述训练样本的编码向量输入所述二分类层，获得所述训练样本的初始概率；
基于所述训练样本的...

【专利技术属性】
技术研发人员：戴淑敏，李长亮，李小龙，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人