语义匹配模型训练方法、匹配方法、装置、设备及存储介质制造方法及图纸

技术编号:27250397 阅读:13 留言:0更新日期:2021-02-04 12:26
本申请涉及智能决策领域,具体公开了一种语义匹配模型训练方法、语义匹配方法、装置、设备及存储介质,所述方法包括:获取多个文本数据,并将多个文本数据保存至第一数据库;根据第一数据库中保存的文本数据训练第一匹配模型;基于第一匹配模型确定每个文本数据的句向量,并将每个文本数据的句向量保存至第二数据库;从第一数据库中保存的文本数据中选择样本数据,并基于样本数据从第一数据库中获取与样本数据对应的字面匹配文本;根据样本数据的句向量从第二数据库中获取与样本数据对应的语义匹配文本;根据样本数据、字面匹配文本和语义匹配文本,对第二匹配模型进行模型训练,并将训练完成的第二匹配模型作为语义匹配模型。将训练完成的第二匹配模型作为语义匹配模型。将训练完成的第二匹配模型作为语义匹配模型。

【技术实现步骤摘要】
语义匹配模型训练方法、匹配方法、装置、设备及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种语义匹配模型训练方法、语义匹配方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术与人工智能的发展,对于自然语言处理的研究也有了很大的进步。语音匹配作为自然语言处理中的一个重要方向已经广泛应用于搜索引擎、智能问答、知识检索以及信息流推荐等系统中。传统进行语义匹配的方法是直接从知识库中寻找匹配文本,但这种方式耗时较长,实时性不足。而在构建用于语义匹配的模型时,由于语义匹配过程较为复杂,导致语义匹配模型构建的成本较高,且训练周期长。
[0003]因此,如何自动提高训练模型的效率成为亟待解决的问题。

技术实现思路

[0004]本申请提供了一种语义匹配模型训练方法、语义匹配方法、装置、设备及存储介质,以提高训练模型的效率。
[0005]第一方面,本申请提供了一种语义匹配模型训练方法,所述方法包括:
[0006]获取多个文本数据,并将多个所述文本数据保存至第一数据库;根据所述第一数据库中保存的文本数据训练第一匹配模型;基于所述第一匹配模型确定每个所述文本数据的句向量,并将每个所述文本数据的句向量保存至第二数据库;从所述第一数据库中保存的文本数据中选择样本数据,并基于所述样本数据从所述第一数据库中获取与所述样本数据对应的字面匹配文本;根据所述样本数据的句向量从所述第二数据库中获取与所述样本数据对应的语义匹配文本;根据所述样本数据、所述字面匹配文本和所述语义匹配文本,对第二匹配模型进行模型训练,并将训练完成的所述第二匹配模型作为语义匹配模型。
[0007]第二方面,本申请提供了一种语义匹配方法,所述方法包括:
[0008]获取待查询语句,并根据所述待查询语句从第一数据库和第二数据库中获取所述待查询语句的多个匹配文本;将多个所述匹配文本输入语义匹配模型,得到目标匹配文本,其中,所述语义匹配模型为利用第一方面提供的语义匹配模型训练方法训练得到的;基于所述目标匹配文本获取与所述目标匹配文本对应的响应数据,并将所述响应数据进行输出,完成语义预测。
[0009]第三方面,本申请还提供了一种语义匹配模型训练装置,所述装置包括:
[0010]文本保存模块,用于获取多个文本数据,并将多个所述文本数据保存至第一数据库;第一训练模块,用于根据所述第一数据库中保存的文本数据训练第一匹配模型;向量保存模块,用于基于所述第一匹配模型确定每个所述文本数据的句向量,并将每个所述文本数据的句向量保存至第二数据库;字面匹配模块,用于从所述第一数据库中保存的文本数据中选择样本数据,并基于所述样本数据从所述第一数据库中获取与所述样本数据对应的字面匹配文本;语义匹配模块,用于根据所述样本数据的句向量从所述第二数据库中获取
与所述样本数据对应的语义匹配文本;第二训练模块,用于根据所述样本数据、所述字面匹配文本和所述语义匹配文本,对第二匹配模型进行模型训练,并将训练完成的所述第二匹配模型作为语义匹配模型。
[0011]第四方面,本申请还提供了一种语义匹配装置,所述装置包括:
[0012]语句获取模块,用于获取待查询语句,并根据所述待查询语句从第一数据库和第二数据库中获取所述待查询语句的多个匹配文本;目标确定模块,用于将多个所述匹配文本输入语义匹配模型,得到目标匹配文本,其中,所述语义匹配模型为利用第一方面提供的语义匹配模型训练方法训练得到的;响应输出模块,用于基于所述目标匹配文本获取与所述目标匹配文本对应的响应数据,并将所述响应数据进行输出,完成语义预测。
[0013]第五方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语义匹配模型训练方法以及语义匹配方法。
[0014]第六方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的语义匹配模型训练方法以及语义匹配方法。
[0015]本申请公开了一种语义匹配模型训练方法、语义匹配方法、装置、设备及存储介质,通过获取多个文本数据,并将文本数据保存至第一数据库,根据第一数据库中保存的文本数据训练第一匹配模型,基于第一匹配模型确定文本数据的句向量,并将文本数据的句向量保存至第二数据库。从第一数据库中保存的文本数据中选择样本数据,然后基于样本数据从第一数据库中获取与样本数据对应的字面匹配文本,并根据样本数据的句向量从第二数据库中获取与样本数据对应的语义匹配文本,最终根据样本数据、字面匹配文本和语义匹配文本训练第二匹配模型,得到语义匹配模型。通过训练第一匹配模型,得到字面匹配文本和语义匹配文本,完成对样本数据的初筛,然后根据初筛结果训练第二匹配模型,减少了第二匹配模型的训练样本数量,但提高了训练样本之间的相关性,提高语义匹配模型的训练速度。
附图说明
[0016]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的一种语义匹配模型训练方法的示意流程图;
[0018]图2是本申请实施例提供的一种语义匹配方法的示意流程图;
[0019]图3是本申请的实施例提供一种语义匹配模型训练装置的示意性框图;
[0020]图4是本申请实施例提供一种语义匹配装置的示意性框图。
[0021]图5是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申
请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0024]应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0025]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0026]本申请的实施例提供了一种语义匹配模型训练方法、装置、计算机设备及存储介质。语义匹配模型训练方法可用于自动训练语义匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义匹配模型训练方法,其特征在于,包括:获取多个文本数据,并将多个所述文本数据保存至第一数据库;根据所述第一数据库中保存的文本数据训练第一匹配模型;基于所述第一匹配模型确定每个所述文本数据的句向量,并将每个所述文本数据的句向量保存至第二数据库;从所述第一数据库中保存的文本数据中选择样本数据,并基于所述样本数据从所述第一数据库中获取与所述样本数据对应的字面匹配文本;根据所述样本数据的句向量从所述第二数据库中获取与所述样本数据对应的语义匹配文本;根据所述样本数据、所述字面匹配文本和所述语义匹配文本,对第二匹配模型进行模型训练,并将训练完成的所述第二匹配模型作为语义匹配模型。2.根据权利要求1所述的语义匹配模型训练方法,其特征在于,所述基于所述第一匹配模型确定每个所述文本数据的句向量,包括:对每个所述文本数据进行分词,得到每个所述文本数据对应的多个分词;利用所述第一匹配模型,得到每个所述文本数据对应的所述分词的词向量;根据所述文本数据对应的所述分词的词向量计算词向量平均值,将所述词向量平均值作为所述文本数据的句向量。3.根据权利要求1所述的语义匹配模型训练方法,其特征在于,所述基于所述样本数据从所述第一数据库中获取与所述样本数据对应的字面匹配文本,包括:计算所述第一数据库中保存的所述文本数据与所述样本数据的文本相似度得分;将与所述样本数据的文本相似度得分大于预设阈值的文本数据作为字面匹配文本。4.根据权利要求1所述的语义匹配模型训练方法,其特征在于,所述根据所述样本数据的句向量从所述第二数据库中获取与所述样本数据对应的语义匹配文本,包括:计算所述第二数据库中保存的所述文本数据的句向量与所述样本数据的向量相似度;根据所述向量相似度从所述第二数据库中保存的所述文本数据中选择语义匹配文本。5.根据权利要求1所述的语义匹配模型训练方法,其特征在于,所述根据所述样本数据、所述字面匹配文本和所述语义匹配文本,对第二匹配模型进行模型训练,包括:对第二匹配模型的模型参数进行随机采样,得到初始的第二匹配模型;利用所述初始的第二匹配模型计算所述字面匹配文本和所述语义匹配文本与所述样本数据的相似度;根据所述相似度对所述初始的第二匹配模型进行迭代训练,进行模型训练。6.一种语义匹配方法,其特征在于,所述方法包括:获取待...

【专利技术属性】
技术研发人员:王博锐
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1