基于强化学习的文本匹配训练方法及相关设备技术

技术编号:25271539 阅读:36 留言:0更新日期:2020-08-14 23:04
本申请涉及人工智能领域,本申请公开了一种基于强化学习的文本匹配训练方法及相关设备,所述方法包括:获取样本数据,将所述样本数据分成第一样本数据及第二样本数据;对所述第一样本数据及所述第二样本数据进行分词,获得第一隐向量及第二隐向量;将所述第一隐向量及所述第二隐向量分别输入预置的策略网络进行计算,获得第一词向量及第二词向量;将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本准确率,根据文本准确率调整策略网络参数,并进行下一组样本数据的训练,直至文本准确率大于预置的文本准确率阈值。通过本申请实现文本匹配的训练,可以对长文本以及语音转换中的文本进行无关信息的筛选,提高文本匹配的效率。

【技术实现步骤摘要】
基于强化学习的文本匹配训练方法及相关设备
本申请涉及人工智能领域,特别涉及一种基于强化学习的文本匹配训练方法及相关设备。
技术介绍
文本匹配是NLP(Neuro-LinguisticProgramming,神经语言程序学)中的重要任务之一,被广泛应用于搜索、对话系统。目前的文本匹配算法,主要使用两类模型。一类是基于句子表达的模型;第二类是句子交互模型。在句子表达模型中,一般使用孪生网络,将两个句子分别表示为向量,然后计算两个向量之间的距离来判别句子之间是否相似。在交互模型中,分别计算句子中词/短语之间的相似度,然后通过词和短语之间的相似度特征判断句子。为了训练这两类模型,一般需要标记语料。具体说来,就是收集一些相似的句子和不相似的句子。这两类模型在处理短书面文本时,有较好的效果。但在有些场景中,输入的文本中长度可能比较长而且包含很多无关信息。比如,随着语音技术的发展,现在很多业务支持语音输入。一般来讲,语音输入首选经过ASR(AutomaticSpeechRecognition,自动语音识别)模块转化为文本,然后再对文本进一步处理。和文本输入相比,语音输入的产生文本有较大的不同:语音输入中,用户的输入中一般包含很多口语化词汇和不相关语句。针对这类输入,目前的文本相似度模型效果都不是非常好。常规的解决方案先训练一个神经网络模型,去除输入文本中的口语词和不相关语句。但是这类方法需要较多的标记数据,成本比较高。
技术实现思路
本申请的目的在于针对现有技术的不足,提供一种基于强化学习的文本匹配训练方法及相关设备,通过对两个训练样本进行长句和短句的分词,并将分词后得到的向量分别输入策略网络进行计算,对样本中的句子和词语进行删除和保留,获得新的向量,然后将新的向量输入文本匹配模型,获得样本准确率,并将样本准确率反馈给策略网络进行参数调整,并进行下一轮样本训练,直到样本准确率达到预定要求,通过本方式实现文本匹配的训练,可以对长文本以及语音转换中的文本进行无关信息的筛选,提高文本匹配的效率。为达到上述目的,本申请的技术方案提供一种基于强化学习的文本匹配训练方法及相关设备。本申请公开了一种基于强化学习的文本匹配训练方法,包括以下步骤:获取样本数据,将所述样本数据分成多组,提取第一组样本数据,并将所述第一组样本数据分成第一样本数据及第二样本数据;对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一隐向量及第二隐向量;将所述第一隐向量及所述第二隐向量分别输入预置的策略网络进行计算,获得第一词向量及第二词向量;将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本准确率,将所述文本准确率与预置的文本准确率阈值进行比较,若文本准确率大于预设的文本准确率阈值,则结束本次训练;否则根据本次文本准确率调整策略网络参数,获得新的策略网络,并在所述新的策略网络上进行下一组样本数据的训练,直至文本准确率大于预置的文本准确率阈值。较佳地,所述对所述第一样本数据及所述第二样本数据进行分词包括:分别对所述第一样本数据及所述第二样本数据进行分句,获得第一样本数据的分句数据及第二样本数据的分句数据;分别对所述第一样本数据的分句数据及所述第二样本数据的分句数据进行分词。较佳地,所述分别对所述第一样本数据及所述第二样本数据进行分句,获得第一样本数据的分句数据及第二样本数据的分句数据包括:分别对所述第一样本数据及所述第二样本数据根据预置的分隔符进行分句,获得第一样本数据的分句数据及第二样本数据的分句数据,所述分隔符包括逗号和分号;将所述第一样本数据的分句数据与所述第一样本数据进行关联,并将所述第二样本数据的分句数据与所述第二样本数据进行关联。较佳地,所述对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一隐向量及第二隐向量包括:对所述第一样本数据及所述第二样本数据进行拷贝,得到第一样本数据副本及第二样本数据副本;对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一样本数据隐向量及第二样本数据隐向量;对所述第一样本数据副本及所述第二样本数据副本进行分句,获得第一样本数据副本分句数据及第二样本数据副本分句数据,对所述第一样本数据副本分句数据及所述第二样本数据副本分句数据进行分词,并将分词后的第一样本数据副本分句数据及第二样本数据副本分句数据分别输入预置的神经网络,获得第一样本数据副本隐向量及第二样本数据副本隐向量;根据所述第一样本数据隐向量、所述第二样本数据隐向量、所述第一样本数据副本隐向量及所述第二样本数据副本隐向量获得第一隐向量及第二隐向量。较佳地,所述根据所述第一样本数据隐向量、所述第二样本数据隐向量、所述第一样本数据副本隐向量及所述第二样本数据副本隐向量获得第一隐向量及第二隐向量包括:将所述第一样本数据隐向量与所述第一样本数据副本隐向量进行拼接,获得第一隐向量;将所述第二样本数据隐向量与所述第二样本数据副本隐向量进行拼接,获得第二隐向量。较佳地,所述将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本准确率包括:依次将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本相似性;若所述文本相似性与预置的相似性标签匹配,则对文本准确次数进行累计;根据所述文本准确累计次数、所述第一词向量及所述第二词向量总数获得文本准确率。较佳地,所述根据本次文本准确率调整策略网络参数,获得新的策略网络包括:根据公式调整策略网络参数θ,获得新的策略网络,其中,N为样本数目,t为步骤计数,πθ(at|st)为策略网络的输出,at是t时刻的动作,st是t时刻的隐向量,γ是衰减因子,r是文本准确率。本申请还公开了一种基于强化学习的文本匹配训练装置,所述装置包括:获取模块,用于获取样本数据,将所述样本数据分成多组,提取第一组样本数据,并将所述第一组样本数据分成第一样本数据及第二样本数据;分词模块,用于对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一隐向量及第二隐向量;计算模块,用于将所述第一隐向量及所述第二隐向量分别输入预置的策略网络进行计算,获得第一词向量及第二词向量;训练模块,用于将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本准确率,将所述文本准确率与预置的文本准确率阈值进行比较,若文本准确率大于预设的文本准确率阈值,则结束本次训练;否则根据本次文本准确率调整策略网络参数,获得新的策略网络,并在所述新的策略网络上进行下一组样本数据的训练,直至文本准确率大于预置的文本准确率阈值。本申请还公开了一种基于强化学习的文本匹配训练设备,所述基于强化学习本文档来自技高网...

【技术保护点】
1.一种基于强化学习的文本匹配训练方法,其特征在于,所述基于强化学习的文本匹配训练方法包括:/n获取样本数据,将所述样本数据分成多组,提取第一组样本数据,并将所述第一组样本数据分成第一样本数据及第二样本数据;/n对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一隐向量及第二隐向量;/n将所述第一隐向量及所述第二隐向量分别输入预置的策略网络进行计算,获得第一词向量及第二词向量;/n将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本准确率,将所述文本准确率与预置的文本准确率阈值进行比较,若文本准确率大于预设的文本准确率阈值,则结束本次训练;否则根据本次文本准确率调整策略网络参数,获得新的策略网络,并在所述新的策略网络上进行下一组样本数据的训练,直至文本准确率大于预置的文本准确率阈值。/n

【技术特征摘要】
1.一种基于强化学习的文本匹配训练方法,其特征在于,所述基于强化学习的文本匹配训练方法包括:
获取样本数据,将所述样本数据分成多组,提取第一组样本数据,并将所述第一组样本数据分成第一样本数据及第二样本数据;
对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一隐向量及第二隐向量;
将所述第一隐向量及所述第二隐向量分别输入预置的策略网络进行计算,获得第一词向量及第二词向量;
将所述第一词向量及所述第二词向量同时输入预置文本匹配模型,获得文本准确率,将所述文本准确率与预置的文本准确率阈值进行比较,若文本准确率大于预设的文本准确率阈值,则结束本次训练;否则根据本次文本准确率调整策略网络参数,获得新的策略网络,并在所述新的策略网络上进行下一组样本数据的训练,直至文本准确率大于预置的文本准确率阈值。


2.如权利要求1所述的基于强化学习的文本匹配训练方法,其特征在于,所述对所述第一样本数据及所述第二样本数据进行分词包括:
分别对所述第一样本数据及所述第二样本数据进行分句,获得第一样本数据的分句数据及第二样本数据的分句数据;
分别对所述第一样本数据的分句数据及所述第二样本数据的分句数据进行分词。


3.如权利要求2所述的基于强化学习的文本匹配训练方法,其特征在于,所述分别对所述第一样本数据及所述第二样本数据进行分句,获得第一样本数据的分句数据及第二样本数据的分句数据包括:
分别对所述第一样本数据及所述第二样本数据根据预置的分隔符进行分句,获得第一样本数据的分句数据及第二样本数据的分句数据,所述分隔符包括逗号和分号;
将所述第一样本数据的分句数据与所述第一样本数据进行关联,并将所述第二样本数据的分句数据与所述第二样本数据进行关联。


4.如权利要求3所述的基于强化学习的文本匹配训练方法,其特征在于,所述对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一隐向量及第二隐向量包括:
对所述第一样本数据及所述第二样本数据进行拷贝,得到第一样本数据副本及第二样本数据副本;
对所述第一样本数据及所述第二样本数据进行分词,将分词后的第一样本数据及第二样本数据分别输入预置的神经网络,获得第一样本数据隐向量及第二样本数据隐向量;
对所述第一样本数据副本及所述第二样本数据副本进行分句,获得第一样本数据副本分句数据及第二样本数据副本分句数据,对所述第一样本数据副本分句数据及所述第二样本数据副本分句数据进行分词,并将分词后的第一样本数据副本分句数据及第二样本数据副本分句数据分别输入预置的神经网络,获得第一样本数据副本隐向量及第二样本数据副本隐向量;
根据所述第一样本数据隐向量、所述第二样本数据隐向量、所述第一样本数据副本隐向量及所述第二样本数据副本隐向量获得第一隐向量及第二隐向量。

【专利技术属性】
技术研发人员:周凯捷
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1