一种智能语义匹配模型的训练方法技术

技术编号:21574168 阅读:47 留言:0更新日期:2019-07-10 16:06
本发明专利技术涉及一种智能语义匹配模型的训练方法,所述方法包括:语义处理系统中的语义匹配模型接收语句训练样本数据;语句训练样本数据对应有训练领域信息和样本标注信息;根据训练领域信息对语句训练样本数据进行句式泛化处理,提取语句训练样本数据中的固定语信息和泛化对象信息;对比语句训练样本数据中的固定语信息与样本标注信息中的固定语信息,并对比语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息,根据对比结果更新语义匹配模型;根据语义匹配模型生成语法规则树。

A Training Method of Intelligent Semantic Matching Model

【技术实现步骤摘要】
一种智能语义匹配模型的训练方法
本专利技术涉及数据处理
,尤其涉及一种智能语义匹配模型的训练方法。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满挑战的。同时,语言模型(LanguageModel,LM)的建立和训练时自然语言处理中非常重要的组成部分。语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种数字化的对应关系。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系,语言客观事实经过语言模型的描述,可以实现与电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供一种智能语义匹配模型的训练方法,根据的训练领域信息对比语义匹配模型提取语句匹配样本数据中的固定语信息和泛化对象信息,与标准固定语信息和标准泛化对象信息,对语义匹配模型额提取结果进行修正,从而实现语义匹配模型的学习和训练,进而形成用于语义匹配的语法规则树,使得所生成语法规则树更加合理。为实现上述目的,本专利技术提供了一种智能语义匹配模型的训练方法,所述方法包括:语义处理系统中的语义匹配模型接收语句训练样本数据;所述语句训练样本数据对应有训练领域信息和样本标注信息;根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理,提取所述语句训练样本数据中的固定语信息和泛化对象信息;对比所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息,并对比所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息,根据对比结果更新所述语义匹配模型;根据所述语义匹配模型生成语法规则树。优选的,在所述语义匹配模型接收语句训练样本数据之前,所述方法还包括:所述语义处理系统中的语音转换器接收所述语句语音数据,对所述语句语音数据进行语音识别后,得到所述语句训练样本数据。优选的,所述语义处理系统中包括多个语义匹配模型;每个所述语义匹配模型对应一个所述训练领域信息。进一步优选的,所述根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理具体为:根据所述语句训练样本数据对应的训练领域信息确定相应的语义匹配模型;通过当前语义匹配模型对所述语句训练样本数据进行句式泛化处理,提取所述语句训练样本数据中的固定语信息和泛化对象信息。优选的,在对比所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息,并对比所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息,根据对比结果更新所述语义匹配模型具体为:当所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息不相符,或者当所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息不相符时,根据所述样本标注信息中的固定语信息和泛化对象信息更新所述语义匹配模型。进一步优选的,当所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息相符,并且所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息相符时,所述方法还包括:记录并更新匹配正确结果的个数;当所述匹配正确结果的个数大于预设数量时,根据所述语义匹配模型生成所述语法规则树。进一步优选的,在所述根据所述语义匹配模型生成所述语法规则树之前,所述方法还包括:记录并更新匹配错误结果的个数;根据所述匹配错误结果的个数和所述匹配正确结果的个数得到匹配成功率。进一步优选的,当所述匹配正确结果的个数大于预设数量个,且所述匹配成功率大于预设百分比时,根据所述语义匹配模型生成所述语法规则树。本专利技术实施例提供的智能语义匹配模型的训练方法,根据的训练领域信息对比语义匹配模型提取语句匹配样本数据中的固定语信息和泛化对象信息,与标准固定语信息和标准泛化对象信息,对语义匹配模型额提取结果进行修正,从而实现语义匹配模型的学习和训练,进而形成用于语义匹配的语法规则树,使得所生成语法规则树更加合理。附图说明图1为本专利技术实施例提供的智能语义匹配模型的训练方法的流程图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。本专利技术实施例提供的一种智能语义匹配模型的训练方法,用于语义处理系统根据被训练的语义匹配模型得到语法规则树,从而根据语法规则树对用户输入的内容进行语义匹配。其方法流程图如图1所示,包括如下步骤:步骤110,语义处理系统接收语句训练样本数据;具体的,语义处理系统可以理解为一个具有语句输入、处理和输出功能的系统。语义处理系统包括多个语义匹配模型,语义匹配模型用于接收并训练语句训练样本数据,从而得到语法规则树。每个语义匹配模型对应一个所述训练领域信息。训练领域信息可以理解为当前语句训练样本所属的应用领域,应用领域可以包括“生活周边”应用领域、“笑话故事”应用领域、“听歌”应用领域、“健康”应用领域、“购票”应用领域等。在一些优选的实施例中,语句训练样本数据的数据源可以是语音形式的数据也可以是文字形式的数据。也就是说,用户可以通过语音或文字的方式向系统输入语句训练样本数据。当语句训练样本数据为语音形式的数据时,语义处理系统中的语音转换器接收语句数据,对语句数据中的语句语音数据进行语音识别,然后得到文字形式的语句训练样本数据。语句训练样本数据对应有训练领域信息和样本标注信息。样本标注信息可以理解为当前语句训练样本数据所代表的语句中的正确的语义主干。样本标注信息中包括固定语信息和泛化对象信息。例如,在一个“我想去电影院”的语句训练样本数据中,样本标注信息中的固定语信息为“我想去”,样本标注信息中的泛化对象信息为“电影院”,对应的训练领域信息为“生活周边”应用领域;再如,在一个“我想买电影票”的语句训练样本数据中,样本标注信息中的固定语信息为“我想买”,样本标注信息中的泛化对象信息为“电影票”,对应的训练领域信息为“购票”应用领域。步骤120,根据训练领域信息对语句训练样本数据进行句式泛化处理,提取语句训练样本数据中的固定语信息和泛化对象信息;具体的,句式泛化处理可以理解为通过一个语句扩展到多种语句的表达形式,并提取语句中关键要素的过程。语义匹配模型首先根据语句训练样本数据对应的训练领域信息确定与该训练领域信息相应的语义匹配模型,然后通过与当前语句训练样本数据具有相同训练领域信息的语义匹配模型对当前语句训练样本数据进行句式泛化处理,提取语句训练样本数据中的固定语信息和泛化对象信息。在一个具体的例子中,语句训练样本数据为“我想去电影院”,语句训练样本数据对应的训练领域信息为“生活周边”应用领域,则语义处理系统选择训练领域信息为“生活周边”的语义匹配模型对该语句训练样本数据进行句式泛化处理。再如,语句训练样本数据为“我想买电影票”,语句训练样本数据对应的训练领域信息为“购票”应用领域,则语义处理系统选择训练领域信息为“购票”的语义匹配模型对该语句训练样本数据进行句式泛化处理。步骤130,将提取到的固定语信息和泛化对象信息与样本标注信息进行对比,确定对比结果是否为第一对比结果;具体的,语义匹配模型对比语句训练样本数据中的固定语信息与样本标注信息中的固定语信息,并对比语句训练样本数据中的泛化对象信息与样本文档来自技高网...

【技术保护点】
1.一种智能语义匹配模型的训练方法,其特征在于,所述方法包括:语义处理系统中的语义匹配模型接收语句训练样本数据;所述语句训练样本数据对应有训练领域信息和样本标注信息;根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理,提取所述语句训练样本数据中的固定语信息和泛化对象信息;对比所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息,并对比所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息,根据对比结果更新所述语义匹配模型;根据所述语义匹配模型生成语法规则树。

【技术特征摘要】
1.一种智能语义匹配模型的训练方法,其特征在于,所述方法包括:语义处理系统中的语义匹配模型接收语句训练样本数据;所述语句训练样本数据对应有训练领域信息和样本标注信息;根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理,提取所述语句训练样本数据中的固定语信息和泛化对象信息;对比所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息,并对比所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息,根据对比结果更新所述语义匹配模型;根据所述语义匹配模型生成语法规则树。2.根据权利要求1所述的智能语义匹配模型的训练方法,其特征在于,在所述语义匹配模型接收语句训练样本数据之前,所述方法还包括:所述语义处理系统中的语音转换器接收所述语句语音数据,对所述语句语音数据进行语音识别后,得到所述语句训练样本数据。3.根据权利要求1所述的智能语义匹配模型的训练方法,其特征在于,所述语义处理系统中包括多个语义匹配模型;每个所述语义匹配模型对应一个所述训练领域信息。4.根据权利要求3所述的智能语义匹配模型的训练方法,其特征在于,所述根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理具体为:根据所述语句训练样本数据对应的训练领域信息确定相应的语义匹配模型;通过当前语义匹配模型对所述语句训练样本数据进行句式泛化处理,提取所述语句训练样本数据中的固定语信息和泛化对象信息。5.根据权利要求1...

【专利技术属性】
技术研发人员:郝玲风赵德坤张海风
申请(专利权)人:北京博瑞彤芸文化传播股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1