模型生成、语义识别的方法、系统、设备及存储介质技术方案

技术编号:22055327 阅读:40 留言:0更新日期:2019-09-07 15:16
本发明专利技术公开了一种模型生成、语义识别的方法、系统、设备及存储介质,模型生成的方法包括获取历史数据;对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数、步长和学习率。本发明专利技术提供的基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质相比于模板匹配的传统思路,更加的灵活且覆盖更多的用户,能够提升语音相关服务的用户体验和点击转化率。

Model Generation, Semantic Recognition Methods, Systems, Devices and Storage Media

【技术实现步骤摘要】
模型生成、语义识别的方法、系统、设备及存储介质
本专利技术涉及自然语言处理领域,特别涉及一种基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质。
技术介绍
语音识别和语义理解是未来互联网网站发展的一种趋势,用户对着机器说一句话,当语音转化为文字后,如何根据文字准确地把握用户意图,显得越来越重要。现有技术中采用斯坦福正则匹配模板提取语义信息,该种实现方式比较死板,只有在模板指定的话术中才可以匹配,随着应用需求的扩大,需要设计越来越多的正则模板,浪费人力,效果也不够灵活。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中语义识别采用斯坦福正则匹配模板提取语义信息的方式不够灵活,需要设计越来越多的正则模板导致人力成本高的缺陷,提供一种能够灵活地对用户语音输入信息准确提取关键信息进而实现语义识别的基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供了一种模型生成的方法,其特点在于,包括以下步骤:获取历史数据;对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所本文档来自技高网...

【技术保护点】
1.一种模型生成的方法,其特征在于,包括以下步骤:获取历史数据;对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。

【技术特征摘要】
1.一种模型生成的方法,其特征在于,包括以下步骤:获取历史数据;对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。2.如权利要求1所述的模型生成的方法,其特征在于,所述方法采用斯坦福CoreNLP对每条所述历史数据进行特征提取。3.如权利要求2所述的模型生成的方法,其特征在于,所述特征包括分词特征、词性特征和品牌专有特征;所述方法还包括预设品牌词库,所述品牌词库包括若干品牌;所述采用斯坦福CoreNLP对每条所述历史数据进行特征提取包括:采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征;采用斯坦福CoreNLP对分词后的词语进行词性标注以得到所述词性特征;根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。4.如权利要求3所述的模型生成的方法,其特征在于,所述方法还包括预设物品词库,所述方法采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。5.如权利要求4所述的模型生成的方法,其特征在于,所述方法还包括设置所述条件随机场学习算法的特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则。6.如权利要求5所述的模型生成的方法,其特征在于,所述方法还包括利用N-gram模型调试所述特征模板。7.如权利要求1至6任一项所述的模型生成的方法,其特征在于,所述条件随机场学习算法的优化实现算法采用拟牛顿法。8.一种模型生成的系统,其特征在于,包括:第一获取模块,用于获取历史数据;处理模块,用于对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;训练模块,用于采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。9.如权利要求8所述的模型生成的系统,其特征在于,所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行特征提取。10.如权利要求9所述的模型生成的系统,其特征在于,所述特征包括分词特征、词性特征和品牌专有特...

【专利技术属性】
技术研发人员:王颖帅李晓霞苗诗雨
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1