文本机器人交叉验证优化方法及装置制造方法及图纸

技术编号:26597835 阅读:10 留言:0更新日期:2020-12-04 21:20
本发明专利技术提供的文本机器人交叉验证优化方法及装置,可以从知识库存储的全量语料数据中抽取语料用于文本机器人的模型训练和测试,筛选应答错误的语料构成误判语料集,然后对误判语料集进行分类处理和原因判断,帮助开发和测试人员完成问题定位,大大缩短了问题定位需要的时间,提高了系统改进的效率。

【技术实现步骤摘要】
文本机器人交叉验证优化方法及装置
本专利技术涉及文本机器人交叉验证优化
,具体涉及文本机器人交叉验证优化方法及装置。
技术介绍
为评估专业领域文本机器人的应答效果,以往采用交叉验证的方法,将语料数据分为训练集和测试集,分别用于机器人模型训练和测试评估,依据验证结果对机器人应答效果进行打分。使用该方法能够得到机器人应答效果的整体评价,进一步改进机器人性能仍需要测试人员手工验证和查找问题。当机器人涉及专业领域覆盖的业务场景较复杂时,需要耗费大量的人力和时间成本定位问题,目前主要应用交叉验证法对文本机器人作整体评估,评估得分反映系统应答效果,当应答效果不佳时需要测试人员手工查找问题缺陷。
技术实现思路
针对现有技术中的问题,本专利技术提供一种文本机器人交叉验证优化方法及装置。为解决上述技术问题,本专利技术提供以下技术方案:本专利技术的一个方面实施例提供一种文本机器人交叉验证优化方法,包括:利用已标记预设正确答复语句的询问语句测试多个语料模型,每个应答语料模型输出对应的答复语句,所述多个语料模型是利用多组语料训练集训练机器学习模型得到,每组语料训练集包括多个问答语句对,每个问答语句对包括一询问语句和对应的一答复语句;所述问答语句对是文本机器人与客户进行信息交互产生的;比对所述预设正确答复语句与每个应答语料模型输出的答复语句,生成答复正误对照表;根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。在优选的实施例中,还包括:采集文本机器人与客户信息交互过程中的问答语句对,形成语料库。在优选的实施例中,还包括:建立所述机器学习模型。在优选的实施例中,还包括:采集文本机器人与客户进行信息交互产生的问答语句对,生成所述语料库;对所述语料库进行多次随机抽取,得到多组语料训练集。在优选的实施例中,所述根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库,包括:针对同一询问语句,若所述答复正误对照表中对应答复语句错误率高于设定阈值,将该询问语句加入误判集合;根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类;根据每个询问语句所处的分类,优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。在优选的实施例中,所述根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类,包括:若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量低于第二设定阈值,将该询问语句分类至第一类别;若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第二类别;若所述错误答复语句的数量高于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第三类别。在优选的实施例中,所述优化包括修正操作和改进操作,优化所述语料库或者所述机器学习模型的算法,包括:若所述询问语句为第一类别,补充所述询问语句对应的问答对至所述询问语句对应的语料训练集;若所述询问语句为第二类别,修正所述语料库;若所述询问语句为第三类别,修正所述机器学习模型的算法。在优选的实施例中,还包括:利用多组语料训练集训练机器学习模型,得到对应数量的应答语料模型。本专利技术另一个方面实施例提供一种文本机器人交叉验证优化装置,包括:测试模块,利用已标记预设正确答复语句的询问语句测试多个语料模型,每个应答语料模型输出对应的答复语句,所述多个语料模型是利用多组语料训练集训练机器学习模型得到,每组语料训练集包括多个问答语句对,每个问答语句对包括一询问语句和对应的一答复语句;所述问答语句对是文本机器人与客户进行信息交互产生的;比对模块,比对所述预设正确答复语句与每个应答语料模型输出的答复语句,生成答复正误对照表;优化模块,根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。在优选的实施例中,还包括:采集模块,采集文本机器人与客户信息交互过程中的问答语句对,形成语料库。在优选的实施例中,还包括:模型建立模块,建立所述机器学习模型。在优选的实施例中,还包括:语料库生成模块,采集文本机器人与客户进行信息交互产生的问答语句对,生成所述语料库;训练集生成模块,对所述语料库进行多次随机抽取,得到多组语料训练集。在优选的实施例中,所述优化模块,包括:误判集合加入单元,针对同一询问语句,若所述答复正误对照表中对应答复语句错误率高于设定阈值,将该询问语句加入误判集合;分类单元,根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类;优化单元,根据每个询问语句所处的分类,优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。在优选的实施例中,所述分类单元,包括:第一类别划分单元,若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量低于第二设定阈值,将该询问语句分类至第一类别;第二类别划分单元,若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第二类别;第三类别划分单元,若所述错误答复语句的数量高于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第三类别。在优选的实施例中,所述优化包括修正和补充,所述优化单元,包括:补充单元,补充若所述询问语句为第一类别,补充所述询问语句对应的问答对至所述询问语句对应的语料训练集;第一修正单元,若所述询问语句为第二类别,修正所述语料库;第二修正单元,若所述询问语句为第三类别,修正所述机器学习模型的算法。在优选的实施例中,还包括:训练模块,利用多组语料训练集训练机器学习模型,得到对应数量的应答语料模型。本专利技术的又一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的文本机器人交叉验证优化方法。本专利技术的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现文本机器人交叉验证优化方法。由上述技术方案可知,本专利技术提供的文本机器人交叉验证优化方法及装置,可以从知识库存储的全量语料数据中抽取语料用于文本机器人的模型训练和测试,筛选应答错误的语料构成误判语料集,然后对误判语料集进行分类处理和原因判断,帮助开发和测试人员完成问题定位,大大缩短了问题定位需要的时间,提高了系统改进的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中本文档来自技高网...

【技术保护点】
1.一种文本机器人交叉验证优化方法,其特征在于,包括:/n利用已标记预设正确答复语句的询问语句测试多个语料模型,每个应答语料模型输出对应的答复语句,所述多个语料模型是利用多组语料训练集训练机器学习模型得到,每组语料训练集包括多个问答语句对,每个问答语句对包括一询问语句和对应的一答复语句;所述问答语句对是文本机器人与客户进行信息交互产生的;/n比对所述预设正确答复语句与每个应答语料模型输出的答复语句,生成答复正误对照表;/n根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。/n

【技术特征摘要】
1.一种文本机器人交叉验证优化方法,其特征在于,包括:
利用已标记预设正确答复语句的询问语句测试多个语料模型,每个应答语料模型输出对应的答复语句,所述多个语料模型是利用多组语料训练集训练机器学习模型得到,每组语料训练集包括多个问答语句对,每个问答语句对包括一询问语句和对应的一答复语句;所述问答语句对是文本机器人与客户进行信息交互产生的;
比对所述预设正确答复语句与每个应答语料模型输出的答复语句,生成答复正误对照表;
根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。


2.根据权利要求1所述的文本机器人交叉验证优化方法,其特征在于,还包括:采集文本机器人与客户进行信息交互产生的问答语句对,生成所述语料库。


3.根据权利要求1所述的文本机器人交叉验证优化方法,其特征在于,还包括:建立所述机器学习模型。


4.根据权利要求2所述的文本机器人交叉验证优化方法,其特征在于,还包括:
对所述语料库进行多次随机抽取,得到多组语料训练集。


5.根据权利要求1所述的文本机器人交叉验证优化方法,其特征在于,所述根据所述答复正误对照表中错误答复语句的数量优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库,包括:
针对同一询问语句,若所述答复正误对照表中对应答复语句错误率高于设定阈值,将该询问语句加入误判集合;
根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类;
根据每个询问语句所处的分类,优化所述机器学习模型的算法或者优化包括所述问答语句对的语料库。


6.根据权利要求5所述的文本机器人交叉验证优化方法,其特征在于,所述根据错误答复语句的数量和同一询问语句对应的所有答复语句的数量,结合所述答复语句错误率对该询问语句进行分类,包括:
若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量低于第二设定阈值,将该询问语句分类至第一类别;
若所述错误答复语句的数量低于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第二类别;
若所述错误答复语句的数量高于第一设定阈值,并且所有答复语句的数量高于第二设定阈值,将该询问语句分类至第三类别。


7.根据权利要求6所述的文本机器人交叉验证优化方法,其特征在于,所述优化包括修正操作和改进操作,优化所述语料库或者所述机器学习模型的算法,包括:
若所述询问语句为第一类别,补充所述询问语句对应的问答对至所述询问语句对应的语料训练集;
若所述询问语句为第二类别,修正所述语料库;
若所述询问语句为第三类别,修正所述机器学习模型的算法。


8.根据权利要求1所述的文本机器人交叉验证优化方法,其特征在于,还包括:利用多组语料训练集训练机器学习模型,得到对应数量的应答语料模型。


9.一种文本机器人交叉验证优化装置,其特征在于,包括:
测试模块,利用已标记预设正确答复语句的询问语句测试多个语料模型,每个应答语料模型输出对应的答复语句,所述多个语料模型是利...

【专利技术属性】
技术研发人员:梁雨霏
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1