策略优化处理方法、装置、存储介质及电子装置制造方法及图纸

技术编号:32923303 阅读:13 留言:0更新日期:2022-04-07 12:14
本申请实施例提供了一种策略优化处理方法、装置、存储介质及电子装置,该方法包括:使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟,得到该多个行业类型的模拟结果;根据该蒙特卡洛算法多个行业类型的模拟结果对对应的该蒙特卡洛算法进行优化,使得该模拟结果对应的目标问答信息满足预设条件;确定该目标问答信息对应的策略为目标策略,该目标策略用于通过提供给对应行业类型的客户端,可以解决相关技术中对于不同行业类型,AI处理用户问答时采用相同的提问方式,准确性不高的问题,基于蒙特卡洛算法对知识库中的不同行业类型模拟,提高对用户问题分析的准确性,提高了AI自动回复语句的准确性。AI自动回复语句的准确性。AI自动回复语句的准确性。

【技术实现步骤摘要】
策略优化处理方法、装置、存储介质及电子装置


[0001]本申请实施例涉及通信领域,具体而言,涉及一种策略优化处理方法、装置、存储介质及电子装置。

技术介绍

[0002]人工智能(Artificial Intelligence,简称为AI)处理用户问答时,一般均采用预先设置好的提问方式,由于不同行业类型行业差异,导致准确性不高。
[0003]针对相关技术中对于不同行业类型,AI处理用户问答时采用相同的提问方式,准确性不高的问题,尚未提出解决方案。

技术实现思路

[0004]本申请实施例提供了一种策略优化处理方法、装置、存储介质及电子装置,以至少解决相关技术中对于不同行业类型,AI处理用户问答时采用相同的提问方式,准确性不高的问题。
[0005]根据本申请的一个实施例,提供了一种策略优化处理方法,包括:
[0006]使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟,得到所述多个行业类型的模拟结果;
[0007]根据所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优化,使得所述模拟结果对应的目标问答信息满足预设条件;
[0008]确定所述目标问答信息对应的策略为目标策略,所述目标策略用于提供给对应行业类型的客户端。
[0009]可选地,根据所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优化,使得所述模拟结果对应的目标问答信息满足预设条件包括:
[0010]对所述多个行业类型的问答信息使用蒙特卡洛算法进行模拟;
[0011]对于每个行业类型的问答信息,统计模拟结果;
[0012]获取所述模拟结果中模拟轮数与所述问答信息的回复质量,其中,所述回复质量通过模拟答复与标准答案的相似度确定;
[0013]若所述模拟轮数与所述问答信息的回复质量满足所述预设条件,获取对应的所述目标问答信息。
[0014]可选地,在若所述模拟轮数与所述问答信息的回复质量满足所述预设条件,获取对应的所述目标问答信息之前,所述方法还包括:
[0015]判断所述模拟轮数是否大于预设次数,并判断所述问答信息的回复质量是否大于预设阈值;
[0016]在判断结果均为是的情况下,确定所述模拟轮数与所述问答信息的回复质量满足所述预设条件。
[0017]可选地,使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟,得到
所述多个行业类型的模拟结果包括:
[0018]对所述多个行业类型的问答信息中的每个行业类型的问答信息执行以下步骤,对于正在执行的行业类型称为当前行业类型:
[0019]对所述当前行业类型的问答信息,随机选取一个状态行为对,其中,所述状态对应行业类型对应,所述行为对应所述问答信息;
[0020]基于当前蒙特卡洛算法从选取的所述状态行为对开始模拟遍历语义样本,以获取所述状态对应的多个行为,将所述多个行为生成一段序列;
[0021]根据价值函数统计所述序列上所述多个行为的价值;
[0022]根据所述多个行为的价值对所述价值函数进行更新,得到更新后的价值函数;
[0023]使用所述更新后的价值函数对所述当前蒙特卡洛算法进行优化处理,得到优化后的蒙特卡洛算法;
[0024]通过多轮模拟得到所述当前行业类型的模拟结果。
[0025]可选地,根据所述多个行为的价值对所述价值函数进行更新,得到更新后的价值函数包括:
[0026]确定所述多个行为的价值的平均值;
[0027]根据所述平均值更新所述价值函数,得到所述更新后的价值函数。
[0028]可选地,对所述当前行业类型的问答信息,随机选取一个状态行为对包括:
[0029]确定所述当前行业类型的问答信息中每个状态行为对的价值;
[0030]确定所述价值中最大值对应的目标状态行为对;
[0031]从所述语义样本中除所述目标状态行为对之外的状态行为对中随机选取一个状态行为对。
[0032]可选地,从所述语义样本中除所述目标状态行为对之外的状态行为对中随机选取一个状态行为对包括:
[0033]为所述当前行业类型的问答信息中的每个状态行为对设置一个0

1之间的概率参数ε;
[0034]在1

ε的概率下从所述当前行业类型的问答信息中除所述目标状态行为对之外的状态行为对中随机选取一个状态行为对。
[0035]根据本申请的另一个实施例,还提供了一种策略优化处理装置,包括:
[0036]模拟模块,用于使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟,得到所述多个行业类型的模拟结果;
[0037]优化模块,用于根据所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优化,使得所述模拟结果对应的目标问答信息满足预设条件;
[0038]确定模块,用于确定所述目标问答信息对应的策略为目标策略,所述目标策略用于提供给对应行业类型的客户端。
[0039]可选地,所述优化模块包括:
[0040]模拟子模块,用于对所述多个行业类型的问答信息使用蒙特卡洛算法进行模拟;
[0041]统计子模块,用于对于每个行业类型的问答信息,统计模拟结果;
[0042]第一获取子模块,用于获取所述模拟结果中模拟轮数与所述问答信息的回复质量,其中,所述回复质量通过模拟答复与标准答案的相似度确定;
[0043]第二获取子模块,用于若所述模拟轮数与所述问答信息的回复质量满足所述预设条件,获取对应的所述目标问答信息。
[0044]可选地,所述装置还包括:
[0045]判断子模块,有一天判断所述模拟轮数是否大于预设次数,并判断所述问答信息的回复质量是否大于预设阈值;
[0046]确定子模块,用于在判断结果均为是的情况下,确定所述模拟轮数与所述问答信息的回复质量满足所述预设条件。
[0047]可选地,所述模拟模块包括:
[0048]执行子模块,用于对所述多个行业类型的问答信息中的每个行业类型的问答信息执行以下步骤,对于正在执行的行业类型称为当前行业类型:
[0049]对所述当前行业类型的问答信息,随机选取一个状态行为对,其中,所述状态对应行业类型对应,所述行为对应所述问答信息;
[0050]基于当前蒙特卡洛算法从选取的所述状态行为对开始模拟遍历语义样本,以获取所述状态对应的多个行为,将所述多个行为生成一段序列;
[0051]根据价值函数统计所述序列上所述多个行为的价值;
[0052]根据所述多个行为的价值对所述价值函数进行更新,得到更新后的价值函数;
[0053]使用所述更新后的价值函数对所述当前蒙特卡洛算法进行优化处理,得到优化后的蒙特卡洛算法;
[0054]通过多轮模拟得到所述当前行业类型的模拟结果。
[0055]可选地,所述执行子模块,还用于:
[0056]确定所述多个行为的价值的平均值;
...

【技术保护点】

【技术特征摘要】
1.一种策略优化处理方法,其特征在于,包括:使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟,得到所述多个行业类型的模拟结果;根据所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优化,使得所述模拟结果对应的目标问答信息满足预设条件;确定所述目标问答信息对应的策略为目标策略,其中,所述目标策略用于提供给对应行业类型的客户端。2.根据权利要求1所述的方法,其特征在于,根据所述多个行业类型的模拟结果对对应的所述蒙特卡洛算法进行优化,使得所述模拟结果对应的目标问答信息满足预设条件包括:对所述多个行业类型的问答信息使用蒙特卡洛算法进行模拟;对于每个行业类型的问答信息,统计模拟结果;获取所述模拟结果中模拟轮数与所述问答信息的回复质量,其中,所述回复质量通过模拟答复与标准答案的相似度确定;若所述模拟轮数与所述问答信息的回复质量满足所述预设条件,获取对应的所述目标问答信息。3.根据权利要求2所述的方法,其特征在于,在若所述模拟轮数与所述问答信息的回复质量满足所述预设条件,获取对应的所述目标问答信息之前,所述方法还包括:判断所述模拟轮数是否大于预设次数,并判断所述问答信息的回复质量是否大于预设阈值;在判断结果均为是的情况下,确定所述模拟轮数与所述问答信息的回复质量满足所述预设条件。4.根据权利要求1所述的方法,其特征在于,使用蒙特卡洛算法对知识库中多个行业类型的问答信息进行模拟,得到所述多个行业类型的模拟结果包括:对所述多个行业类型的问答信息中的每个行业类型的问答信息执行以下步骤,对于正在执行的行业类型称为当前行业类型:对所述当前行业类型的问答信息,随机选取一个状态行为对,其中,所述状态对应行业类型对应,所述行为对应所述问答信息;基于当前蒙特卡洛算法从选取的所述状态行为对开始模拟遍历语义样本,以获取所述状态对应的多个行为,将所述多个行为生成一段序列;根据价值函数统计所述序列上所述多个行为的价值;根据所述多个行为的价值对所述价值函数进行更新,得到更新后的价值函数;...

【专利技术属性】
技术研发人员:王乾孙科蒋艳军赵轶新
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1