一种数据处理方法、装置、设备及介质制造方法及图纸

技术编号:33999434 阅读:26 留言:0更新日期:2022-07-02 11:45
本发明专利技术公开了一种数据处理方法、装置、设备及介质,用以解决现有确定的智能问答系统的评价指标不准确,影响了后续对智能问答系统的优化的问题。由于本发明专利技术实施例中在确定智能问答系统的评价指标之前,会预先统计每个目标数据中所包含的输入问句被输入到智能问答系统的频次,使得后续可以根据目标数据对应的标签以及目标数据所包含的输入问句的频次,确定智能问答系统的评价指标,使得该评价指标更准确,更能体现该智能问答系统在实际应用场景中的实际使用效果,进而有利于后续根据该评价指标、目标数据以及目标数据对应的标签,对智能问答系统进行优化。问答系统进行优化。问答系统进行优化。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及介质


[0001]本专利技术涉及大数据
,尤其涉及一种数据处理方法、装置、设备及介质。

技术介绍

[0002]现有技术中,可以通过智能问答系统,高效地为用户想要咨询的问题提供答案。为了进一步地提高智能问答系统的性能以及回答用户的问题的准确性,需要定时对线上正在应用的智能问答系统的实际使用效果进行评估,并根据评估的实际使用效果,对智能问答系统进行优化。
[0003]目前,可以基于智能问答系统的日志数据,确定智能问答系统的评价指标,后续基于智能问答系统的日志数据以及评价指标,对智能问答系统进行优化。对于该方法,由于是根据去重后的目标数据对应的标签,该标签用于标识目标数据包括的输入问句与通过智能问答系统确定的该输入问句对应的标准问句是否语义相似,确定该智能问答系统的评价指标的,该评价指标会不准确,无法体现智能问答系统的实际使用效果,影响了后续地对智能问答系统的优化。比如,去重后的目标数据分别为Q3、Q2、Q1,Q3对应的标签为匹配,Q2对应的标签为不匹配,Q1对应的标签为不匹配,而实际使用过程中,该目标数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:从日志数据中抽取预设的第一数量的目标数据,所述日志数据包括输入到智能问答系统的输入问句、以及通过所述智能问答系统确定的所述输入问句对应的标准问句;根据所述目标数据对应的标签、以及所述目标数据所包含的输入问句的频次,确定所述智能问答系统的评价指标;其中,所述目标数据对应的标签用于标识所述目标数据中包括的输入问句与所述目标数据中包括的标准问句是否匹配,所述输入问句的频次为所述输入问句在设定时间段内被输入到所述智能问答系统的次数;根据所述评价指标、所述目标数据、及所述目标数据对应的标签,对所述智能问答系统进行优化。2.根据权利要求1所述的方法,其特征在于,所述从日志数据中抽取预设的第一数量的目标数据,包括:通过简单随机抽样方法,从获取的所述日志数据中抽取所述第一数量的目标数据;或基于统计的所述日志数据所包含的输入问句的频次,从日志数据中抽取所述第一数量的目标数据。3.根据权利要求2所述的方法,其特征在于,所述基于统计的所述日志数据所包含的输入问句的频次,从日志数据中抽取所述第一数量的目标数据,包括:根据所述第一数量以及预设的第二数量,确定频次区间数量,所述第二数量标识在任一频次区间抽取的目标数据的数量;根据所述日志数据所包含的输入问句的频次、以及所述频次区间数量,确定各所述频次区间,以及各所述频次区间分别对应的第一输入问句集合;针对各所述频次区间,从该频次区间对应的第一输入问句集合中抽取所述第二数量的第二日志数据确定为目标数据;或者针对每个所述日志数据,根据该日志数据所包含的输入问句的频次、以及根据每个所述日志数据所包含的输入问句的频次确定的第一总频次,确定该日志数据的概率值;根据所述概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述概率值、以及已获取到的目标数据的数量,确定该日志数据是否为目标数据,包括:从预先配置的数值范围内确定任一随机值;若所述随机值小于所述概率值、且已获取到的目标数据的数量小于所述第一数量,确定该日志数据为所述目标数据;否则,确定该日志数据不为所述目标数据。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一数量以及预设的第二数量,确定频次区间数量,包括:针对每种日志数据分类,根据预先配置的该分类对应的比例、以及所述第一数量,确定第三数量...

【专利技术属性】
技术研发人员:张文君蒋卓李腾飞赵炯汪庆辉
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1