【技术实现步骤摘要】
用于对话平台的评测方法和评测装置
本专利技术涉及人工智能
,具体地涉及一种用于对话平台的评测方法和用于对话平台的评测装置。
技术介绍
目前有很多公司都在研发对话平台,对话平台即理解与交互技术平台。对话平台可以提供对话模型,而对话平台的主要职责就是负责意图和槽位的解析。例如,用户向对话平台提供的对话模型提问“北京今天天气怎么样”,对话平台会解析出用户的意图(intent)是“查询天气”,槽位(slot)有“时间(time)”是“今天”,“地点(local)”是“北京”,对话平台再通过调用第三方api接口、查询数据库或者通过其他操作返回最终的结果,比如可以返回“北京今天晴”。现已开放的主流对话平台有很多,例如百度的unit平台、Google的api.ai平台、Facebook的wit平台、Microsoft的lusi平台以及科大讯飞的AIUI等等,但是这些对话平台的性能和提供的对话模型的效果对于用户来说都是未知的。目前,只能通过人工使用对话平台进行效果评测,而人工评测具有成本高和效率低的缺点。另外,人工评测的评测维度单一,而用户对对话平台的关注点又不仅局限于平台 ...
【技术保护点】
1.一种用于对话平台的评测方法,其特征在于,所述评测方法包括:选择对所述对话平台的性能进行评测的指标;确定所选择的指标对应的实际参数值;以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分,所述指标为以下中的一者或多者:对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时。
【技术特征摘要】
1.一种用于对话平台的评测方法,其特征在于,所述评测方法包括:选择对所述对话平台的性能进行评测的指标;确定所选择的指标对应的实际参数值;以及根据所述实际参数值与相应预设参数值的比较结果确定所选择的指标的评分,所述指标为以下中的一者或多者:对话平台建立可用模型的耗时、可用模型对输入的query的解析效果、可用模型的理解能力、可用模型的稳定性和可用模型返回query的平均耗时。2.根据权利要求1所述的评测方法,其特征在于,所述评测方法还包括:在所选择的指标为多个指标的情况下,根据所选择的指标的预设权重值和所选择的指标的评分结果确定所述对话平台的综合评分。3.根据权利要求1所述的评测方法,其特征在于,选择根据对话平台建立可用模型的耗时对所述对话平台的性能进行评测包括:根据建立可用模型的训练数据上传时间,可用模型训练时间、可用模型的意图和槽位的确定时间以及可用模型的模型启动时间确定所述对话平台建立可用模型的耗时。4.根据权利要求1所述的评测方法,其特征在于,选择根据可用模型对输入的query的解析效果对所述对话平台的性能进行评测包括:针对单轮对话,根据以下参数确定所述可用模型对输入的query的解析效果:整体准确率、整体召回率、意图准确率、以及意图召回率;针对多轮对话,根据以下参数确定所述可用模型对输入的query的解析效果:整体准确率、整体召回率、意图准确率、意图召回率、对话整体召回正确平均轮数、以及对话意图召回正确平均轮数。5.根据权利要求1所述的评测方法,其特征在于,选择根据可用模型的理解能力对所述对话平台的性能进行评测包括:根据意图的精细化程度和槽位的精细化程度确定所述可用模型的理解能力,其中,所述意图的精细化程度由对话平台提供的意图数量确定,所述槽位的精细化程度由对话平台提供的槽位的数量和可用模型允许输入的可配置槽位的数量确定。6.根据权利要求1所述的评测方法,其特征在于,选择根据可用模型的稳定性对所述对话平台进行评测包括:根据正常返回的query的数量占输入的总query数量的比例确定所述可用模型的稳定性。7.根据权利要求1所述的评测方法,其特征在于,选择根据可用模型返回query的平均耗时对所述对话平台进行评测包括:根据正常返回的query总耗时与正常返回的query的总数量之比确定所述可用模型返回query的平均耗时。8.根据权利要求1所述的评测方法,其特征在于,所述方法还包括:建立至少两个封闭场景的可用模型和至少一个开放场景的可用模型以对所述对话平台进行评测。9.一种用于对话平台的评测装置,其特征在于,所述评测装置包括:选择模块,用于选择对所述对话平台的性能进行测试的指标,所述指标为以下中的一者或多者:对话平台建立可用模型的耗时、可用模型对输入的query的解析...
【专利技术属性】
技术研发人员:刘伟丽,沈湘,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。