问答识别效果检测方法、装置、设备及可读存储介质制造方法及图纸

技术编号:20221766 阅读:47 留言:0更新日期:2019-01-28 20:16
本公开实施例提供问答识别效果检测方法、装置、设备及可读存储介质。问答识别效果检测方法包括:根据用户提问的原始数据获取包括热词的热词集合;对所述热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词;检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值;当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例,可以对问答识别效果进行集中监控。

【技术实现步骤摘要】
问答识别效果检测方法、装置、设备及可读存储介质
本公开实施例涉及计算机
,尤其涉及问答识别效果检测方法、装置、设备及可读存储介质。
技术介绍
相关技术中的问答识别体系建设过程中,识别问答效果需要大量离线标注数据进行检查。对问答效果识别进行外包及众包标注的回收时效不佳并且质量把控沟通成本高。使用验证集回归方式受到用户描述的随意性及多变性影响,无法有效评估实际用户问答效果。线上的坏案例(Badcase)分析(逐案方式)需要运营投入大量人力且分析结论耗时久。因此,大量线上识别问答效果的问题无法被及时发现解决,影响问答用户体验。相关技术中的问答系统中的热词发现方法基于热词的波动趋势及用户反馈监控热点话题来发现潜在的业务问题或问答匹配问题。运营人员发现热门话题后对其进行浏览、归纳及分析,同时结合逐条分析热词下的用户原始问答日志,确定识别效果。相关技术的方案主要意图在于发现用户描述集中的问题,而没有对问答识别效果进行集中监控,导致长尾问题的问答识别效果无法得到有效关注。因此,亟需一种能快速、有效地进行问答识别效果检测的方法。
技术实现思路
有鉴于此,本公开第一方面提供了一种问答识别效果检测方法本文档来自技高网...

【技术保护点】
1.一种问答识别效果检测方法,其特征在于,包括:根据用户提问的原始数据获取包括热词的热词集合;对所述热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词;检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值;当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例。

【技术特征摘要】
1.一种问答识别效果检测方法,其特征在于,包括:根据用户提问的原始数据获取包括热词的热词集合;对所述热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词;检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值;当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例。2.根据权利要求1所述的方法,其特征在于,还包括:检测一个热词所关联的去重后的答案中是否包括该热词;当检测到一个热词所关联的去重后的全部答案中均不包括该热词时,确定出现答案缺失案例。3.根据权利要求1或2所述的方法,其特征在于,所述根据用户提问的原始数据获取包括热词的热词集合,包括:通过预设的新词发现算法对用户提问的原始数据进行计算以获取新词,其中,所述新词以字符为组成单元;根据预设基础词库中的基础词以及获取的新词生成分词词典,并且利用所述分词词典对用户提问进行分词以得到提问分词结果;通过预设的短语发现算法对所述分词结果进行计算以获取短语,其中,所述短语以分词后得到的单词为组成单元;根据预设热度算法计算所述短语的热度,并将热度大于预设热度阈值的短语确定为热词。4.根据权利要求3所述的方法,其特征在于,所述通过预设的新词发现算法对用户提问的原始数据进行计算以获取新词,包括:通过预设的新词发现算法对用户提问的原始数据中的字符串的自由度和凝固度进行计算,并以通过预设新词阈值对所述字符串进行限制以获取新词。5.根据权利要求4所述的方法,其特征在于,所述通过预设的短语发现算法对所述分词结果进行计算以获取短语,包括:通过预设的短语发现算法对所述分词结果中的单词的自由度和凝固度进行计算,并以通过预设短语阈值对所述单词进行限制以获取短语。6.根据权利要求1所述的方法,其特征在于,所述对所述热词集合中的热词进行排序以及筛选以确定热点提问,包括:根据热词的时间段分布、热词的入口多样性分布和对热词的周期性分析,对热词结果进行排序及筛选,以确定热点提问。7.根据权利要求1所述的方法,其特征在于,所述将热词与用户反馈和答案信息进行关联,包括:以热词为维度建立倒排索引,将热词与用户反馈和答案信息进行关联。8.根据权利要求1所述的方法,其特征在于,所述针对热词获得该热词所关联的答案分布,包括:以单个热词为单位对热词所关联的提问与答案对进行分析以获得该热词所关联的答案分布。9.根据权利要求1所述的方法,其特征在于,所述针对答案获得该答案所关联的热词,包括:以单个答案为单位对与该答案对应的用户提问进行热词聚类以获得该答案所关联的热词。10.一种问答识别效果检测装置,其特征在于,包括:热词获取模块,被配置为根据用户提问的原始数据获取包括热词的热词集合;问答关联模块,被配置为对所述热词集合中的热词进行排序以及筛选以确定热点提问,并且将热...

【专利技术属性】
技术研发人员:毛德峰张云
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1