答案质量确定模型训练方法、答案质量确定方法及装置制造方法及图纸

技术编号:20589712 阅读:59 留言:0更新日期:2019-03-16 07:24
本申请提供了一种答案质量确定模型训练方法、答案质量确定方法及装置,其中,模型训练方法包括:获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。本申请实施例能够达到确定答案质量,提高推荐答案准确率的效果。

【技术实现步骤摘要】
答案质量确定模型训练方法、答案质量确定方法及装置
本申请涉及机器学习
,具体而言,涉及一种答案质量确定模型训练方法、答案质量确定方法及装置。
技术介绍
社区问答作为一种非常流行且实用的互联网应用,为用户提供了一个发布问题和回答他人问题的平台,例如百度知道、新浪爱问、知乎等社区问答平台。人们不但可以在社区问答平台中发布问题进行提问以满足自己的信息需求,而且还可以通过社区问答平台回答其他用户提问的问题来分享自己的知识;此外用户还可以对系统所积累的问题答案库进行检索,以快速地满足自己的信息需求,等等。在实际应用中,针对同一问题可能有多个不同的答案,例如:多个人分别给出答案。而针对同一问题,答案的质量也不相同,例如:由于每个人对问题的了解程度、自身知识储备、回答态度等不同,造成答案质量也不同。为了方便用户使用,社区问答平台需要从所有的答案中筛选出一个质量和准确度较高的答案作为问题的最佳答案展示给用户。
技术实现思路
本申请实施例的目的在于提供一种答案质量确定模型训练方法、答案质量确定方法及装置,能够达到确定答案质量,提高推荐答案的准确率。第一方面,本申请实施例提供一种答案质量确定模型训练方本文档来自技高网...

【技术保护点】
1.一种答案质量确定模型训练方法,其特征在于,包括:获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。

【技术特征摘要】
1.一种答案质量确定模型训练方法,其特征在于,包括:获取样本集合,所述样本集合中包括多个样本问题分别对应的答案数据,其中,每个所述样本问题对应有至少一条所述答案数据,每个所述答案数据具有对应的质量标注信息;针对每一答案数据,获取该答案数据对应的设定数目的答案特征,构建该答案数据的特征向量;以所述答案数据的特征向量为输入、所述质量标注信息为输出,对所述答案质量确定模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述答案质量确定模型为随机森林模型,以及所述对所述答案质量确定模型进行训练包括:以所述答案数据的特征向量为输入、所述质量标注信息为输出,构建至少一个决策树,基于所述至少一个决策树,构建所述随机森林模型。3.根据权利要求1所述的方法,其特征在于,所述答案特征包括下述任意一种或者多种:所述答案数据的内容属性、提供所述答案数据的用户的评价、所述答案数据的时间属性、所述答案数据与其所归属的样本问题之间的关联度、所述答案数据与归属同一样本问题的其他答案数据之间的关联度。4.根据权利要求3所述的方法,其特征在于,针对所述答案特征包括所述答案数据的内容属性的情况:所述答案数据的内容属性包括下述任意一种或者多种:所述答案数据中的统一资源定位符标签数量、所述答案数据中图片的数量、所述答案数据中代码片段的数量、所述答案数据的长度、所述答案数据的可读性;针对所述答案特征包括提供所述答案数据的用户的评价的情况:提供所述答案数据的用户的评价包括下述任意一种或者组合:提供所述答案数据的用户回答其它问题的评分和/或投票结果、提供所述答案数据的用户提问的评分和/或投票结果;针对所述答案特征包括所述答案数据的时间属性的情况:所述答案数据的时间属性包括:所述答案数据与其对应的样本问题的创建时间差;针对所述答案特征包括所述答案数据与其所归属的样本问题之间的关联度的情况:所述答案数据与其所归属的样本问题之间的关联度包括:所述答案数据和其所归属的样本问题的相似度;针对所述答案特征包括所述答案数据与归属同一样本问题的其他答案数据之间的关联度的情况:所述答案数据与归属同一样本问题的其他答案数据之间的关联度包括下述任意一种或者多种:所述答案数据与归属同一样本问题的其他答案数据的平均相似度、所述答案数据与归属同一样本问题的其他答案数据的最小相似度、所述答案数据与属于同一问题的其他答案数据的最大相似度、所述答案数据所归属的样本问题的其他答案数据的数量、所述答案数据在所归属的样本问题的所有答案数据中所创建的次序。5.根据权利要求4所述的方法,其特征在于,针对所述答案数据的内容属性包括所述答案数据的可读性的情况,采用下述方式获取所述答案数据的可读性:根据所述答案数据中段落的数量以及每个段落的长度,确定所述答案数据的可读...

【专利技术属性】
技术研发人员:朱月梅郑凯段立新江建军
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1