数据处理方法、装置和系统制造方法及图纸

技术编号:24799618 阅读:23 留言:0更新日期:2020-07-07 21:03
本发明专利技术公开了一种数据处理方法、装置和系统。其中,该方法包括:确定目标题目的答案样本,其中,答案样本包括多个备选答案;从多个备选答案中选取多个聚类中心,其中,每个聚类中心对应多个备选答案中的一个答案;基于多个聚类中心对多个备选答案进行聚类分析,得到多个目标簇;从多个目标簇中选取候选簇,并基于候选簇从答案样本中确定目标题目的答案,其中,目标题目的答案用于确定虚拟资源的接收设备。本发明专利技术解决了现有技术对开放性题目答案进行验证的验证效率低的技术问题。

【技术实现步骤摘要】
数据处理方法、装置和系统
本专利技术涉及数据处理领域,具体而言,涉及一种数据处理方法、装置和系统。
技术介绍
随着计算机技术发展,人工智能领域的相关技术也正在蓬勃发展。其中,人工智能准确度的提升不仅依赖于算法优化,同时也依赖于训练数据集的大小。相关研究指出,人工智能领域中,大规模的数据有助于表征学习,数据规模压制了标签中存在的噪声。随着训练数据数量级的增加,任务性能呈线性上升。然而,由于标签标注数量和质量存在一些问题,导致目前没有较好的针对开放性题目答案的验证和聚合机制,从而无法生成较好的语义模型和体验评分。目前主要采用以下两种方式对开放性题目答案进行验证:方式一:采用埋雷题的方式进行验证。该方式首先生成具有标准答案的题目,然后在投放题目的过程中,随机将具有标准答案的题目发给用户,并根据用户答案的正确性来推送用户在整个问题答复过程中的准确率,然后舍弃准确率较低的用户的答案,对准确率达标的用户的答案进行聚合。该方式需要生产较多的校验题目,以保证在任务投放过程中能够及时推算出用户答案的准确率。另外,该方式在判断用户答案的准确性的过程中,当用本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n确定目标题目的答案样本,其中,所述答案样本包括多个备选答案;/n从所述多个备选答案中选取多个聚类中心,其中,每个聚类中心对应所述多个备选答案中的一个答案;/n基于所述多个聚类中心对所述多个备选答案进行聚类分析,得到多个目标簇;/n从所述多个目标簇中选取候选簇,并基于所述候选簇从所述答案样本中确定所述目标题目的答案,其中,所述目标题目的答案用于确定虚拟资源的接收设备。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
确定目标题目的答案样本,其中,所述答案样本包括多个备选答案;
从所述多个备选答案中选取多个聚类中心,其中,每个聚类中心对应所述多个备选答案中的一个答案;
基于所述多个聚类中心对所述多个备选答案进行聚类分析,得到多个目标簇;
从所述多个目标簇中选取候选簇,并基于所述候选簇从所述答案样本中确定所述目标题目的答案,其中,所述目标题目的答案用于确定虚拟资源的接收设备。


2.根据权利要求1所述的方法,其特征在于,基于所述多个聚类中心对所述多个备选答案进行聚类分析,得到多个目标簇,包括:
计算所述多个备选答案中与所述聚类中心的距离最近的至少一个样本点,得到多个第一簇,其中,每个样本点对应一个备选答案,所述距离包括文本编辑距离;
计算每个所述第一簇中除所述聚类中心之外的任意一个样本点与其他样本点的距离之和,将最小距离之和对应的样本点作为第二聚类中心;
基于所述第二聚类中心确定所述目标簇。


3.根据权利要求2所述的方法,其特征在于,基于所述第二聚类中心确定所述目标簇,包括:
重复计算所述第一簇中所述任意一个样本点与其他样本点的距离之和,直到得到的第二聚类中心不变;
将第二聚类中心不变时得到的簇作为所述目标簇。


4.根据权利要求1所述的方法,其特征在于:
比较所述多个目标簇中各个目标簇包含的答案数量,得到所述多个目标簇中答案数量最多的簇,并将所述答案数量最多的簇作为所述候选簇。


5.根据权利要求1所述的方法,其特征在于,基于所述候选簇确定所述目标题目的答案,包括:
将所述候选簇中的所有备选答案作为所述目标题目的答案;或者
从所述候选簇中的所有备选答案中选择与所述候选簇中的聚类中心相似度最高的备选答案,将与所述候选簇中的聚类中心相似度最高的备选答案作为所述目标题目的答案。


6.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:薛研歆赵振财林鹏周康
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1