当前位置: 首页 > 专利查询>清华大学专利>正文

提高众包标注数据质量的可视分析系统及方法技术方案

技术编号:21454782 阅读:48 留言:0更新日期:2019-06-26 05:02
本发明专利技术公开了一种提高众包标注数据质量的可视分析系统及方法,其中,该系统包括:混淆矩阵可视化模块,展示不同类别之间的混淆程度,以根据所述混淆程度选择分析的易混淆类别;实例可视化模块,通过有约束的t‑SNE降维展示每个实例的不确定类标和实例之间的相互影响信息;标注者行为可视化模块,通过散点图展示每个标注者在所选定类别上的标注准确率与无效标注程度评分,以确定无效标注者;交互递进式确认模块,将用户对实例的类标和标注者可靠度的确认信息进行传播,以推荐另外需要标注的实例和标注者。该系统的四个模块与众包学习模型紧密结合,从而帮助用户以交互递进形式确认不确定实例以及不可靠标注者,提高数据标注质量。

【技术实现步骤摘要】
提高众包标注数据质量的可视分析系统及方法
本专利技术涉及众包标注数据的可视分析
,特别涉及一种提高众包标注数据质量的可视分析系统及方法。
技术介绍
训练数据质量是有监督学习和半监督学习的一个关键因素。然而,标注一个大型数据集的代价非常高,并且对标注者标注能力的要求严苛。因此,研究人员使用众包方法,即将标注任务划分成若干子任务分发给大众完成,得到大量标注数据。尽管这个方法时间效率高,但是在子任务复杂并且需要专业知识来完成的情况下,所得数据往往充满噪声,质量较低,从而需要提供额外确认信息来帮助提高数据质量。相应的,已有一些初步工作将专家对类标的确认信息引入众包学习算法中。尽管这些方法能够提高众包标注数据质量,但其使用已知类标作为专家确认信息,没有考虑到获取已知类标所需代价。在实践中,数据科学家往往需要花费大量精力和时间来分析类标和标注者的表现,以筛选需要确认的实例和标注者,从而最大化准确率增益。
技术实现思路
本专利技术旨在至少在一定程度上解决以上技术问题之一。为此,本专利技术的一个目的在于提出一种提高众包标注数据质量的可视分析系统。该系统从不同类别之间的混淆程度、实例的不确定类标、标注者的不可靠程度等方面展示了众包数据以及众包学习模型的结果,帮助用户筛选并确认信息量最大的实例和最不可靠的标注者。本专利技术的另一个目的在于提出一种提高众包标注数据质量的可视分析方法。为达到上述目的,本专利技术一方面提出了提高众包标注数据质量的可视分析系统,包括:混淆矩阵可视化模块,展示不同类别之间的混淆程度,以根据所述混淆程度选择分析的易混淆类别;实例可视化模块,通过有约束的t-SNE降维展示每个实例的不确定类标和实例之间的相互影响信息;标注者行为可视化模块,通过散点图展示每个标注者在所选定类别上的标注准确率与无效标注程度评分,以确定无效标注者;交互递进式确认模块,将用户对实例的类标和标注者可靠度的确认信息进行传播,以推荐另外需要标注的实例和标注者。本专利技术实施例的提高众包标注数据质量的可视分析系统,基于用户的确认信息,选择更多需要被确认的实例和标注者;用户对类标和标注者的确认信息的影响通过众包学习模型传播到其他相关的实例和标注者上;通过交互递进式确认方式,可以减少用户寻找需要确认的实例和标注者的时间和精力,并提高众包标注数据质量,同时系统已通过“浏览器-服务器”的形式实现,用户可以便捷地使用该系统。另外,本专利技术上述实施例的提高众包标注数据质量的可视分析系统还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述混淆矩阵可视化模块包括:标注者混淆矩阵计算组件,用于获取标注者混淆矩阵,以展示标注者的标注和众包学习模型推测的标注之间的不匹配程度;矩阵重排组件,用于重排所述混淆矩阵,以得到易混淆类别形成的块模式。进一步地,在本专利技术的一个实施例中,所述实例可视化模块包括:有约束的t-SNE组件,用于获取实例二维布局的坐标,以展示所述每个实例的不确定类标;实例影响流组件,用于展示所述实例之间的相互影响信息。进一步地,在本专利技术的一个实施例中,所述标注者行为可视化模块包括:无效标注程度评分计算组件,用于获取标注者无效标注程度的评分;标注者类别刻画组件,用于刻画不同类别的标注者。进一步地,在本专利技术的一个实施例中,所述交互递进式确认模块包括:互增强图模型组件,用于在给定用户当前对实例的标注和标注者可靠度的确认信息下,推荐另外需要确认的实例和标注者;标注追踪组件,用于展示用户对实例类标确认信息的记录以及确认信息对其他实例类标带来的影响信息。为达到上述目的,本专利技术另一方面提出了一种提高众包标注数据质量的可视分析方法,包括以下步骤:步骤S1,展示不同类别之间的混淆程度,以根据所述混淆程度选择分析的易混淆类别;步骤S2,通过有约束的t-SNE降维展示每个实例的不确定类标和实例之间的相互影响信息;步骤S3,通过散点图展示每个标注者在所选定类别上的标注准确率与无效标注程度评分,以确定无效标注者;步骤S4,将用户对实例的类标和标注者可靠度的确认信息进行传播,以推荐另外需要标注的实例和标注者。本专利技术实施例的提高众包标注数据质量的可视分析方法,基于用户的确认信息,选择更多需要被确认的实例和标注者;用户对类标和标注者的确认信息的影响通过众包学习模型传播到其他相关的实例和标注者上;通过交互递进式确认方式,可以减少用户寻找需要确认的实例和标注者的时间和精力,并提高众包标注数据质量,同时,方法已通过“浏览器-服务器”的形式实现,用户可以便捷地使用该方法。另外,本专利技术上述实施例的提高众包标注数据质量的可视分析方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述步骤S1包括:获取标注者混淆矩阵,以展示标注者的标注和众包学习模型推测的标注之间的不匹配程度;重排所述混淆矩阵,以得到易混淆类别形成的块模式。进一步地,在本专利技术的一个实施例中,所述步骤S2包括:获取实例二维布局的坐标,以展示所述每个实例的不确定类标;展示所述实例之间的相互影响信息。进一步地,在本专利技术的一个实施例中,所述步骤S3包括:获取标注者无效标注程度的评分;刻画不同类别的标注者。进一步地,在本专利技术的一个实施例中,所述步骤S4包括:在给定用户当前对实例的标注和标注者可靠度的确认信息下,推荐另外需要确认的实例和标注者;展示用户对实例类标确认信息的记录以及确认信息对其他实例类标带来的影响信息。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的提高众包标注数据质量的可视分析系统结构示意图;图2为根据本专利技术实施例的提高众包标注数据质量的可视分析系统模块关系图;图3为根据本专利技术实施例的提高众包标注数据质量的可视分析系统实例图;图4为根据本专利技术实施例的提高众包标注数据质量的可视分析方法流程图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的提高众包标注数据质量的可视分析系统及方法,首先将参照附图描述根据本专利技术实施例提出的提高众包标注数据质量的可视分析系统。图1是本专利技术一个实施例的提高众包标注数据质量的可视分析系统结构示意图。如图1所示,该提高众包标注数据质量的可视分析系统10包括:混淆矩阵可视化模块100、实例可视化模块200、标注者行为可视化模块300和交互递进式确认模块400。其中,混淆矩阵可视化模块100展示不同类别之间的混淆程度,以根据混淆程度选择分析的易混淆类别。进一步地,在本专利技术的一个实施例中,混淆矩阵可视化模块100包括:标注者混淆矩阵计算组件,用于获取标注者混淆矩阵,以展示标注者的标注和众包学习模型推测的标注之间的不匹配程度;矩阵重排组件,用于重排混淆矩阵,以得到易混淆类别形成的块模式。简单来讲,混淆矩阵可视化模块100用于展示不同类别之间的混淆程度。为了更好地展示可能存在的混淆模式,首本文档来自技高网...

【技术保护点】
1.一种提高众包标注数据质量的可视分析系统,其特征在于,包括:混淆矩阵可视化模块:展示不同类别之间的混淆程度,以根据所述混淆程度选择分析的易混淆类别;实例可视化模块:通过有约束的t‑SNE降维展示每个实例的不确定类标和实例之间的相互影响信息;标注者行为可视化模块:通过散点图展示每个标注者在所选定类别上的标注准确率与无效标注程度评分,以确定无效标注者;以及交互递进式确认模块:将用户对实例的类标和标注者可靠度的确认信息进行传播,以推荐另外需要标注的实例和标注者。

【技术特征摘要】
1.一种提高众包标注数据质量的可视分析系统,其特征在于,包括:混淆矩阵可视化模块:展示不同类别之间的混淆程度,以根据所述混淆程度选择分析的易混淆类别;实例可视化模块:通过有约束的t-SNE降维展示每个实例的不确定类标和实例之间的相互影响信息;标注者行为可视化模块:通过散点图展示每个标注者在所选定类别上的标注准确率与无效标注程度评分,以确定无效标注者;以及交互递进式确认模块:将用户对实例的类标和标注者可靠度的确认信息进行传播,以推荐另外需要标注的实例和标注者。2.根据权利要求1所述的提高众包标注数据质量的可视分析系统,其特征在于,所述混淆矩阵可视化模块包括:标注者混淆矩阵计算组件,用于获取标注者混淆矩阵,以展示标注者的标注和众包学习模型推测的标注之间的不匹配程度;矩阵重排组件,用于重排所述混淆矩阵,以得到易混淆类别形成的块模式。3.根据权利要求1所述的提高众包标注数据质量的可视分析系统,其特征在于,所述实例可视化模块包括:有约束的t-SNE组件,用于获取实例二维布局的坐标,以展示所述每个实例的不确定类标;实例影响流组件,用于展示所述实例之间的相互影响信息。4.根据权利要求1所述的提高众包标注数据质量的可视分析系统,其特征在于,所述标注者行为可视化模块包括:无效标注程度评分计算组件,用于获取标注者无效标注程度的评分;标注者类别刻画组件,用于刻画不同类别的标注者。5.根据权利要求1-4任一项所述的提高众包标注数据质量的可视分析装置,其特征在于,所述交互递进式确认模块包括:互增强图模型组件,用于在给定用户当前对实例的标注和标注者可靠度的确认信...

【专利技术属性】
技术研发人员:刘世霞陈长建欧阳方昕姜流
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1