一种基于上下文路径的树状结构文本信息数据标注系统技术方案

技术编号:33789358 阅读:41 留言:0更新日期:2022-06-12 14:45
本发明专利技术公开一种基于上下文路径的树状结构文本信息数据标注系统,包括:数据处理模块,用于对待标注的树状结构文本信息数据进行预处理,获得树结构数据信息;数据存储模块,与数据处理模块连接,用于存储树结构数据信息;路径分解模块,与数据存储模块连接,用于对树结构数据信息进行路径分解,获得路径集;路径分发模块,与路径分解模块连接,用于将路径集中的路径进行路径分发;用户标注终端,分别与路径分发模块和数据存储模块连接,用于对分发路径中各节点所对应的文本信息进行标注;标注整合输出模块,与用户标注终端连接,用于对用户标注终端的标注信息进行整合,输出获得标注结果。本发明专利技术能够有效提高标注效率和质量,降低标注成本。标注成本。标注成本。

【技术实现步骤摘要】
一种基于上下文路径的树状结构文本信息数据标注系统


[0001]本专利技术涉及文本数据标注
,特别是涉及一种基于上下文路径的树状结构文本信息数据标注系统。

技术介绍

[0002]随着大数据应用和人工智能技术的快速发展,对标注数据的需求日益增加。数据标注是人工智能和机器学习领域中的基础性任务。标注任务按照数据类型为文本数据标注,图片数据标注,语音数据标注以及其他各类专业类型数据标注,例如:医学影像数据标注和地理信息数据标注等等。
[0003]在文本数据标注中,现有标注方法主要针对单独一个文本进行类别、情感和意见倾向的标注。杨新宇等人提出了一种基于数据挖掘和众包的数据标注方法,该方法通过众包分发的方式让标注人员标注,然而标注方法只是离散的对数据进行标注,数据展示方式简单,标注质量很大程度上依赖标注者的专业性。然而,大量的文本数据如评论数据、论坛数据和聊天数据等都具有明显上下文关系,构成一种树状结构的文本信息的,现有的标注方法没有针对数据呈现的结构关系对标注方法做出改进,造成针对该类数据的人工标注阅读效率低、成本高、语料数量有限等问题,语料库质量较低。
[0004]因此,如何提供一种基于上下文路径的树状结构文本信息数据标注系统,降低树状结构文本信息数据的标注成本,提高标注的效率和质量,是本
亟需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于上下文路径的树状结构文本信息数据标注系统,以解决现有技术中存在的技术问题,能够有效提高树状结构文本信息数据的标注效率和质量,并降低标注成本。
[0006]为实现上述目的,本专利技术提供了如下方案:本专利技术提供一种基于上下文路径的树状结构文本信息数据标注系统,包括:
[0007]数据处理模块,用于对待标注的树状结构文本信息数据进行预处理,获得树结构数据信息;
[0008]数据存储模块,与所述数据处理模块连接,用于存储所述树结构数据信息;
[0009]路径分解模块,与所述数据存储模块连接,用于对所述树结构数据信息进行路径分解,获得路径集;
[0010]路径分发模块,与所述路径分解模块连接,用于将所述路径集中的路径进行路径分发;
[0011]用户标注终端,分别与所述路径分发模块和所述数据存储模块连接,用于对分发路径中各节点所对应的文本信息进行标注;
[0012]标注整合输出模块,与所述用户标注终端连接,用于对所述用户标注终端的标注
信息进行整合,输出获得标注结果。
[0013]优选地,所述数据处理模块包括数据导入单元、节点构建单元、树结构构建单元;
[0014]所述数据导入单元用于获取所述树状结构文本信息数据;
[0015]所述节点构建单元用于构建所述树状结构文本信息数据的数据节点,并对所述节点的层级进行初始化;所述节点包括根节点、子节点;
[0016]所述树结构构建单元用于根据所述节点的层级及上下文关系,对所述节点进行连接,获得所述根节点对应的树结构,并根据所述树结构中各节点的连接关系对所述子节点的层级进行更新。
[0017]优选地,所述树结构中,每个所述子节点均存在相对应的父节点,所述数据存储模块按照子节点、父节点、以及各个节点所对应的文本信息的形式,对所述数据处理模块得到的树结构进行存储。
[0018]优选地,所述路径分解模块包括路径对应单元、路径生成单元;
[0019]所述路径对应单元用于从所述根节点出发,采用深度优先搜索DFS方法遍历所述根节点所对应的树结构;
[0020]所述路径生成单元用于采用先序遍历,按照层级关系将所述子节点添加进路径,获得从根节点到树结构的所有叶节点的路径集。
[0021]优选地,所述路径分发模块包括根节点分发单元、路径分发单元;
[0022]所述根节点分发单元用于根据所述用户标注终端发送的标注请求信息,选取待分发的根节点;
[0023]所述路径分发单元用于根据所选取的根节点,从所述路径集中选取路径,并分发至对应的所述用户标注终端。
[0024]优选地,所述根节点分发单元的分发方法包括随机选择、依据历史记录选择、根据所述用户标注终端设置的内容偏好选择中的一种或多种。
[0025]优选地,所述路径分发单元的分发方法包括长路径优先、信息量优先、随机选择、按照用户标注终端的标注操作情况进行路径分发中的一种或多种。
[0026]优选地,所述用户标注终端包括标注单元、标注修改单元、标注提交单元、标注请求单元;
[0027]所述标注单元用于基于获取的路径,对路径中各节点所对应的文本信息进行标注;
[0028]所述标注修改单元用于进行标注统计,并对已标注节点的标注结果进行修改;
[0029]所述标注提交单元用于对所述标注单元、所述标注修改单元的标注结果进行提交,所提交内容包括标注结果、用户标注终端信息;
[0030]所述标注请求单元用于向所述路径分发模块发送标注请求信息,还用于设置内容偏好。
[0031]优选地,所述标注整合输出模块包括标注审核单元、标注结果输出单元;
[0032]所述标注审核单元用于根据所述用户标注终端的标注结果,对该路径是否标注完成进行审核;
[0033]所述标注结果输出单元用于对审核通过的所有标注结果进行分类导出。
[0034]优选地,所述标注审核单元用于根据所述用户标注终端的标注结果构建对应路径
的标注意见集合,根据标注意见集合的大小是否大于等于预设阈值,判断该路径是否标注完成。
[0035]本专利技术公开了以下技术效果:
[0036](1)本专利技术将待标注的文本信息数据构建为节点,根据各节点的层级及上下文关系将待标注的文本信息数据构建为树结构,并根据树结构的遍历顺序对树结构进行路径分解,分发到用户标注终端进行文本的标注,利用数据的树状结构特点并结合上下文进行标注,有效提高了标注效率及标注质量;同时,基于路径形成了完整的上下文关系,即使是非专业人员也能进行标注,降低了对用户标注终端的专业性的要求,降低了标注成本。本专利技术适用于机器学习与人工智能的
,方便模型采集经过标注的数据,便于收集到模型训练所需要的高质量数据,为更好地进行下一步科研工作提供了基础。
[0037](2)本专利技术提供了多种路径分发方式,提高了用户标注终端标注内容的丰富性。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术基于上下文路径的树状结构文本信息数据标注系统结构示意图。
具体实施方式
[0040]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文路径的树状结构文本信息数据标注系统,其特征在于,包括:数据处理模块,用于对待标注的树状结构文本信息数据进行预处理,获得树结构数据信息;数据存储模块,与所述数据处理模块连接,用于存储所述树结构数据信息;路径分解模块,与所述数据存储模块连接,用于对所述树结构数据信息进行路径分解,获得路径集;路径分发模块,与所述路径分解模块连接,用于将所述路径集中的路径进行路径分发;用户标注终端,分别与所述路径分发模块和所述数据存储模块连接,用于对分发路径中各节点所对应的文本信息进行标注;标注整合输出模块,与所述用户标注终端连接,用于对所述用户标注终端的标注信息进行整合,输出获得标注结果。2.根据权利要求1所述的基于上下文路径的树状结构文本信息数据标注系统,其特征在于,所述数据处理模块包括数据导入单元、节点构建单元、树结构构建单元;所述数据导入单元用于获取所述树状结构文本信息数据;所述节点构建单元用于构建所述树状结构文本信息数据的数据节点,并对所述节点的层级进行初始化;所述节点包括根节点、子节点;所述树结构构建单元用于根据所述节点的层级及上下文关系,对所述节点进行连接,获得所述根节点对应的树结构,并根据所述树结构中各节点的连接关系对所述子节点的层级进行更新。3.根据权利要求2所述的基于上下文路径的树状结构文本信息数据标注系统,其特征在于,所述树结构中,每个所述子节点均存在相对应的父节点,所述数据存储模块按照子节点、父节点、以及各个节点所对应的文本信息的形式,对所述数据处理模块得到的树结构进行存储。4.根据权利要求2所述的基于上下文路径的树状结构文本信息数据标注系统,其特征在于,所述路径分解模块包括路径对应单元、路径生成单元;所述路径对应单元用于从所述根节点出发,采用深度优先搜索DFS方法遍历所述根节点所对应的树结构;所述路径生成单元用于采用先序遍历,按照层级关系将所述子节点添加进路径,获得从根节点到树结构的所有叶节点的路径集。5.根据权利要求1所述的基于上下文路径的树...

【专利技术属性】
技术研发人员:闵勇龙杰傅晨波宣琦
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1