【技术实现步骤摘要】
一种用于标注文本的数据处理系统
[0001]本专利技术涉及数据处理
,尤其涉及一种用于标注文本的数据处理系统。
技术介绍
[0002]随着时代的发展和无纸化办公技术的不断进步,人们生活中需要处理的电子文档越来越多,纸质文档占比则在渐渐降低。企业内的文档处理如果借助NLP相关技术则往往需要大量的文本标注工作用于模型训练,而在电子文档上完成这些操作则需要一种操作便捷、使用方便的标注系统。
[0003]当下热门的标注方式中,针对不同标注人员对问题理解不一致的情况,通常采用多个标注员对同一数据进行反复标注,在通过投票的方式,决定出数据的标注结果,并且在标注时采取基于PDF文档解析后在文字上划选来完成标注,会导致多种弊端情况出现,例如无法在单层PDF上划选、无法对印章水印等内容进行标记、无法在文档上进行表格标注等,同时,也会出现标注错误或者漏标注的情况,并且影响到文本标注效率,此外,也无法对不同标注人员的准确性和差异性进行确定,因此,如何准确的对文本进行标注,提高文本标注的准确性和效率成为亟待解决的技术问题。
专 ...
【技术保护点】
【技术特征摘要】
1.一种用于标注文本的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个样本文本和M个标注端ID,当所述计算机程序被处理器执行时,实现以下步骤:S100、获取第一样本文本列表A=(A1,A2,A3,
……
,A
m
),A
i
是指第i个第一样本文本,i=1
……
m,m为第一样本文本数量,和M个第二样本文本列表B=(B1,B2,B3,
……
,B
n
),B
j
是指第j个第二样本文本,j=1
……
n,n为第二样本文本数量;S200、将A发送至所有的标注端ID对应的标注端进行标注,获取A
i
对应的M个第一标注文本同时,将B发送至单一所述标注端ID对应的标注端进行标注,B
j
对应的第二标注文本以根据所有构建的第一标注文本列表作为第一训练集和所有构建的第二标注文本列表作为第二训练集;S300、将第一训练集输入至预设的学习模型中,获取所有的标注端ID的第一目标函数T(x);S400、将第二训练集输入至预设的学习模型中,获取每一所述标注端ID的第二目标函数H
t
(x),t=1
……
M,并根据所有H
t
(x),获取总目标函数H0(x),其中,H0(x)符合如下条件:S500、根据T(x)和H0(x)插入至所述学习模型,得到目标学习模型,以从数据库中获取K个目标样本文本作为目标训练集输入至所述目标学习模型中进行训练,得到已训练的目标学习模型;S600、获取目标文本且对每一所述目标文本进行预处理,得到所述目标文本对应的目标语句列表,以将所述目标语句列表输入至已训练的目标学习模型中,获取所述目标文本对应的标注文本。2.根据权利要求1所述的用于标注文本的数据处理系统,其特征在于,所述数据库中还包括R个原始文本,并从数据库中获取待处理文本Z个待处理文本,构建成待处理文本列表Q=(Q1,Q2,Q3,
……
,Q
z
),其中,Q
g
是指第g个待处理文本。3.根据权利要求2所述的用于标注文本的数据处理系统,其特征在于,在S100步骤之前还包括如下步骤确定样本文本:S1、基于Q且每一所述待处理文本进行预处理,获取所述待处理文本对应的指定语句列表;S2、将所有待处理文本作为指定训练集输入至所述学习模型中进行训练,获取任一待处理...
【专利技术属性】
技术研发人员:傅晓航,刘羽,张正义,林方,
申请(专利权)人:中科雨辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。