【技术实现步骤摘要】
一种标注文本纠错的数据处理系统
[0001]本专利技术涉及文本纠错
,尤其涉及一种标注文本纠错的数据处理系统。
技术介绍
[0002]当前,对文本标注的过程中包括:标注人员对文本的标注和校对人员对已标注的文本进行校对,当文本的数量较大时,标注人员和校对人员均会进行大量工作,会导致工作效率低,人员成本高。
[0003]现有技术中,采用文本纠错模型对已标注的文本进行纠错,但是,文本纠错模型的纠错准确率低,同时也需要对每一已标注的文本进行纠错,会导致工作效率低。
[0004]同时,对于文本中常出现的错误,例如,英文词漏写字母或者人名地名的错字等,标注人员无法知晓标注错误,导致增加校对人员的工作量,导致工作效率低。
技术实现思路
[0005]针对上述技术问题,本专利技术采用的技术方案为一种标注文本纠错的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:标注文本列表A={A1,
……
,A
i
,
……
,A
【技术保护点】
【技术特征摘要】
1.一种标注文本纠错的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:标注文本列表A={A1,
……
,A
i
,
……
,A
m
},A
i
是指第i个标注文本,i=1
……
m,m为标注文本数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、当m<预设的文本数量阈值m0时,获取A对应的第一指定文本集G={G1,
……
,G
i
,
……
,G
m
},第i个第一指定文本集G
i
={A
i
,B
i
},其中,A
i
对应的第一文本列表B
i
={B
i1
,
……
,B
ir
,
……
,B
is
},B
ir
是指第r个第一文本,r=2
……
s为第一文本数量,并将A
i
作为G中第i个第一目标测试集和G中B
i
作为第i个第一目标训练集;S200、当m≥m0时,根据A,获取中间文本集D={D1,
……
,D
j
,
……
,D
n
},D
j
={D
j1
,
……
,D
jt
,
……
,D
jk
},D
jt
是指第j个中间文本列表中第t个中间文本,j=2
……
n,n为中间文本列表数量,t=1
……
k,k为任一中间文本列表的中间文本数量,其中,n符合如下条件:;S300、获取A对应的第二指定文本集G'={G'1,
……
,G'
j
,
……
,G'
n
},第j个第二指定文本集G'
j
={D
j
,C
j
},其中,D
j
对应的第二文本集C
j
={C
j1
,
……
,C
jq
,
……
,C
jp
},C
jq
是指第q个第二文本列表,q=2
……
p为第二文本列表数量,并将D
j
作为G'中第j个第二目标测试集和C
j
作为G'中第j个第二目标训练集,其中,C
jq
是指第q个第二文本列表,q=2
……
p为第二文本列表数量;S400、获取目标训练集且基于目标训练集对预设文本纠错模型进行训练,到目标文件纠错模型,以使得根据目标测试集输入至目标文件纠错模型中,获取A对应的异常文本,所述目标训练集包括第一目标训练集或者第二目标训练集,所述目标测试集包括第一目标测试集或者第二目标测试集,其中,目标测试集和目标训练集呈对应关系;S500、获取A对应的异常文本列表H={H1,
……
,H
g
,
……
,H
z
},H
g
是指第g个异常文本,g=1
……
z,z为异常文本数量,且对H
g
进行文本纠错处理,得到H
g
对应的所有异常标注。2.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,所述标注文本是指已标注的文本。3.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,m0的取值范围为10~50。4.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,B
i
中第一文本是指在A中除A
i
之外的任一标注文本。5.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于所述中间文本是指基于A划分的中间文本列表中任一标注文本。6.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,C
j
中第二文本列表是指在D中除D
j
之外的任一中间文本列表。7.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,s符合如下条件:s=m
‑
1。8.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,p符合如下条件:p=n
‑
1。9.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,所述数据库中还包括:实体类型集L={L1,
……
,L
y
,
……
L
w
},L
y
是指第y个实体类型对应的实体列表,y=1
……
w,w为文本对应的实体类型数量,...
【专利技术属性】
技术研发人员:张正义,林方,刘宸,傅晓航,
申请(专利权)人:中科雨辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。