一种标注文本纠错的数据处理系统技术方案

技术编号:34293325 阅读:27 留言:0更新日期:2022-07-27 10:01
本发明专利技术涉及一种标注文本纠错的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:当标注文本数量小于文本数量阈值时,获取任一标注文本作为测试集和该标注文本对应的文本集作为训练集;当标注文本数量不小于文本数量阈值时,将标注文本列表划分成若干个中间标注文本列表且获取任一中间标注文本列表作为测试集和该中间标注文本列表对应的文本集作为训练集,根据训练集对预设模型进行训练,以使得基于训练后的预设模型和测试集,确定异常文本对应的所有异常标注;能够快速和准确的确定出异常文本,只需要校对人员对异常文本进行校对,简化工作量,提高文本校准的效率。的效率。的效率。

【技术实现步骤摘要】
一种标注文本纠错的数据处理系统


[0001]本专利技术涉及文本纠错
,尤其涉及一种标注文本纠错的数据处理系统。

技术介绍

[0002]当前,对文本标注的过程中包括:标注人员对文本的标注和校对人员对已标注的文本进行校对,当文本的数量较大时,标注人员和校对人员均会进行大量工作,会导致工作效率低,人员成本高。
[0003]现有技术中,采用文本纠错模型对已标注的文本进行纠错,但是,文本纠错模型的纠错准确率低,同时也需要对每一已标注的文本进行纠错,会导致工作效率低。
[0004]同时,对于文本中常出现的错误,例如,英文词漏写字母或者人名地名的错字等,标注人员无法知晓标注错误,导致增加校对人员的工作量,导致工作效率低。

技术实现思路

[0005]针对上述技术问题,本专利技术采用的技术方案为一种标注文本纠错的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:标注文本列表A={A1,
……
,A
i

……
,A
m
...

【技术保护点】

【技术特征摘要】
1.一种标注文本纠错的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:标注文本列表A={A1,
……
,A
i

……
,A
m
},A
i
是指第i个标注文本,i=1
……
m,m为标注文本数量,当所述计算机程序被处理器执行时,实现以下步骤:S100、当m<预设的文本数量阈值m0时,获取A对应的第一指定文本集G={G1,
……
,G
i

……
,G
m
},第i个第一指定文本集G
i
={A
i
,B
i
},其中,A
i
对应的第一文本列表B
i
={B
i1

……
,B
ir

……
,B
is
},B
ir
是指第r个第一文本,r=2
……
s为第一文本数量,并将A
i
作为G中第i个第一目标测试集和G中B
i
作为第i个第一目标训练集;S200、当m≥m0时,根据A,获取中间文本集D={D1,
……
,D
j

……
,D
n
},D
j
={D
j1

……
,D
jt

……
,D
jk
},D
jt
是指第j个中间文本列表中第t个中间文本,j=2
……
n,n为中间文本列表数量,t=1
……
k,k为任一中间文本列表的中间文本数量,其中,n符合如下条件:;S300、获取A对应的第二指定文本集G'={G'1,
……
,G'
j

……
,G'
n
},第j个第二指定文本集G'
j
={D
j
,C
j
},其中,D
j
对应的第二文本集C
j
={C
j1

……
,C
jq

……
,C
jp
},C
jq
是指第q个第二文本列表,q=2
……
p为第二文本列表数量,并将D
j
作为G'中第j个第二目标测试集和C
j
作为G'中第j个第二目标训练集,其中,C
jq
是指第q个第二文本列表,q=2
……
p为第二文本列表数量;S400、获取目标训练集且基于目标训练集对预设文本纠错模型进行训练,到目标文件纠错模型,以使得根据目标测试集输入至目标文件纠错模型中,获取A对应的异常文本,所述目标训练集包括第一目标训练集或者第二目标训练集,所述目标测试集包括第一目标测试集或者第二目标测试集,其中,目标测试集和目标训练集呈对应关系;S500、获取A对应的异常文本列表H={H1,
……
,H
g

……
,H
z
},H
g
是指第g个异常文本,g=1
……
z,z为异常文本数量,且对H
g
进行文本纠错处理,得到H
g
对应的所有异常标注。2.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,所述标注文本是指已标注的文本。3.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,m0的取值范围为10~50。4.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,B
i
中第一文本是指在A中除A
i
之外的任一标注文本。5.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于所述中间文本是指基于A划分的中间文本列表中任一标注文本。6.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,C
j
中第二文本列表是指在D中除D
j
之外的任一中间文本列表。7.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,s符合如下条件:s=m

1。8.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,p符合如下条件:p=n

1。9.根据权利要求1所述的标注文本纠错的数据处理系统,其特征在于,所述数据库中还包括:实体类型集L={L1,
……
,L
y

……
L
w
},L
y
是指第y个实体类型对应的实体列表,y=1
……
w,w为文本对应的实体类型数量,...

【专利技术属性】
技术研发人员:张正义林方刘宸傅晓航
申请(专利权)人:中科雨辰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1