一种文本标注的数据处理系统技术方案

技术编号:31499053 阅读:40 留言:0更新日期:2021-12-18 12:46
本发明专利技术涉及一种文本标注的数据处理系统,所述包括数据库、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现步骤:获取第一样本文本对应的样本语句列表;将所有样本语句列表输入至预设的学习模型中进行训练,获取所有中间文本且从所有中间文本中获取若干个中间文本且划分成若干个中间文本列表,将中间文本列表每一发送至每一标注端ID对应的标注端,获取第二样本文本;将所有第二样本文本输入至学习模型中进行训练,得到已训练的学习模型,将目标语句列表作为预测集输入至已训练的学习模型中,得到目标文本对应的标注文本。本发明专利技术能够无需人员进行标注且对文本进行标注,提高文本标注的准确性和效率。提高文本标注的准确性和效率。提高文本标注的准确性和效率。

【技术实现步骤摘要】
一种文本标注的数据处理系统


[0001]本专利技术涉及数据处理
,尤其涉及一种文本标注的数据处理系统。

技术介绍

[0002]随着时代的发展和无纸化办公技术的不断进步,人们生活中需要处理的电子文档越来越多,纸质文档占比则在渐渐降低。企业内的文档处理如果借助NLP相关技术则往往需要大量的文本标注工作用于模型训练,而在电子文档上完成这些操作则需要一种操作便捷、使用方便的标注系统。
[0003]当下热门的标注方式中,针对不同标注原对问题理解不一致的情况,通常采用多个标注员对同一数据进行反复标注,再通过投票的方式,决定出数据的标注结果,并且在标注时采取基于PDF文档解析后在文字上划选来完成标注,会导致多种弊端情况出现,例如无法在单层PDF上划选、无法对印章水印等内容进行标记、无法在文档上进行表格标注等,同时,也会出现标注错误或者漏标注的情况,并且影响到文本标注效率,此外,也无法对不同标注人员的准确性和差异性进行确定,因此,如何准确的对文本进行标注,提高文本标注的准确性和效率成为亟待解决的技术问题。

技术实现思路

[0004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标注的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括N个文本和M个标注端ID,当所述计算机程序被处理器执行时,实现以下步骤:S100、从数据库中获取n个文本均作为第一样本文本且对每一所述第一样本文本进行预处理,获取所述第一样本文本对应的样本语句列表A=(A1,A2,A3,
……
,A
m
),A
j
为所述第一样本文本中第j个样本语句,j=1
……
m,m为样本语句数量;S200、将所有A作为第一训练集输入至预设的学习模型中进行训练,获取A对应的样本向量集B=(B1,B2,B3,
……
,B
m
),B
j
是指A
j
对应的语句向量且当任一B
j
对应的概率值F
j
<预设的第一概率阈值时,将B对应的第一样本文本作为中间文本;S300、获取所有中间文本且从所有中间文本中获取若干个中间文本且划分成M个中间文本列表,并将每一所述中间文本列表D=(D1,D2,D3,
……
,D
S
),D
r
是指第r个中间文本,r=1
……
s,s为每一所述标注端ID对应的中间文本数量且s≤n,发送至每一所述标注端ID对应的标注端,以使得所述标注端对D
r
进行标注,将标注后的D
r
作为第二样本文本;S400、将所有第二样本文本作为第二训练集输入至所述学习模型中进行训练,得到已训练的学习模型;S500、从所述数据库中N

n个文本均作为目标文本且对每一所述目标文本进行预处理,获取所述目标文本对应的目标语句列表,以所有的所述目标语句列表作为预测集输入至已训练的学习模型中,得到所述目标文本对应的标注文本。2.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S100步骤中,所述样本语句是指将所述第一样本文本按照预设规则进行语句划分处理生成的语句。3.根据权利要求1所述的文本标注的数据处理系统,其特征在于,在S200步骤中,还包括如下步骤确定B
j
:获取A
j
对应的字符列表(A
j1
,A
j2
,A
j3

……
,A
jp
),A
...

【专利技术属性】
技术研发人员:傅晓航刘羽张正义林方
申请(专利权)人:中科雨辰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1