一种数据标注方法、装置、设备、介质及产品制造方法及图纸

技术编号:35835655 阅读:13 留言:0更新日期:2022-12-03 14:06
本申请公开了一种数据标注方法、装置、设备、介质及产品。该数据标注方法包括获取第一富文本文档数据;将其按照富文本的结构元素进行拆分,得到多个与多个数据元素一一对应的数据片段;然后显示得到的数据片段,响应于用户对所述数据片段中的待标注数据的标注操作,生成待标注数据的标签。根据本申请实施例,可以实现模型训练的快速收敛,提高模型训练的效率。率。率。

【技术实现步骤摘要】
一种数据标注方法、装置、设备、介质及产品


[0001]本申请属于人工智能
,具体涉及机器学习和深度学习领域,尤其涉及一种数据标注方法、装置、设备、介质及产品。

技术介绍

[0002]模型训练采用的训练数据中的标签数据需要进行数据标注得到,目前市面上所有的数据标注工具均仅能对纯文本格式的文档进行标注。
[0003]所以,在对富文本的数据进行标注之前,需要将富文本转换为纯文本格式。而在文档格式转换上总会出现少部分的格式转换错误的样本。此外,转换后的纯文本文档丧失了富文本中的先验结构信息,例如,当富文本为HTML文本文档时,转换后的纯文本文档会丧失原先html的标签信息,如h1

h4(表示标题),粗体,斜体等富文本信息,而这些信息往往能够帮助模型在训练时进行更快的收敛。
[0004]因此,现有的数据标注方法,不利于模型训练的快速收敛,导致模型训练的效率较低。

技术实现思路

[0005]本申请实施例提供一种数据标注方法、装置、设备、介质及产品,能够实现模型训练的快速收敛,提高模型训练的效率。
[0006]第一方面,本申请实施例提供一种数据标注方法,该方法包括:
[0007]获取第一富文本文档数据;
[0008]将第一富文本文档数据按照富文本的结构元素进行拆分,得到多个与多个数据元素一一对应的数据片段;
[0009]显示数据片段;
[0010]响应于用户对数据片段中的待标注数据的标注操作,生成待标注数据的标签。
[0011]第二方面,本申请实施例提供了一种数据标注装置,该装置包括:
[0012]获取模块,用于获取第一富文本文档数据;
[0013]拆分模块,用于将第一富文本文档数据按照富文本的结构元素进行拆分,得到多个与多个数据元素一一对应的数据片段;
[0014]显示模块,用于显示数据片段;
[0015]生成模块,用于响应于用户对数据片段中的待标注数据的标注操作,生成待标注数据的标签。
[0016]第三方面,本申请实施例提供了一种电子设备,该电子设备包括:
[0017]处理器以及存储有计算机程序指令的存储器;
[0018]处理器执行计算机程序指令时实现如第一方面任意一项实施例中的数据标注方法的步骤。
[0019]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质
上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的任意一项实施例中的数据标注方法的步骤。
[0020]第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如第一方面的任一项实施例中的数据标注方法的步骤。
[0021]本申请实施例中的数据标注方法,在获取到待标注的第一富文本文档数据后,会按照富文本的结构元素进行拆分,得到多个与多个数据元素一一对应的数据片段,然后用户基于该数据片段,对待标注数据进行标注。在该方法中,因数据片段是根据富文本的结构元素进行拆分的,得到的标注数据中包括了富文本的结构元素。所以,通过该数据标注方法得到的标注数据保留了富文本的结构元素信息,即富文本标签信息。而富文本标签信息有利于模型训练过程中的模型收敛。故基于该数据标注方法得到的标注数据进行模型训练,提高了模型训练的效率。
附图说明
[0022]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请实施例提供的一种数据标注方法的流程示意图;
[0024]图2是本申请实施例提供的另一种数据标注方法的流程示意图;
[0025]图3是本申请S270的具体实现方式的示意图;
[0026]图4是本申请实施例提供的再一种数据标注方法的流程示意图;
[0027]图5是本申请实施例提供的一种数据标注装置的结构示意图;
[0028]图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0029]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0030]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0031]本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0032]HTML:它是一种用于创建网页的标准标记语言,一种基础技术,常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。
[0033]为了方便理解本申请实施例的技术方案,首先对本申请实施例对应的
技术介绍
简单介绍一下。
[0034]如
技术介绍
所述,专利技术人发现,当前市面上所有的数据标注工具均仅能对纯文本格式的文档进行标注,因此在对富文本的数据进行标注之前,需要将富文本转换为纯文本格式,然而在转换的过程中总会出现少部分的格式转换错误的样本,还会丢失掉富文本中的先验结构信息,这样的数据标注方法不利于模型训练的快速收敛,会导致模型训练的效率较低。
[0035]为了解决上述模型训练快速收敛的问题,本申请实施例提供了一种数据标注方法,通过获取待标注的第一富文本文档数据,然后按照富文本文档的结构元素进行拆分,得到多个与多个数据元素一一对应的数据片段,然后用户基于该数据片段,对待标注数据进行标注。标注操作之后所得到的标注数据中包括了富文本的结构元素,所以,通过该数据标注方法得到的标注数据保留了富文本的结构元素信息,即富文本标签信息。从而可以让后续的模型训练过程中增加特征维度,提高模型训练效率。
[0036]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据标注方法进行详细地说明。
[0037]图1是本申请实施例提供的一种数据标注方法的流程示意图,如图1所示,本申请实施例提供的数据标注方法可以包括如下步骤:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,包括:获取第一富文本文档数据;将所述第一富文本文档数据按照富文本的结构元素进行拆分,得到多个与多个数据元素一一对应的数据片段;显示所述数据片段;响应于用户对所述数据片段中的待标注数据的标注操作,生成所述待标注数据的标签。2.根据权利要求1所述的方法,其特征在于,所述得到多个与多个数据元素一一对应的数据片段之后,所述方法还包括:分别记录每个所述数据片段的数据片段标识以及结构元素信息以及对应所述富文本文档数据的样式,所述数据片段标识根据所述数据片段在所述第一富文本文档数据的顺序确定;在每个所述数据片段中确定多个分句包含的标点符号;对所述数据片段按照标点符号进行分句处理,并记录每一个句子的句子标识,所述句子标识根据所述数据片段中的顺序确定;记录与所述待标注数据对应的标注数据,所述标注数据包括:所述待标注数据所在的数据片段标识、所述结构元素、所述富文本文档数据的样式以及所述句子标识。3.根据权利要求2所述的方法,其特征在于,还包括:基于每个所述数据片段的数据片段标识、结构元素信息、富文本文档的数据样式以及句子标识,将所述第一富文本文档数据构建为可缩放矢量图形SVG的幕布;将所述SVG的幕布转化为SVG的文字;根据SVG的文字,用户对所述SVG的每一行文字中的待标注数据的标注操作,确定所述待标注数据的开始字位置和结束字位置;所述标注数据还包括所述待标注数据的开始字位置和结束字位置。4.根据权利要求2所述的方法,其特征在于,所述对所述数据片段按照标点符号进行分句处理之后,所述方法还包括:根据所述数据片段中包括的句子数量,标注所述数据片段的片段属性;在第一数据片段中仅包括一句话的情况下,将所述第一数据片段的属性记录为第一预设属性;在第一数据片段中包括至少两句话的情况下,将所述第一数据片段的属性记录为第二预设属性。5.根据权利要求1所述的方法,其特征在于,还包括:将每个所述数据片段及其对应的标注数据作为序列中的元素,构建包括多个元素的序列;根据所述序列对模型进行训练,得到用于提取富文本文档数据中元素的目标模型。6.根据权利要求1

5任一项所述的方法,其特征在于,所述得到用于提取富文本文档数据中元素的目标模型之后,所述方法还包括:获取第二富文本文...

【专利技术属性】
技术研发人员:罗奕康张士存戴菀庭王伊妍聂砂郑江
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1