文章标记数据的产生装置及其产生方法制造方法及图纸

技术编号:37714643 阅读:23 留言:0更新日期:2023-06-02 00:09
本发明专利技术提供一种文章标记数据的产生装置及其产生方法。文章标记数据产生方法包含:将文章执行分词处理以产生分词结果;对分词结果进行命名实体识别处理以产生第一识别结果;判断分词结果是否包括有扩充列表中的任一字组;对第一识别结果进行扩充实体类别转换以产生第二识别结果;将第二识别结果以及分词结果作为标记数据。为标记数据。为标记数据。

【技术实现步骤摘要】
文章标记数据的产生装置及其产生方法


[0001]本专利技术涉及文章标记数据产生的
,尤其涉及可以自动产生标记数据的文章标记数据的产生装置及其产生方法。

技术介绍

[0002]在人工智能、机器学习模型及深度学习模型的建立中,训练数据为重要的要件之一。用于监督式学习的训练数据,每笔数据都需要有相对应的答案标记。
[0003]目前的技术是通过人工手动地进行逐笔数据的标记,导致耗费时间且容易发生标记错误的情况,进而造成后续模型训练表现不佳或是训练过程中发生错误。因此,现有产生用于训练模型的标记数据仍有改善的空间。

技术实现思路

[0004]本专利技术提供一种文章标记数据的产生装置及其产生方法,可根据默认的字组以及实体类别产生标记文章中的字组,进而自动产生可用于训练模型的标记数据。
[0005]本专利技术实施例的文章标记数据的产生装置,包含处理器、以及收发器。处理器耦接收发器,且处理器用以:将文章执行分词处理以产生分词结果;依据命名实体识别模型对分词结果进行命名实体识别处理以产生第一识别结果;依据扩充列表判断分词结果是否包括有扩充列表中的任一个字组;当分词结果包括有扩充列表中的字组,依据扩充列表以及分词结果对第一识别结果进行扩充实体类别转换以产生第二识别结果;以及,将第二识别结果以及分词结果作为标记数据且输出标记数据。
[0006]本专利技术实施例的文章标记数据的产生方法包括:处理器将文章执行分词处理以产生分词结果;依据命名实体识别模型处理器对分词结果进行命名实体识别处理以产生第一识别结果;依据扩充列表处理器判断分词结果是否包括有扩充列表中的任一个字组;当分词结果包括有扩充列表中的字组,依据扩充列表以及分词结果处理器对第一识别结果进行扩充实体类别转换以产生第二识别结果;以及,处理器将第二识别结果以及分词结果作为标记数据,且输出标记数据。
[0007]基于上述,本专利技术的文章标记的产生装置可自动地产生具有关于扩充列表的实体类别的文章标记数据。并且,标记数据可用于作为命名实体识别模型的训练数据。
附图说明
[0008]包含附图以便进一步理解本专利技术,且附图并入本说明书中并构成本说明书的一部分。附图说明本专利技术的实施例,并与描述一起用于解释本专利技术的原理。
[0009]图1是依据本专利技术的一实施例示出一种文章标记数据的产生装置的示意图;
[0010]图2是依据本专利技术的一实施例示出存储器的示意图;
[0011]图3是依据本专利技术的一实施例示出一种文章标记数据的产生方法的流程图;
[0012]图4是根据本专利技术的另一实施例示出一种文章标记数据的产生方法的流程图。
[0013]附图标号说明
[0014]1:文章标记装置;
[0015]110:处理器;
[0016]120:收发器;
[0017]130:存储器;
[0018]131:爬虫模块;
[0019]132:分词处理模型;
[0020]133:命名实体识别模型;
[0021]134:训练模块;
[0022]S210、S220、S230、S240、S241、S242、S250、S260、S410、S420、S430:步骤。
具体实施方式
[0023]现将详细地参考本专利技术的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
[0024]图1是依据本专利技术的一实施例示出一种文章标记数据的产生装置的示意图。文章标记数据的产生装置1可包含处理器110、以及收发器120。文章标记数据的产生装置1可用于自动地产生标记数据,以用在扩充命名实体识别模型的训练样本,进而强化与扩充命名实体识别模型的识别范围与功效。
[0025]处理器120例如为中央处理单元(Central Processing Unit,CPU)、图像处理单元(Graphic Processing Unit,GPU)、物理处理单元(Physics Proces sing Unit,PPU)、可程序化的微处理器(Microprocessor)、嵌入式控制芯片、数字信号处理器(Digital Signal Processor,DSP)、特殊应用集成电路(App lication Specific Integrated Circuits,ASIC)、图形处理器(graphics processi ng unit,GPU)、图像信号处理器(image signal processor,ISP)、图像处理单元(image processing unit,IPU)、算数逻辑单元(arithmetic logic unit,ALU)、复杂可程序逻辑装置(complex programmable logic device,CPLD)、现场可程序化逻辑门阵列(field programmable gate array,FPGA)或其他类似组件或上述组件的组合。处理器110可耦接至收发器120。
[0026]收发器120以无线或有线的方式传送及接收信号。收发器130还可以执行例如低噪声放大、阻抗匹配、混频、向上或向下频率转换、滤波、放大以及类似的操作。
[0027]在另一实施例中,产生装置1还可包括存储器130,存储器130耦接处理器110。存储器130例如是任何型态的固定式或可移动式的随机存取内存(random access memory,RAM)、只读存储器(read

only memory,ROM)、闪存(flash memory)、硬盘(hard disk drive,HDD)、固态硬盘(solid stat e drive,SSD)或类似组件或上述组件的组合,而用在存储可由处理器110执行的多个模块或各种应用程序。图2是依据本专利技术的一实施例示出存储器的示意图。如图2在本实施例中,存储器130可存储包含爬虫模块131、分词处理模型132、命名实体识别(named entity recognition,NER)模型133以及训练模块134等多个模块,其功能将在后续说明。处理器110,并且存取和执行存储在存储器130中的多个模块和各种应用程序。
[0028]下文中,将搭配文章标记数据的产生装置1中的各项装置、组件和/或模块说明本
专利技术实施例所述的方法。本方法的各个流程可依照实施情形而随之调整,且并不仅限于此。
[0029]图3是依据本专利技术的一实施例示出一种文章标记数据的产生方法的流程图,这文章标记数据的产生方法可由如图1所示的文章标记数据的产生装置1实施。在本实施例中,处理器110将文章执行分词处理以产生一分词结果(步骤S210)。在一实施例中,处理器110依据爬虫模块,而通过爬虫技术取得多篇文章(article)。举例来说,爬虫模块可通过收发器130存取新闻网站或医疗网站,并且利用爬虫技术以从这新闻网站或医疗网站中取得多篇新闻与文章。在另一实施例中,爬虫模块可根据默认周期重复地存储文章至存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文章标记数据的产生装置,其特征在于,包括:收发器;以及处理器,耦接所述收发器,用以:将文章执行分词处理以产生分词结果;依据命名实体识别模型对所述分词结果进行命名实体识别处理以产生第一识别结果;依据扩充列表判断所述分词结果是否具有所述扩充列表中的多个字组的任一个字组;当所述分词结果包括有所述扩充列表中的任一个所述多个字组,依据所述扩充列表以及所述分词结果对所述第一识别结果进行扩充实体类别转换以产生第二识别结果;以及将所述第二识别结果以及所述分词结果作为标记数据,且输出所述标记数据。2.根据权利要求1所述的文章标记数据的产生装置,其特征在于,将所述文章执行分词处理以产生所述分词结果的步骤中,所述处理器还用以:将所述文章执行分词处理以及形式转换以产生所述分词结果,形式转换为将所述文章中的每一个为大写形式的文字转换为对应的小写形式的文字;作为所述标记数据的所述分词结果为未经形式转换。3.根据权利要求1所述的文章标记数据的产生装置,其特征在于,当所述分词结果不包括所述扩充列表中的任一个所述多个字组,所述处理器以所述分词结果以及所述第一识别结果作为所述标记数据,且所述处理器输出所述标记数据。4.根据权利要求3所述的文章标记数据的产生装置,其特征在于,所述分词处理是通过分词处理模型所执行,且所述分词处理模型与所述命名实体识别模型分别是基于深度学习所训练的,且所述深度学习包括基于Transformer架构的自然语言处理算法。5.根据权利要求1所述的文章标记数据的产生装置,其特征在于,所述依据所述扩充列表对所述分词结果判断是否包括有所述扩充列表中的任一所述多个字组的步骤之中,所述处理器还用以:依据所述扩充列表中的每一所述多个字组以及对应所述多个字组的多个窗口长度,对所述分词结果进行搜寻处理以判断所述分词结果是否包括任一所述多个字组。6.根据权利要求1所述的文章标记数据的产生装置,其特征在于,对所述第一识别结果进行扩充实体类别转...

【专利技术属性】
技术研发人员:林意淳蔡岳洋林品铨潘可涵朱昇玮
申请(专利权)人:宏碁股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1