文章标记数据的产生装置及其产生方法制造方法及图纸

技术编号:37714643 阅读:28 留言:0更新日期:2023-06-02 00:09
本发明专利技术提供一种文章标记数据的产生装置及其产生方法。文章标记数据产生方法包含:将文章执行分词处理以产生分词结果;对分词结果进行命名实体识别处理以产生第一识别结果;判断分词结果是否包括有扩充列表中的任一字组;对第一识别结果进行扩充实体类别转换以产生第二识别结果;将第二识别结果以及分词结果作为标记数据。为标记数据。为标记数据。

【技术实现步骤摘要】
文章标记数据的产生装置及其产生方法


[0001]本专利技术涉及文章标记数据产生的
,尤其涉及可以自动产生标记数据的文章标记数据的产生装置及其产生方法。

技术介绍

[0002]在人工智能、机器学习模型及深度学习模型的建立中,训练数据为重要的要件之一。用于监督式学习的训练数据,每笔数据都需要有相对应的答案标记。
[0003]目前的技术是通过人工手动地进行逐笔数据的标记,导致耗费时间且容易发生标记错误的情况,进而造成后续模型训练表现不佳或是训练过程中发生错误。因此,现有产生用于训练模型的标记数据仍有改善的空间。

技术实现思路

[0004]本专利技术提供一种文章标记数据的产生装置及其产生方法,可根据默认的字组以及实体类别产生标记文章中的字组,进而自动产生可用于训练模型的标记数据。
[0005]本专利技术实施例的文章标记数据的产生装置,包含处理器、以及收发器。处理器耦接收发器,且处理器用以:将文章执行分词处理以产生分词结果;依据命名实体识别模型对分词结果进行命名实体识别处理以产生第一识别结果;依据扩充列表判断分词结果本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文章标记数据的产生装置,其特征在于,包括:收发器;以及处理器,耦接所述收发器,用以:将文章执行分词处理以产生分词结果;依据命名实体识别模型对所述分词结果进行命名实体识别处理以产生第一识别结果;依据扩充列表判断所述分词结果是否具有所述扩充列表中的多个字组的任一个字组;当所述分词结果包括有所述扩充列表中的任一个所述多个字组,依据所述扩充列表以及所述分词结果对所述第一识别结果进行扩充实体类别转换以产生第二识别结果;以及将所述第二识别结果以及所述分词结果作为标记数据,且输出所述标记数据。2.根据权利要求1所述的文章标记数据的产生装置,其特征在于,将所述文章执行分词处理以产生所述分词结果的步骤中,所述处理器还用以:将所述文章执行分词处理以及形式转换以产生所述分词结果,形式转换为将所述文章中的每一个为大写形式的文字转换为对应的小写形式的文字;作为所述标记数据的所述分词结果为未经形式转换。3.根据权利要求1所述的文章标记数据的产生装置,其特征在于,当所述分词结果不包括所述扩充列表中的任一个所述多个字组,所述处理器以所述分词结果以及所述第一识别结果作为所述标记数据,且所述处理器输出所述标记数据。4.根据权利要求3所述的文章标记数据的产生装置,其特征在于,所述分词处理是通过分词处理模型所执行,且所述分词处理模型与所述命名实体识别模型分别是基于深度学习所训练的,且所述深度学习包括基于Transformer架构的自然语言处理算法。5.根据权利要求1所述的文章标记数据的产生装置,其特征在于,所述依据所述扩充列表对所述分词结果判断是否包括有所述扩充列表中的任一所述多个字组的步骤之中,所述处理器还用以:依据所述扩充列表中的每一所述多个字组以及对应所述多个字组的多个窗口长度,对所述分词结果进行搜寻处理以判断所述分词结果是否包括任一所述多个字组。6.根据权利要求1所述的文章标记数据的产生装置,其特征在于,对所述第一识别结果进行扩充实体类别转...

【专利技术属性】
技术研发人员:林意淳蔡岳洋林品铨潘可涵朱昇玮
申请(专利权)人:宏碁股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1