素材标注方法、装置、终端和计算机可读存储介质制造方法及图纸

技术编号:21200931 阅读:22 留言:0更新日期:2019-05-25 01:33
本发明专利技术实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质,根据预设的算法模型对待标注素材集中的素材进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次素材标注。通过本发明专利技术实施例的实施,以每一次标注后的结果来更新算法模型,从而大大减少了人工标注的工作量,同时也提升了标注的一致性和准确性。

Material labeling methods, devices, terminals and computer readable storage media

The embodiment of the present invention provides a material annotation method, device, terminal and computer readable storage medium. According to the preset algorithm model, the material to be annotated in the material set is annotated. The corresponding training set is generated based on the annotation result, and the algorithm model is updated through the training set for the next material annotation. Through the implementation of the embodiment of the present invention, the algorithm model is updated with the result of each annotation, thus greatly reducing the workload of manual annotation, and improving the consistency and accuracy of annotation.

【技术实现步骤摘要】
素材标注方法、装置、终端和计算机可读存储介质
本专利技术涉及无线通信
,尤其涉及一种素材标注方法、装置、终端和计算机可读存储介质。
技术介绍
在人工智能飞速发展的今天,对于各素材的标注和校对工作一直需要消耗大量的时间和人力。素材的标注和校对需要通过分析大量的训练素材得到,这些训练素材被事先按照一定的逻辑进行标注,通常都是人工标注,标注过程需要耗费大量的人力和时间。标注的过程实际上是对素材中的特征进行解释的过程,不同的人可能会有不同的解释结果,所以素材标注带有很大的主观性。不同的标注者的知识结构和语法理论也各不相同,导致标注的结果千奇百怪难以统一。
技术实现思路
本专利技术实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质,旨在解决现有技术中素材标注耗时耗力,且标注结果难以统一的问题。为了解决上述技术问题,本专利技术实施例提供了一种素材标注方法,所述素材标注方法包括:根据预设的算法模型对待标注素材集中的素材进行标注;基于标注的结果,生成对应的训练集;通过所述训练集更新所述算法模型,用于下一次的素材标注。此外,本专利技术实施例还提供一种素材标注装置,包括:素材标注模块,用于根据预设的算法模型对待标注素材集中的素材进行标注;训练生成模块,用于基于标注的结果,生成对应的训练集;算法训练模块,用于通过所述训练集更新所述算法模型,用于下一次的素材标注。此外,本专利技术实施例还提供一种终端,包括处理器、存储器和通信总线;所述通信总线用于实现所述处理器和存储器之间的连接通信;所述处理器用于执行所述存储器中存储的素材标注程序,以实现前述的素材标注方法的步骤。此外,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个计算机程序,所述计算机程序可被一个或者多个处理器执行以实现前述的素材标注方法的步骤。本专利技术的有益效果是:本专利技术实施例提供了一种素材标注方法、装置、终端和计算机可读存储介质,根据预设的算法模型对待标注素材集中的素材进行标注,基于标注结果生成对应的训练集,通过训练集更新算法模型,用于下一次素材标注。通过本专利技术实施例的实施,以每一次标注后的结果来更新算法模型,从而大大减少了人工标注的工作量,同时也提升了标注的一致性和准确性。附图说明图1为本专利技术第一实施例提供的一种素材标注方法流程图;图2为本专利技术第一实施例提供的一种素材标注示意图;图3为本专利技术第二实施例提供的一种素材标注方法细化流程图;图4为本专利技术第三实施例提供的一种素材标注示意图;图5为本专利技术第四实施例提供的一种素材标注装置组成示意图;图6为本专利技术第五实施例提供的一种终端组成示意图。具体实施方式第一实施例请参考图1,图1是本专利技术第一实施例提供的一种素材标注方法流程图,包括:S101、根据预设的算法模型对待标注素材集中的素材进行标注;S102、基于标注的结果,生成对应的训练集;S103、通过训练集更新算法模型,用于下一次的素材标注。素材标注,其中素材可以包括智能问答系统中的语料,文本识别中的文本,以及音视频、图片等多媒体素材。这些素材中往往包含了很多很丰富的内容,但是计算机可能不能直接的识别和读取,因此需要对这些素材进行标注,标注也就是对素材库中的素材进行加工,把素材中的各种特征以计算机可识别的方式进行标注,比如说,将图片素材中的以图片形式呈现的信息以文本的格式进行标注,或者是人脸识别,以图像中的面部特征的像素点坐标和像素值进行标注,或者如语料库中的语料,把各种表示语言特征的标签标注在相应的语言成分上,以便于计算机的识别和读取。标注的具体方式根据应用场景的不同而有所区别,原理上都是基于一定的逻辑,将待标注素材集中的素材的各个特征进行计算机可识别的标注。确定已生成的算法模型。算法模型就是标注素材所参考的算法,后续的素材标注参考的算法模型都是上一次素材标注之后所确定出来的算法模型。算法模型需要经过分析训练集来得到,其中,算法模型根据生成时机的不同,大致分为初始算法模型和过渡算法模型两种。初始算法模型,也就是在本次素材标注中,第一个算法模型,这个算法模型大致决定了以后所有相关的素材标注的算法逻辑。过渡算法模型指的就是在初始算法模型之外的算法模型,与初始算法模型不同,过渡算法模型通常是持续变化的。具体的,确定已生成的算法模型,可以包括:对初始素材集中的素材进行人工标注,生成初始训练集;基于初始训练集,训练生成初始算法模型;参考初始算法模型对待标注素材集中的素材进行标注,并基于标注结果更新初始算法模型,形成过渡算法模型;参考过渡算法模型对下一次待标注素材集中的素材进行标注,并基于标注结果更新过渡算法模型,如此迭代进行素材标注和算法模型的更新,确定算法模型。上述步骤示出了算法模型的通用生成方式,具体而言,算法模型是基于初始算法模型,经过若干次标注更新迭代之后所形成。而初始算法模型的生成方式,一种可选的方式为,首先,以人工标注的方式,对初始素材集中的素材进行标注。这里的人工标注没有可参考的算法模型,根据人为的认知来自行确定素材的各个特征如何标注。然后,在标注完成之后,以标注结果为参照,生成对应的初始训练集。训练集是训练生成算法模型的集合,训练集中往往有大量的对象,对这些对象进行训练就可以生成想要的算法模型,而初始训练集,就是最初的用于训练算法模型的训练集。然后,基于初始训练集进行训练,得到初始算法模型。此时,由于初始素材集是以人工标注的方式进行标注的,为了保证所得到的初始算法模型的可靠性,还可以进行校验,校验可由其他人来进行,相当于参考多个校验者来确定初始算法模型。初始算法模型在确定之后,就作为第二次素材标注的算法模型,也就是下一次的算法模型的参考算法模型。而在参考初始算法模型对素材进行标注之后,此时会得到相应的标注结果,以及根据标注结果所生成的训练集;这是不同于初始训练集的新增的训练集,第二次的素材标注中的素材与第一次中的素材往往是不同的,那么,在结合相同的算法模型进行标注之后得到的训练集,作为初始算法模型的更新包更新初始算法模型,让初始算法模型可以囊括更多更详尽的算法模型。此时所得到的算法模型就不再是初始算法模型,而是算法模型中的过渡算法模型。初始算法模型只有一个,过渡算法模型则通常有多个,这多个过渡算法模型就是通过在每一次的算法模型对素材进行标注之后,得到的训练集再更新该算法模型所得,换言之,每一次的素材标注,所参考的都是上一次素材标注后所更新的算法模型,且本次素材标注之后,更新的算法模型又作为下一次的素材标注所参考的算法模型。如此下去,迭代的次数越多,算法模型的覆盖面就越广,涉及的素材类型和领域就越多,对于后续的素材标记的准确率也就越高。S101中,根据算法模型对待标注素材集中的素材进行标注。这里的标注过程就是前一次素材集中的素材标注的下一个迭代;而具体的,根据算法模型对待标注素材集中的素材进行标注可以包括:确定待标注素材集中,与算法模型领域相同的第一素材,以及与算法模型领域不同的第二素材;直接通过算法模型对第一素材进行标注;以及,通过人工标注对第二素材进行标注。待标注的素材集中的素材,大致可以分为两类:一类是可直接通过算法模型进行标注的,这类的素材即与算法模型领域相同的第一素材;一类是不能直接通过算法模型进行标注的,这类的素材即与算法本文档来自技高网...

【技术保护点】
1.一种素材标注方法,其特征在于,包括:根据预设的算法模型对待标注素材集中的素材进行标注;基于标注的结果,生成对应的训练集;通过所述训练集更新所述算法模型,用于下一次的素材标注。

【技术特征摘要】
1.一种素材标注方法,其特征在于,包括:根据预设的算法模型对待标注素材集中的素材进行标注;基于标注的结果,生成对应的训练集;通过所述训练集更新所述算法模型,用于下一次的素材标注。2.如权利要求1所述的素材标注方法,其特征在于,所述根据所述预设的算法模型对待标注素材集中的素材进行标注包括:确定所述待标注素材集中,与所述算法模型领域相同的第一素材,以及与所述算法模型领域不同的第二素材;直接通过所述算法模型对所述第一素材进行标注;以及,通过人工标注对所述第二素材进行标注。3.如权利要求2所述的素材标注方法,其特征在于,所述直接通过所述算法模型对所述第一素材进行标注包括:对所述第一素材中,无法通过所述算法模型进行标注的部分,通过人工标注进行标注。4.如权利要求1-3任一项所述的素材标注方法,其特征在于,还包括:根据在各次根据所述算法模型对待标注素材集中的素材进行标注时,各次标注的准确率,评估所述算法模型对所述待标注素材的标注能力是否达标。5.如权利要求1-3任一项所述的素材标注方法,其特征在于,所述通过所述训练集更新所述算法模型包括:对所述训练集进行校验;在校验完成后,通过校验后的训练集对所述算法模型进行更新。6.如权利要求5所述的素材...

【专利技术属性】
技术研发人员:陆艳刘勇高洪
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1