信息标注模型的构建方法以及信息标注的生成方法技术

技术编号:32200007 阅读:25 留言:0更新日期:2022-02-08 16:06
本发明专利技术提供了一种信息标注模型的构建方法,该方法包括:根据原始样本构建训练样本,原始样本为语句,训练样本为带有语义并带有标注的语句,标注用于表示训练样本中每一个词汇的类别;其中,根据多个预设类别名称获取多个原始样本;从原始样本中筛选出多个词汇样本;计算每一个词汇样本的TF

【技术实现步骤摘要】
信息标注模型的构建方法以及信息标注的生成方法


[0001]本专利技术涉及计算机领域,尤其涉及一种信息标注模型的构建方法、信息标注的生成方法、用于文本信息标注的模型、计算机可读存储介质以及计算机设备。

技术介绍

[0002]在零样本学习中,测试时会出现训练时模型从未见过的类的图片,我们称之为未见类,而零样本学习的目的就在于通过训练的已知类的语义描述信息和测试的未见类的语义描述信息,作为模型识别未见类的桥梁。让模型虽未见过未见类的图片,也能结合其语义描述信息和从已知类中学习到的图片特征将未见类的图片识别出来。当下用作类别语义信息的大致有如下两种。
[0003]第一种是基于基于机器学习模型的语义向量的方法,该方法中,使用机器学习模型来获得类别的语义表示。具体的,又可以分为标签嵌入(Label

emdedding)和文本嵌入(Text

embedding)方法。标签嵌入是通过嵌入类标签来获得类原型的语义表示向量,对于每一个类它的类标签都是一个单词或者短语,而使用词嵌入模型,例如Word3Vec和GloVe本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法包括:根据原始样本构建训练样本,其中,所述原始样本为包括若干词汇的语句,所述训练样本为包括若干带有标注的词汇的语句,所述标注为所述词汇的特征描述词类别;获取原始样本;从所述原始样本中得到多个目标词汇样本;计算每一个目标词汇样本的TF

IDF值;根据所述TF

IDF值从所述多个目标词汇样本中筛选出多个特征描述词;将所述多个特征描述词转化为多个词向量;将所述多个词向量进行聚类得到多个特征描述词类别;根据所述多个特征描述词类别对原始样本中每一个词汇进行标注得到训练样本;将所述训练样本输入初始训练模型进行训练得到信息标注模型。2.如权利要求1所述的信息标注模型的构建方法,其特征在于,从所述原始样本中得到多个目标词汇样本,具体包括:对所述原始样本进行分词得到多个原始词汇样本;删除所述多个原始词汇样本中停用词和特殊字符得到所述多个目标词汇样本。3.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法根据word2vec模型将所述多个特征描述词转化为多个词向量。4.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法利用k

means聚类方法将所述多个词向量进行聚类得到多个特征描述词类别。5.如权利要求1所述的信息标注模型的构建方法,其特征在于,所述信息标注模型的构建方法利用BIO标注方法和所述多个特征描述词类别对原始样本中每一个词汇进行...

【专利技术属性】
技术研发人员:刘国清杨广王启程杜佩佩杨国武
申请(专利权)人:深圳佑驾创新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1