文本处理方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:25835537 阅读:21 留言:0更新日期:2020-10-02 14:16
本公开提供了一种文本处理方法、装置、计算机存储介质和电子设备,涉及人工智能领域。方法包括:获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。本公开可以提高文本标签的准召率,降低成本。

【技术实现步骤摘要】
文本处理方法、装置、计算机可读存储介质及电子设备
本公开涉及人工智能
,具体而言,涉及一种文本处理方法、文本处理装置、计算机可读存储介质及电子设备。
技术介绍
随着科学技术和人工智能的迅速发展,文本分类成为一个重要方面,对于文本而言,其所对应的标签不止一个,还可能有多个,如一篇介绍某个人物的文章,很可能对该人物的生平、家庭关系、社会贡献等方面进行描述,因此它应该至少包含父亲、母亲、出生地、居所等标签。由此可见,多标签分类可以提供更加丰富的分类信息,为后续可能的应用,如文本分类管理、监控、过滤等等,提供更大的帮助。目前文本的多标签自动标注都是通过分类模型实现的,在训练分类模型时都是通过将样本(文本、图像或音频)转化为特征向量后进行多标签分类学习的,但是现有方法依赖完备的训练数据集,需要昂贵的人力标注作为支持,极大地限制了领域的扩展和项目的迭代速度,另外现有方法对数据的不平衡问题没有进行优化,导致训练得到的分类模型在对文本进行多标签分类时精准度较差。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;/n通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;/n根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取待处理文本,并将所述待处理文本输入至多标签分类模型中,所述多标签分类模型基于不平衡文本样本集和不平衡衰减损失函数训练得到,所述不平衡文本样本集为标签正样本的数量和标签负样本的数量不均衡的文本样本集,所述不平衡衰减损失函数包括第一损失部、第二损失部和召回损失;
通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签;
根据所述标签从所述待处理文本中获取对应的实体,并根据所述标签和所述实体构建三元组,以根据所述三元组更新知识图谱。


2.根据权利要求1所述的文本处理方法,其特征在于,所述多标签分类模型包括特征生成子模型和分类子模型;
所述通过所述多标签分类模型对所述待处理文本进行属性抽取,以获取与所述待处理文本对应的标签,包括:
将所述待处理文本输入至所述特征生成子模型进行向量化处理和词性拼接处理,以获取与所述待处理文本对应的特征向量;
将所述特征向量输入至所述分类子模型进行特征提取,以获取标签预测概率值;
根据第一预设概率阈值和所述标签预测概率值确定与所述待处理文本对应的标签。


3.根据权利要求2所述的文本处理方法,其特征在于,所述特征生成子模型包括字向量化网络层、词性编码层和拼接层;
所述将所述待处理文本输入至所述特征生成子模型进行向量化处理和词性拼接处理,以获取与所述待处理文本对应的特征向量,包括:
通过所述字向量化网络层将所述待处理文本中的各个文字转换为字向量;
通过所述词性编码层对所述待处理文本进行分词,并对获取的各个分词的词性进行编码,以获取词性编码信息;
通过所述拼接层对各所述文字对应的字向量和词性编码信息进行拼接,以获取与各所述文字对应的特征子向量;
根据所述待处理文本中所有文字对应的特征子向量确定与所述待处理文本对应的特征向量。


4.根据权利要求3所述的文本处理方法,其特征在于,各所述文字对应的词性编码信息为与各所述文字的词性标注对应的独热编码,其中各所述文字的词性标注包括头位置编码和后续位置编码。


5.根据权利要求2所述的文本处理方法,其特征在于,所述分类子模型包括第一高速公路网络层、第二高速公路网络层和基于卷积神经网络的特征强化子模型;
所述将所述特征向量输入至所述分类子模型进行特征提取,以获取标签预测概率值,包括:
通过所述第一高速公路网络层和所述第二高速公路网络层依次对所述特征向量进行信息回流处理,以获取目标特征信息;
通过所述基于卷积神经网络的特征强化子模型对所述目标特征信息进行特征提取,以获取所述标签预测概率值。


6.根据权利要求1所述的文本处理方法,其特征在于,所述方法还包括:
获取所述不平衡文本样本集以及与所述不平衡文本样本集中各文本样本对应的多标签样本;
根据所述不平衡文本样本集和所述多标签样本对待训练多标签分类模型进行训练,以获取所述多标签分类模型。


7.根据权利要求6所述的文本处理方法,其特征在于,所述文本样本集包括多个文本样本,所述待训练多标签分类模型包括待训练特征生成子模型和待训练分类子模型;
所述根据所述文本样本集和所述多标签样本对待训练多标签分类模型进行训练,以获取所述多标签分类模型,包括:
通过所述待训练特征生成子模型对各所述文本样本进行向量化处理和词性拼接处理,以获取与各所述文本样本对应的特征向量样本;
通过所述待训练分类子模型对所述特征向量样本进行特征提取,以获取标签...

【专利技术属性】
技术研发人员:张倩汶闫昭饶孟良曹云波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1