文本标注方法、装置及电子设备制造方法及图纸

技术编号:33284792 阅读:34 留言:0更新日期:2022-04-30 23:49
本公开提供了文本标注方法、装置及电子设备,涉及自然语言处理和知识图谱等人工智能技术领域。具体实现方案为:通过获取待标注的目标文本,实现采用识别模型识别所述目标文本所属的目标属性标签,从而采用文本标注模型对所述目标文本中多个文本片段进行序列标注,以确定各所述文本片段的词槽类别,在针对各所述文本片段,从设定图谱中查询与所述目标属性标签匹配,且与对应词槽类别匹配的目标类别节点之后,根据各所述文本片段匹配的目标类别节点所关联的实体,对各所述文本片段进行标注。由此,实现基于目标类别节点关联的实体对文本进行标注时,能够有效缩减实体范围,使得文本标注的实体准确度更高,提升文本标注的质量。提升文本标注的质量。提升文本标注的质量。

【技术实现步骤摘要】
文本标注方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及自然语言处理和知识图谱领域,具体涉及一种文本标注方法、装置及电子设备。

技术介绍

[0002]文本标注是基于文本语义对文本进行标记的过程,基于文本标注理解文本语义,在问答、搜索和阅读理解中均有广泛的应用场景。
[0003]文本作为语言的一部分,除了基础的字词含义、属性、语法等逻辑明确的层面,还有许多维度的特征:语境、情感、目的等等,使得相同文本在不同语境下存在不同语义,给文本标注增加了难度。因此,提高文本标注的质量,对于全面并准确地理解文本具有重要意义。

技术实现思路

[0004]本公开提供了一种用于文本标注的方法、装置、设备以及存储介质。
[0005]根据本公开的一方面,提供了一种文本标注方法,包括:
[0006]获取待标注的目标文本;
[0007]采用识别模型识别所述目标文本所属的目标属性标签;
[0008]采用文本标注模型对所述目标文本中多个文本片段进行序列标注,以确定各所述文本片段的词槽类别;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标注方法,包括:获取待标注的目标文本;采用识别模型识别所述目标文本所属的目标属性标签;采用文本标注模型对所述目标文本中多个文本片段进行序列标注,以确定各所述文本片段的词槽类别;针对各所述文本片段,从设定图谱中查询与所述目标属性标签匹配,且与对应词槽类别匹配的目标类别节点;根据各所述文本片段匹配的目标类别节点所关联的实体,对各所述文本片段进行标注。2.根据权利要求1所述的方法,其中,所述针对各所述文本片段,从设定图谱中查询与所述目标属性标签匹配,且与对应词槽类别匹配的目标类别节点,包括:从设定图谱中获取与所述目标属性标签匹配的目标子图;将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配,以确定各所述文本片段匹配的目标类别节点。3.根据权利要求2所述的方法,其中,所述从设定图谱中获取与所述目标属性标签匹配的目标子图,包括:查询所述设定图谱中各类别节点的标签;在所述设定图谱中,将具有所述目标属性标签的类别节点及其子类别节点,确定为与所述目标属性标签匹配的目标子图。4.根据权利要求2所述的方法,其中,所述将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配,以确定各所述文本片段匹配的目标类别节点,包括:查询所述目标子图中各类别节点的节点描述;针对任意的一文本片段,将所述词槽类别分别与各所述类别节点的节点描述进行语义匹配,以确定匹配的目标类别节点。5.根据权利要求1-4任一项所述的方法,其中,所述采用文本标注模型对所述目标文本中多个文本片段进行序列标注,以确定各所述文本片段的词槽类别,包括:采用粗粒度的文本标注模型对所述目标文本中多个粗粒度的文本片段进行序列标注,以确定各粗粒度的文本片段的词槽类别;采用细粒度的文本标注模型对所述目标文本中多个细粒度的文本片段进行序列标注,以确定各细粒度的文本片段的词槽类别。6.根据权利要求1-4任一项所述的方法,其中,所述方法,还包括:获取训练语料;其中,所述训练语料具有标准属性标签,且所述训练语料划分为多个标准片段,各所述标准片段标注有期望类别;将所述训练语料输入预训练语言模型进行特征提取,以得到所述训练语料中各字符的特征编码,以及所述训练语料的语义编码;将所述训练语料的语义编码输入所述识别模型进行意图和/或领域识别,以得到预测标签;将所述各字符的特征编码输入所述文本标注模型进行序列标注,以得到所述训练语料中多个文本片段的预测类别;
根据各所述预测类别,与对应期望类别之间的差异,以及根据所述预测标签与所述标准属性标签之间的差异,确定损失函数取值;根据所述损失函数取值,对所述预训练语言模型、所述识别模型和所述文本标注模型进行模型训练。7.根据权利要求1-4任一项所述的方法,其中,所述识别模型用于所述目标文本的意图和/或领域识别。8.一种文本标注装置,包括:获取模块,用于获取待标注的目标文本;识别模块,用于采用识别模型识别所述目标文本所属的目标属性标签;第一标注模块,用于采用文本标注模型对所述目标文本中多个文本片段进行序列标注,以确定各所述文本片段的词槽类别;查询模块,用于...

【专利技术属性】
技术研发人员:林泽南赵岷张国鑫秦华鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1