一种标签生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39296787 阅读:5 留言:0更新日期:2023-11-07 11:04
本申请实施例公开了一种标签生成方法、装置、计算机设备和存储介质;本申请实施例可以获取针对目标应用的搜索文本信息,其中,搜索文本信息包括至少一个搜索文本单元;根据目标应用的属性信息,对搜索文本单元进行实体标签预测处理,得到搜索文本单元的预测实体标签;基于搜索文本单元在搜索文本信息中的语境信息,对搜索文本单元的预测实体标签进行语义判别处理,得到搜索文本单元的判别后实体标签;对搜索文本单元的判别后实体标签进行标签校正处理,得到搜索文本单元的校正后实体标签;根据搜索文本单元的校正后实体标签,生成搜索文本信息的目标实体标签,可以实现自动化对文本标签信息进行标签生成处理,提高标签生成的效率。效率。效率。

【技术实现步骤摘要】
一种标签生成方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,具体涉及一种标签生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是指识别文本中具有特定意义的实体。在通用场景下,命名实体识别技术支持识别的类型主要包括人名、地名、机构名和专有名词,等等。对于命名实体识别,一般都需要大量的人工对训练样本进行标注,然后,利用标注后的训练样本对命名实体识别模型进行训练,得到目标命名实体识别模型。接下来,可以利用目标命名实体识别模型进行识别。但是,在某些特殊的领域下,命名实体识别技术支持识别的类型与通用场景对比有较大差异。例如,对于电商领域,最需要识别的两种实体类型是“品牌”和“产品”,但是“品牌”和“产品”并不是通用场景支持识别的类型。而且,对于某些特殊领域,命名实体识别技术支持识别的类型数量较多,类型定义复杂多样。若利用人工进行样本标注,会需要标注人员具有较多特殊领域的专业知识,这会导致人工标注的质量和效率会达不到要求,降低了标签生成的效率。

技术实现思路

[0003]本申请实施例提出了一种标签生成方法、装置、计算机设备和存储介质,可以实现自动化对文本标签信息进行标签生成处理,提高标签生成的效率。
[0004]本申请实施例提供了一种标签生成方法,包括:
[0005]获取针对目标应用的搜索文本信息,其中,所述搜索文本信息包括至少一个搜索文本单元;
[0006]根据所述目标应用的属性信息,对所述搜索文本单元进行实体标签预测处理,得到所述搜索文本单元的预测实体标签;
[0007]基于所述搜索文本单元在所述搜索文本信息中的语境信息,对所述搜索文本单元的预测实体标签进行语义判别处理,得到所述搜索文本单元的判别后实体标签;
[0008]对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实体标签;
[0009]根据所述搜索文本单元的校正后实体标签,生成所述搜索文本信息的目标实体标签。
[0010]相应的,本申请实施例还提供了一种标签生成装置,包括:
[0011]获取单元,用于获取针对目标应用的搜索文本信息,其中,所述搜索文本信息包括至少一个搜索文本单元;
[0012]实体标签预测单元,用于根据所述目标应用的属性信息,对所述搜索文本单元进行实体标签预测处理,得到所述搜索文本单元的预测实体标签;
[0013]语义判别单元,用于基于所述搜索文本单元在所述搜索文本信息中的语境信息,
对所述搜索文本单元的预测实体标签进行语义判别处理,得到所述搜索文本单元的判别后实体标签;
[0014]标签校正单元,用于对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实体标签;
[0015]标签生成单元,用于根据所述搜索文本单元的校正后实体标签,生成所述搜索文本信息的目标实体标签。
[0016]在一实施例中,所述实体标签预测单元,可以包括:
[0017]词典获取子单元,用于根据所述目标应用的属性信息,获取所述目标应用对应的标签参考词典,其中,所述标签参考词典包括至少一个参考实体标签;
[0018]匹配子单元,用于将所述搜索文本单元和所述至少一个参考实体标签进行匹配处理,得到匹配结果;
[0019]第一标签确定子单元,用于根据所述匹配结果在所述至少一个参考实体标签中确定所述搜索文本单元的预测实体标签。
[0020]在一实施例中,所述实体标签预测单元,还可以包括:
[0021]第一信息获取子单元,用于获取所述目标应用的产品描述信息;
[0022]信息识别子单元,用于根据预设专家经验信息对所述产品描述信息进行识别,得到初始参考实体标签;
[0023]清洗子单元,用于对所述初始参考实体标签进行清洗处理,得到所述参考实体标签;
[0024]整合子单元,用于对所述参考实体标签进行整合处理,得到所述标签参考词典。
[0025]在一实施例中,所述语义判别单元,可以包括:
[0026]标记子单元,用于在所述搜索文本信息中对所述搜索文本单元进行标记处理,得到标记后搜索文本信息;
[0027]文本识别子单元,用于对所述标记后搜索文本信息进行文本识别处理,得到所述搜索文本单元在所述搜索文本信息中的语境信息;
[0028]概率运算子单元,用于基于预设类目分布数据,对所述语境信息和所述预测实体标签进行匹配概率运算,得到每个预测实体标签对应的匹配概率;
[0029]第二标签确定子单元,用于根据所述匹配概率在所述至少一个预测实体标签中确定所述搜索文本单元的判别后实体标签。
[0030]在一实施例中,所述语义判别单元,还可以包括:
[0031]第二信息获取子单元,用于获取所述搜索文本信息的关联产品触发信息和触发数量信息;
[0032]聚合子单元,用于将所述关联产品触发信息和所述触发数量信息进行聚合处理,得到所述搜索文本信息的至少一个类目占比数据;
[0033]替换子单元,用于将所述至少一个类目占比数据作为所述预设类目分布数据。
[0034]在一实施例中,所述标签校正单元,可以包括:
[0035]标签识别子单元,用于对所述搜索文本单元的判别后实体标签进行识别处理;
[0036]标签校正子单元,用于当识别到所述判别后实体标签存在未知实体标签时,对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实
体标签。
[0037]在一实施例中,所述标签校正子单元,可以包括:
[0038]单元获取子单元,用于当识别到所述判别后实体标签存在未知实体标签时,获取当前搜索文本单元和所述当前搜索文本单元的相邻搜索文本单元;
[0039]同一性预测子单元,用于对所述当前搜索文本单元和所述相邻搜索文本单元的判别后实体标签进行同一性预测处理,得到预测结果;
[0040]标签生成子单元,用于根据所述预测结果,生成所述当前搜索文本单元和所述相邻搜索文本单元之间的同一性表征标签;
[0041]更新子单元,用于根据所述同一性表征标签,对所述当前搜索文本单元的判别后实体标签进行更新处理,得到所述当前搜索文本单元的校正后实体标签。
[0042]在一实施例中,所述同一性预测子单元,可以包括:
[0043]第一同一性预测模块,用于利用预设标签校正模型对所述当前搜索文本单元和所述相邻搜索文本单元的判别后实体标签进行同一性预测处理,得到预测结果。
[0044]在一实施例中,所述标签生成子单元,可以包括:
[0045]第二标签生成模块,用于利用所述预设标签校正模型根据所述预测结果,生成所述当前搜索文本单元和所述相邻搜索文本单元之间的同一性表征标签。
[0046]在一实施例中,所述更新子单元,可以包括:
[0047本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签生成方法,其特征在于,包括:获取针对目标应用的搜索文本信息,其中,所述搜索文本信息包括至少一个搜索文本单元;根据所述目标应用的属性信息,对所述搜索文本单元进行实体标签预测处理,得到所述搜索文本单元的预测实体标签;基于所述搜索文本单元在所述搜索文本信息中的语境信息,对所述搜索文本单元的预测实体标签进行语义判别处理,得到所述搜索文本单元的判别后实体标签;对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实体标签;根据所述搜索文本单元的校正后实体标签,生成所述搜索文本信息的目标实体标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标应用的属性信息,对所述搜索文本单元进行实体标签预测处理,得到所述搜索文本单元的预测实体标签,包括:根据所述目标应用的属性信息,获取所述目标应用对应的标签参考词典,其中,所述标签参考词典包括至少一个参考实体标签;将所述搜索文本单元和所述至少一个参考实体标签进行匹配处理,得到匹配结果;根据所述匹配结果在所述至少一个参考实体标签中确定所述搜索文本单元的预测实体标签。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标应用的属性信息,获取所述目标应用对应的标签参考词典之前,所述方法还包括:获取所述目标应用的产品描述信息;根据预设专家经验信息对所述产品描述信息进行识别,得到初始参考实体标签;对所述初始参考实体标签进行清洗处理,得到所述参考实体标签;对所述参考实体标签进行整合处理,得到所述标签参考词典。4.根据权利要求1所述的方法,其特征在于,所述预测实体标签为至少一个预测实体标签;所述基于所述搜索文本单元在所述搜索文本信息中的语境信息,对所述搜索文本单元的预测实体标签进行语义判别处理,得到所述搜索文本单元的判别后实体标签,包括:在所述搜索文本信息中对所述搜索文本单元进行标记处理,得到标记后搜索文本信息;对所述标记后搜索文本信息进行文本识别处理,得到所述搜索文本单元在所述搜索文本信息中的语境信息;基于预设类目分布数据,对所述语境信息和所述预测实体标签进行匹配概率运算,得到每个预测实体标签对应的匹配概率;根据所述匹配概率在所述至少一个预测实体标签中确定所述搜索文本单元的判别后实体标签。5.根据权利要求4所述的方法,其特征在于,所述基于预设类目分布数据,对所述语境信息和所述预测实体标签进行匹配概率运算,得到每个预测实体标签对应的匹配概率之前,所述方法还包括:获取所述搜索文本信息的关联产品触发信息和触发数量信息;将所述关联产品触发信息和所述触发数量信息进行聚合处理,得到所述搜索文本信息
的至少一个类目占比数据;将所述至少一个类目占比数据作为所述预设类目分布数据。6.根据权利要求1所述的方法,其特征在于,所述对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实体标签,包括:对所述搜索文本单元的判别后实体标签进行识别处理;当识别到所述判别后实体标签存在未知实体标签时,对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实体标签。7.根据权利要求6所述的方法,其特征在于,所述当识别到所述判别后实体标签存在未知实体标签时,对所述搜索文本单元的判别后实体标签进行标签校正处理,得到所述搜索文本单元的校正后实体标签,包括:当识别到所述判别后实体标签存在未知实体标签时,获取当前搜索文本单元和所述当前搜索文本单元的相邻搜索文本单元;对所述当前搜索文本单元和所述相邻搜索文本单元的判别后实体标签进行同一性预测处理,得到预测结果;根据所述预测结果,生成所述当前搜索文本单元和所述相邻搜索文本单元之间的同一性表征标签;根据所述同一性表征标签,对所述当前搜索文本单元的判别后实体标签进行更新处理,得到所述当前搜索文本单元的校正后实体标签。8.根据权利要求7所述的方法,其特征在于,所述对所述当前搜索文本单元和所述相邻搜索文本单元的判别后实体标签进行同一性预测处理,得到预测结果,包括:利用预设标签校正模型对所述当前搜索文本单元和所述相邻搜索文本单元的判别后实体标签进行同一性预测处理,得到预测结果;所述根据所述预测结果,生成所述当前搜索文本单元和所述相邻搜索文本单元之间的...

【专利技术属性】
技术研发人员:易磊朱秀红张伟黄泽谦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1