语料标注方法、装置、计算机存储介质及电子设备制造方法及图纸

技术编号：26598905 阅读：20 留言：0更新日期：2020-12-04 21:21

本发明专利技术提供了一种语料标注方法、装置、计算机存储介质及电子设备。该方法包括：获取标注语料和未标注语料；分别对标注语料和未标注语料进行语义压缩，以获取与标注语料对应的第一向量和与未标注语料对应的第二向量；根据第一向量和所述第二向量获取未标注语料的意图信息；获取标注语料中的标注槽位值和未标注语料中的候选槽位值，分别对标注槽位值和候选槽位值进行语义压缩，以获取与标注槽位值对应的第三向量和与候选槽位值对应的第四向量；根据第三向量和所述第四向量获取未标注语料的槽位信息。本发明专利技术通过半监督的方式对未标注语料进行标注，避免了人工标注，降低了标注成本，提高了标注效率和标注语料的数量。

全部详细技术资料下载

【技术实现步骤摘要】
语料标注方法、装置、计算机存储介质及电子设备
本专利技术涉及计算机
，具体而言，涉及一种语料标注方法、语料标注装置、计算机存储介质及电子设备。
技术介绍
随着人工智能的逐步发展，人工智能逐渐应用到了生活中的各个领域，例如通过人脸识别付账、通过图像识别确定病灶、通过语音识别进行导航、与机器进行游戏或棋牌比赛等等，可以说人工智能为人们的生活提供了很大便利。在对话领域中，任务型对话是主要研究重点之一，任务型对话系统的目的在于以自然语言的形式，准确、高效地帮助用户完成某些特定目的。目前，训练任务型对话系统采用的语料基本都是通过人工标注的，导致语料数量非常有限，并且标注大量的语料需要耗费大量的人力、时间和成本，非常不利于对任务型对话系统的训练。鉴于此，本领域亟需开发一种新的语料标注方法。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的实施例提供了一种语料标注方法、语料标注装...

【技术保护点】
1.一种语料标注方法，其特征在于，包括：/n获取标注语料和未标注语料；/n分别对所述标注语料和所述未标注语料进行语义压缩，以获取与所述标注语料对应的第一向量和与所述未标注语料对应的第二向量；/n根据所述第一向量和所述第二向量获取所述未标注语料的意图信息；/n获取所述标注语料中的标注槽位值和所述未标注语料中的候选槽位值，分别对所述标注槽位值和所述候选槽位值进行语义压缩，以获取与所述标注槽位值对应的第三向量和与所述候选槽位值对应的第四向量；/n根据所述第三向量和所述第四向量获取所述未标注语料的槽位信息。/n

【技术特征摘要】
1.一种语料标注方法，其特征在于，包括：
获取标注语料和未标注语料；
分别对所述标注语料和所述未标注语料进行语义压缩，以获取与所述标注语料对应的第一向量和与所述未标注语料对应的第二向量；
根据所述第一向量和所述第二向量获取所述未标注语料的意图信息；
获取所述标注语料中的标注槽位值和所述未标注语料中的候选槽位值，分别对所述标注槽位值和所述候选槽位值进行语义压缩，以获取与所述标注槽位值对应的第三向量和与所述候选槽位值对应的第四向量；
根据所述第三向量和所述第四向量获取所述未标注语料的槽位信息。

2.根据权利要求1所述的语料标注方法，其特征在于，在分别对所述标注语料和所述未标注语料进行语义压缩之前，所述方法还包括：
获取无标注语料样本，基于所述无标注语料样本对待训练的语义表示模型进行训练，以使所述语义表示模型分别对所述标注语料和所述未标注语料进行语义压缩。

3.根据权利要求2所述的语料标注方法，其特征在于，分别对所述标注语料和所述未标注语料进行语义压缩，以获取与所述标注语料对应的第一向量和与所述未标注语料对应的第二向量，包括：
分别将所述标注语料和所述未标注语料输入至所述语义表示模型，通过所述语义表示模型将所述标注语料和所述未标注语料中的词映射到第一预设维度的向量空间中，以获取所述第一向量和所述第二向量。

4.根据权利要求1所述的语料标注方法，其特征在于，根据所述第一向量和所述第二向量获取所述未标注语料的意图信息，包括：
根据所述第一向量和所述第二向量，并基于邻近算法获取所述未标注语料的意图信息。

5.根据权利要求1所述的语料标注方法，其特征在于，所述第一向量和所述第二向量的数量均为多个；
根据所述第一向量和所述第二向量，并基于邻近算法获取所述未标注语料的意图信息，包括：
计算任一所述第二向量与各所述第一向量之间的距离；
将所述距离按照由小到大的顺序排列以形成序列，并按照第一预设规则获取所述序列中第一预设数量的距离；
根据所述第一预设数量的距离确定目标标注语料，并根据所述目标标注语料获取目标意图；
统计所述目标意图中的主意图，并将所述主意图作为所述未标注语料的意图信息。

6.根据权利要求5所述的语料标注方法，其特征在于，在将所述距离按照由小到大的顺序排列以形成序列，并按照第一预设规则获取所述序列中第一预设数量的距离之前，所述方法还包括：
将所述距离与第一预设阈值比较，以获取小于所述第一预设阈值的目标距离。

7.根据权利要求1所述的语料标注方法，其特征在于，在获取所述标注语料中的标注槽位值和所述未标注语料中的候选槽位值之前，所述方法还包括：
对所述未标注语料进行句法分析，以获取所述未标注语料中的名词和名词短语，并将所述名词和/或所述名词短语作为所述候选槽位值。

8.根据权利要求2所述的语料标注方法，其特征在于，获取所述标注语料中的标注槽位值和所...

【专利技术属性】
技术研发人员：张金超，牛成，周杰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人