一种半自动意图标注方法、计算机设备及存储介质技术

技术编号：37564927 阅读：9 留言：0更新日期：2023-05-15 07:45

本发明专利技术公开一种半自动意图标注方法、计算机设备及存储介质，方法包括：获取语料数据并采用词频分析与自定义配置相结合的方式完成所述语料数据的清洗；以及构建自研NLU模型，使用百度NLU模型与所述自研NLU模型对清洗后的所述语料数据进行识别，并根据识别结果判断是否创建标注任务，若判断结果为是则创建标注任务并完成数据标注。利用本发明专利技术的方法、计算机设备及存储介质，使得标注人员可以根据不同的标注需求，完成标注操作，极大提高意图标注效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种半自动意图标注方法、计算机设备及存储介质

[0001]本专利技术涉及一种半自动意图标注方法、计算机设备及存储介质。

技术介绍

[0002]专利CN202110669198.2公开了一种意图标注方法、装置和电子设备。该专利包括：获取待标注数据；根据待标注数据创建意图标注任务，分配意图标注任务给标注终端；获取标注终端通过意图标注任务对待标注数据添加的标注记录，获取与意图标注任务相对应的其他标注终端的标注记录；根据各个标注终端的标注记录并结合最终结果判定策略得到待标注数据的标注结果。该专利通过交叉标注以及最终结果判定策略等方式提高标注意图的效率和准确度，产生最终的已标注好的标注数据，该数据用于机器人的自然语言处理模型训练，提升机器人的催收、摧毁率等，同时能够实时监控标注人员的工作状态及工作效率等。
[0003]该专利的流程属于行业通用流程：数据采集
‑
创建标注任务
‑
完成任务标注。
[0004]作为现有技术，上述专利存在一些技术问题。
[0005]第一个问题在于，上述专利直接对数据语料进行标注，导致模型精度难以提升。原因在于，用户语料中通常存在无用词和特殊符号，且无用词和特殊符号在语料库中所占比例巨大，若直接对数据语料进行标注，由于无用词和特殊符号影响因子大，权重占比高，会导致模型无法正常输出。
[0006]第二个问题在于，fasttext模型的局限性。原因在于，由于fasttext网络模型只有三层，结构相对简单。当采用大量数据进行训练时，容易产生模型...

【技术保护点】

【技术特征摘要】
1.一种半自动意图标注方法，所述方法包括：获取语料数据并采用词频分析与自定义配置相结合的方式完成所述语料数据的清洗；以及构建自研NLU模型，使用百度NLU模型与所述自研NLU模型对清洗后的所述语料数据进行识别，并根据识别结果判断是否创建标注任务，若判断结果为是则创建标注任务并完成数据标注。2.根据权利要求1所述的方法，其中，获取所述语料数据的步骤包括：用户根据账号密码完成登录操作；以及从数据集市通过接口读取数据。3.根据权利要求2所述的方法，其中，所述账号密码采用MD5+字符串拼接的方式进行存储。4.根据权利要求1所述的方法，其中，创建所述标注任务的步骤包括：如果所述百度NLU模型与所述自研NLU模型的识别结果不一致，则创建所述标注任务；如果所述百度NLU模型与所述自研NLU模型的识别结果一致，则判断所述识别结果是否大于设定的置信度阈值；以及如果所述识别结果不大于所述置信度阈值，则创建所述标注任务。5....

【专利技术属性】
技术研发人员：何鑫，王涛，徐波，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人