基于迁移学习的文本数据标注方法、装置、终端及介质制造方法及图纸

技术编号:21399265 阅读:73 留言:0更新日期:2019-06-19 07:04
本发明专利技术提供一种基于迁移学习的文本数据标注方法,包括:获取大量与保险业相关的其他行业的文本数据作为源数据;对所述文本数据进行预处理分别得到训练集和测试集;将所述训练集输入至词嵌入模型中进行训练;将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;根据所述测试结果对所述词嵌入模型进行微调;将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。本发明专利技术还提供一种基于迁移学习的文本数据标注装置、终端以及计算机可读存储介质。本发明专利技术采用迁移学习的思想,能够解决解决在文本数据标注过程中需要大量人力和时间成本的技术问题,且获得较佳的标注效果。

【技术实现步骤摘要】
基于迁移学习的文本数据标注方法、装置、终端及介质
本专利技术涉及机器学习
,尤其涉及一种基于迁移学习的文本数据标注方法、装置、终端以及计算机可读存储介质。
技术介绍
在保险业务中,经常需要对大量客户的话术进行意图标注以生成能用于机器学习模型训练的有监督文本数据。在文本数据的生产和标注中,每天都需要投入大量的人力物力以及时间成本,而且人为对文本数据的标注受很多因素制约(如熟练度、专注度、工作时间等),这些制约都导致人工标注大量文本数据时精确度不够高,需要后期做大量反复的质检工作,在短时间内难以生成足够用于机器学习模型训练的文本数据。这种行为极大地降低了工作效率和产品精度。传统机器学习的方法在针对不完全文本数据时大多数都假设已标注与未标注文本数据的分布是相同的。与之相反的是,迁移学习允许源空间、任务空间,并且在测试集和训练集中的分布是不同的。和传统的方法相比,迁移学习的另一个好处是可以做多任务目标的学习,传统的模型面对不同类型的任务,需要训练多个不同的模型。而迁移学习,可以先去实现简单的任务,将简单的任务中得到的知识应用到更难的问题上,从而解决标注文本数据少,学习目标复杂的任务,这本文档来自技高网...

【技术保护点】
1.一种基于迁移学习的文本数据标注方法,应用于终端,其特征在于,所述方法包括:获取大量与保险业相关的其他行业的文本数据作为源数据;对所述文本数据进行预处理分别得到训练集和测试集;将所述训练集输入至词嵌入模型中进行训练;将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;根据所述测试结果对所述词嵌入模型进行微调;将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。

【技术特征摘要】
1.一种基于迁移学习的文本数据标注方法,应用于终端,其特征在于,所述方法包括:获取大量与保险业相关的其他行业的文本数据作为源数据;对所述文本数据进行预处理分别得到训练集和测试集;将所述训练集输入至词嵌入模型中进行训练;将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;根据所述测试结果对所述词嵌入模型进行微调;将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行预处理分别得到训练集和测试集包括:获取所述文本数据的标签属性,所述标签属性包括:已标注标签,未标注标签;当确定所述文本数据的标签属性为所述已标注标签,根据预设第一处理规则对所述已标注标签的文本数据进行第一处理,得到所述训练集。当确定所述文本数据的标签属性为所述未标注标签,根据预设第二处理规则对所述未标注标签的文本数据进行第二处理,得到所述测试集。3.根据权利要求2所述的方法,其特征在于,所述根据预设第一处理规则对所述已标注标签的文本数据进行第一处理包括:剔除所述已标注标签的文本数据中与保险业关联度小于预设第一关联度阈值的文本数据;同时,保留所述已标注标签的文本数据中与所述保险业关联度大于预设第二关联度阈值的文本数据。4.根据权利要求2所述的方法,其特征在于,所述根据预设第二处理规则对所述未标注标签的文本数据进行第二处理包括:识别所述未标注标签的文本数据中的预设关键字符;将所识别出的预设关键字符从所述未标注标签的文本数据中进行删除;将删除所述预设关键字符之后的文本数据进行拆分为词语;创建字典对每个词语进行映射。5.根据权利要求4所述的方法,其特征在于,所述创建字典对每个词语进行映射包括:计算每个词...

【专利技术属性】
技术研发人员:王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1