当前位置: 首页 > 专利查询>祥符实验室专利>正文

一种智能数据标注方法及系统技术方案

技术编号:44419925 阅读:13 留言:0更新日期:2025-02-28 18:35
本发明专利技术公开了一种智能数据标注方法及系统,涉及文本处理技术领域,包括:数据采集模块,所述数据采集模块获取等待标注的文本文档集;数据预处理模块。通过设置分布式集群模块、智能引擎处理模块和智能引擎分析模块,使用计算机系统对等待标注的文本文档集进行处理,提升处理速度,减轻人力,同时,建立数据分析包和文本待标注示意,根据数据分析包,对文本作出分析,判断文本需要标注的信息,文本需要标注的信息包括有生僻词语、专业术语以及成语词汇等,接着匹配文本标注,对生僻词语、专业术语以及成语词汇等做出高精度的延伸解释,此外,可视化模块将文本标注可视化呈现,便于阅读者记忆。

【技术实现步骤摘要】

本专利技术涉及文本处理,具体是涉及一种智能数据标注方法及系统


技术介绍

1、自然语言处理(nlp,natural language processing)技术在实际落地中一直存在标注数据少、业务场景多、业务场景经常调整等诸多问题。因而如何解决实际落地及应用过程中的业务知识积累,并将这些知识积累持续用于提升基于现有的少量的先验知识获取的自然语言处理模型成为了研究的重点。

2、现有的对文本中的生僻词语、专业术语以及成语词汇等做出内容标注延伸时,有时候会遇到文本杂乱无章的情况,需要工作人员对其花费大量时间进行整理,浪费人力物力,且现有技术对于文本数据处理的匹配度也欠缺,其处理效果有待提升。


技术实现思路

1、为解决上述技术问题,提供一种智能数据标注方法及系统,本技术方案解决了上述
技术介绍
中提出的现有的对文本中的生僻词语、专业术语以及成语词汇等做出内容标注延伸时,有时候会遇到文本杂乱无章的情况,需要工作人员对其花费大量时间进行整理,浪费人力物力,且现有技术对于文本数据处理的匹配度也欠缺的问题。

<本文档来自技高网...

【技术保护点】

1.一种智能数据标注方法,其特征在于,包括:

2.根据权利要求1所述的一种智能数据标注方法,其特征在于,所述对等待标注的文本文档集进行预处理包括以下步骤:

3.根据权利要求2所述的一种智能数据标注方法,其特征在于,所述对预处理后的文本文档集进行数据切片包括以下步骤:

4.根据权利要求3所述的一种智能数据标注方法,其特征在于,所述使用判断回归分析进行切片节点关联性分析包括以下步骤:

5.根据权利要求4所述的一种智能数据标注方法,其特征在于,若A大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若A不超过第二预设值,则类别型切片节点...

【技术特征摘要】

1.一种智能数据标注方法,其特征在于,包括:

2.根据权利要求1所述的一种智能数据标注方法,其特征在于,所述对等待标注的文本文档集进行预处理包括以下步骤:

3.根据权利要求2所述的一种智能数据标注方法,其特征在于,所述对预处理后的文本文档集进行数据切片包括以下步骤:

4.根据权利要求3所述的一种智能数据标注方法,其特征在于,所述使用判断回归分析进行切片节点关联性分析包括以下步骤:

5.根据权利要求4所述的一种智能数据标注方法,其特征在于,若a大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若a不超过第二预设值,则类别型切片节点一和类别型...

【专利技术属性】
技术研发人员:宋海涛王资凯沈灏刘玥辰林圆圆钱璟哲滕阅黄冠杨玉婷冯子涵谢怡然李成响
申请(专利权)人:祥符实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1