【技术实现步骤摘要】
本专利技术涉及文本处理,具体是涉及一种智能数据标注方法及系统。
技术介绍
1、自然语言处理(nlp,natural language processing)技术在实际落地中一直存在标注数据少、业务场景多、业务场景经常调整等诸多问题。因而如何解决实际落地及应用过程中的业务知识积累,并将这些知识积累持续用于提升基于现有的少量的先验知识获取的自然语言处理模型成为了研究的重点。
2、现有的对文本中的生僻词语、专业术语以及成语词汇等做出内容标注延伸时,有时候会遇到文本杂乱无章的情况,需要工作人员对其花费大量时间进行整理,浪费人力物力,且现有技术对于文本数据处理的匹配度也欠缺,其处理效果有待提升。
技术实现思路
1、为解决上述技术问题,提供一种智能数据标注方法及系统,本技术方案解决了上述
技术介绍
中提出的现有的对文本中的生僻词语、专业术语以及成语词汇等做出内容标注延伸时,有时候会遇到文本杂乱无章的情况,需要工作人员对其花费大量时间进行整理,浪费人力物力,且现有技术对于文本数据处理的匹配度也欠
【技术保护点】
1.一种智能数据标注方法,其特征在于,包括:
2.根据权利要求1所述的一种智能数据标注方法,其特征在于,所述对等待标注的文本文档集进行预处理包括以下步骤:
3.根据权利要求2所述的一种智能数据标注方法,其特征在于,所述对预处理后的文本文档集进行数据切片包括以下步骤:
4.根据权利要求3所述的一种智能数据标注方法,其特征在于,所述使用判断回归分析进行切片节点关联性分析包括以下步骤:
5.根据权利要求4所述的一种智能数据标注方法,其特征在于,若A大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若A不超过第二预设
...【技术特征摘要】
1.一种智能数据标注方法,其特征在于,包括:
2.根据权利要求1所述的一种智能数据标注方法,其特征在于,所述对等待标注的文本文档集进行预处理包括以下步骤:
3.根据权利要求2所述的一种智能数据标注方法,其特征在于,所述对预处理后的文本文档集进行数据切片包括以下步骤:
4.根据权利要求3所述的一种智能数据标注方法,其特征在于,所述使用判断回归分析进行切片节点关联性分析包括以下步骤:
5.根据权利要求4所述的一种智能数据标注方法,其特征在于,若a大于第二预设值,则类别型切片节点一和类别型切片节点二无关联性,若a不超过第二预设值,则类别型切片节点一和类别型...
【专利技术属性】
技术研发人员:宋海涛,王资凯,沈灏,刘玥辰,林圆圆,钱璟哲,滕阅,黄冠,杨玉婷,冯子涵,谢怡然,李成响,
申请(专利权)人:祥符实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。