一种人机结合的语料标注方法及系统技术方案

技术编号:20797223 阅读:23 留言:0更新日期:2019-04-06 10:49
本发明专利技术公开了一种人机结合的语料标注方法及系统,其获取待标注的语料数据并进行人工观测;根据用户输入的定位信息对所述语料数据进行关键语料的定位;对定位的关键语料进行突出标记,得到标记语料;通过筛选算法从所述语料数据中提取所述标记语料;对所述标记语料进行语料类别的标注,得到标注语料;从而实现人机结合的语料标注,能够辅助标注人员提高标注效率,减少标注人员的工作量,并具有一定的互动性,减轻乏味感。

A Man-Machine Linguistic Tagging Method and System

The invention discloses a man-machine integrated corpus annotation method and system, which obtains the corpus data to be annotated and carries out manual observation; locates the key corpus data according to the positioning information input by users; prominently marks the key corpus for positioning, and obtains the marked corpus; and extracts the marked corpus from the corpus data through a screening algorithm; The tagged corpus can be labeled according to the category of corpus, and the tagged corpus can be achieved. The tagged corpus can help taggers improve the efficiency of tagging, reduce the workload of taggers, and have certain interaction, and reduce the boredom.

【技术实现步骤摘要】
一种人机结合的语料标注方法及系统
本专利技术涉及自然语言处理
,特别是一种人机结合的语料标注方法及其应用该方法的系统。
技术介绍
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工,才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等,而在对语料进行标注时,往往需要靠人工或机器学习对各个语料数据进行标注。但是,现实中获取到的大规模数据往往并不是相应人员所期望的那样完全有用,大规模语料的加工标注,现实中不可能单靠机器完成,更多的是需要一定的人力去完成标注。该种情况的存在,导致需要花费一定量的人力资源或财力资源,甚至降低一个开发团队的效率。因此,如果能降低这方面的困难,把人力资源从这种困难中解放出来,必然能够一定量的提高项目的效率以及进度的提高。
技术实现思路
本专利技术为解决上述问题,提供了一种人机结合的语料标注方法及系统,能够辅助标注人员提高标注效率,减少标注人员的工作量。为实现上述目的,本专利技术采用的技术方案为:一种人机结合的语料标注方法,其包括以下步骤:a.获取待标注的语料数据并进行人工观测;b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。优选的,所述的步骤a中,所述语料数据为表格文本;所述的步骤b中,所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。或者,所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。优选的,所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展示所述定位信息的提示语。优选的,所述的步骤c中,所述突出标记,是指对所述标记语料添加不同于原始的语料数据的字体颜色或背景颜色。优选的,所述的步骤d中,所述筛选算法是指根据颜色条件从所述语料数据中提取所述标记语料。优选的,所述的步骤e中,对所述标记语料进行语料类别的标注,是采用人工标注语料类别,或者采用机器学习对所述标记语料进行语料类别的训练。对应的,本专利技术还提供一种人机结合的语料标注系统,其包括:数据采集模块,用于获取待标注的语料数据并进行人工观测;语料定位模块,用于根据用户输入的定位信息对所述语料数据进行关键语料的定位;语料标记模块,用于对定位的关键语料进行突出标记,得到标记语料;语料筛选模块,其通过筛选算法从所述语料数据中提取所述标记语料;语料标注模块,用于对所述标记语料进行语料类别的标注,得到标注语料。本专利技术的有益效果是:(1)本专利技术通过人工观测、语料定位、语料标记、语料提取、语料标注的方法,实现人机结合的语料标注,能够辅助标注人员提高标注效率,减少标注人员的工作量;(2)本专利技术的语料数据采用表格文本或者文档文本,并采用单元格定位或者行号定位的方法,能够快速定位和提取关键语料;(3)本专利技术采用颜色标记的方法对关键语料进行突出标记,并根据颜色条件对标记语料进行筛选和提取,更加直观,提高准确性;(4)本专利技术通过一命令窗口供用户输入定位信息,并向用户展示定位信息的提示语,具有一定的互动性,减轻乏味感。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术第一实施例的人机结合的语料标注方法的流程简图;图2为本专利技术第一实施例的命令窗口示意图(表格文本);图3为本专利技术第一实施例的语料标记结果示意图(表格文本);图4为本专利技术第一实施例的标记语料的筛选结果示意图(表格文本);图5为本专利技术第一实施例的语料类别的标注结果示意图(表格文本);图6为本专利技术第二实施例的命令窗口示意图(文档文本)。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。第一实施例(表格文本)如图1所示,本专利技术的一种人机结合的语料标注方法,其包括以下步骤:一种人机结合的语料标注方法,其包括以下步骤:a.获取待标注的语料数据并进行人工观测;b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。本实施例中,所述语料数据为表格文本;所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展示所述定位信息的提示语;如图2所示,本实施例中,所述的行列信息是通过先指定列信息,再所述列信息的基础上再进一步指定一个以上的行信息;所述提示语是先提示用户输入列信息,再提示用户用户输入一个以上的行信息,从而无需重复输入列信息,节约操作时间。所述的步骤c中,所述突出标记,是指对所述标记语料添加不同于原始的语料数据的字体颜色或背景颜色;如图3所示,本实施例中采用添加红色的字体颜色对标记语料红色标记。所述的步骤d中,所述筛选算法是指根据颜色条件从所述语料数据中提取所述标记语料;如图4所示,本实施例中采用excel自带筛选功能对所述标记语料进行筛选,以忽略其他语料使得界面更简洁。所述的步骤e中,对所述标记语料进行语料类别的标注,是采用人工标注语料类别,或者采用机器学习对所述标记语料进行语料类别的训练;如图5所示,采用另一列进行记录所述标记语料的语料类别,对其他语料可不作任何处理。第二实施例(文档文本)本实施例与第一实施例的主要区别在于:本实施例中,所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。另外,本实施例中还提供了一种优化的命令窗口;如图6所示,所述命令窗口不仅向用户展示所述定位信息的提示语,还进一步对用户输入的定位信息进行确认的反馈语,例如“OK”、“正确”,或者“输入错误”等,以便用户能够及时收到反馈,交互性更好。本实施例的其余标注过程与第一实施例基本相似,在此不进行赘述。第三实施例(标注系统)另外,本专利技术还提供一种人机结合的语料标注方法相对应的系统,其包括:数据采集模块,用于获取待标注的语料数据并进行人工观测;语料定位模块,用于根据用户输入的定位信息对所述语料数据进行关键语料的定位;语料标记模块,用于对定位的关键语料进行突出标记,得到标记语料;语料筛选模块,其通过筛本文档来自技高网...

【技术保护点】
1.一种人机结合的语料标注方法,其特征在于,包括以下步骤:a.获取待标注的语料数据并进行人工观测;b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。

【技术特征摘要】
1.一种人机结合的语料标注方法,其特征在于,包括以下步骤:a.获取待标注的语料数据并进行人工观测;b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。2.根据权利要求1所述的一种人机结合的语料标注方法,其特征在于:所述的步骤a中,所述语料数据为表格文本;所述的步骤b中,所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。3.根据权利要求1所述的一种人机结合的语料标注方法,其特征在于:所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。4.根据权利要求1至3任一项所述的一种人机结合的语料标注方法,其特征在于:所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展...

【专利技术属性】
技术研发人员:张泽明肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1