The invention discloses a man-machine integrated corpus annotation method and system, which obtains the corpus data to be annotated and carries out manual observation; locates the key corpus data according to the positioning information input by users; prominently marks the key corpus for positioning, and obtains the marked corpus; and extracts the marked corpus from the corpus data through a screening algorithm; The tagged corpus can be labeled according to the category of corpus, and the tagged corpus can be achieved. The tagged corpus can help taggers improve the efficiency of tagging, reduce the workload of taggers, and have certain interaction, and reduce the boredom.
【技术实现步骤摘要】
一种人机结合的语料标注方法及系统
本专利技术涉及自然语言处理
,特别是一种人机结合的语料标注方法及其应用该方法的系统。
技术介绍
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工,才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等,而在对语料进行标注时,往往需要靠人工或机器学习对各个语料数据进行标注。但是,现实中获取到的大规模数据往往并不是相应人员所期望的那样完全有用,大规模语料的加工标注,现实中不可能单靠机器完成,更多的是需要一定的人力去完成标注。该种情况的存在,导致需要花费一定量的人力资源或财力资源,甚至降低一个开发团队的效率。因此,如果能降低这方面的困难,把人力资源从这种困难中解放出 ...
【技术保护点】
1.一种人机结合的语料标注方法,其特征在于,包括以下步骤:a.获取待标注的语料数据并进行人工观测;b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。
【技术特征摘要】
1.一种人机结合的语料标注方法,其特征在于,包括以下步骤:a.获取待标注的语料数据并进行人工观测;b.根据用户输入的定位信息对所述语料数据进行关键语料的定位;c.对定位的关键语料进行突出标记,得到标记语料;d.通过筛选算法从所述语料数据中提取所述标记语料;e.对所述标记语料进行语料类别的标注,得到标注语料。2.根据权利要求1所述的一种人机结合的语料标注方法,其特征在于:所述的步骤a中,所述语料数据为表格文本;所述的步骤b中,所述的关键语料的定位,是通过单元格定位的方法,根据用户输入的行列信息得到所述单元格对应的关键语料。3.根据权利要求1所述的一种人机结合的语料标注方法,其特征在于:所述的步骤a中,所述语料数据为文档文本;所述的步骤b中,所述的关键语料的定位,是通过行号定位的方法,根据用户输入的行号信息得到所述行号对应的关键语料。4.根据权利要求1至3任一项所述的一种人机结合的语料标注方法,其特征在于:所述的步骤b中,是通过一命令窗口进行输入所述定位信息;并且,在所述命令窗口中向用户展...
【专利技术属性】
技术研发人员:张泽明,肖龙源,蔡振华,李稀敏,刘晓葳,谭玉坤,
申请(专利权)人:厦门快商通信息技术有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。