异常分词的处理方法及系统技术方案

技术编号:18940507 阅读:20 留言:0更新日期:2018-09-15 11:04
本发明专利技术公开了一种异常分词的处理方法及系统,通过将测试集作为评价指标,并小批量在跨领域数据上进行迭代、消除分词异常,逐渐加入跨领域语料的正确分词,提高了分词模型在跨领域语料上的性能,具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。

The processing method and system of abnormal segmentation

The invention discloses a processing method and a system for abnormal word segmentation, which improves the performance of the word segmentation model on cross-domain corpus by taking test sets as evaluation indexes, iterating on cross-domain data in small batches, eliminating abnormal word segmentation, and gradually adding correct word segmentation to cross-domain corpus, and having auxiliary manual rapid marking. It also improves the efficiency of annotation and improves the efficiency of annotation accuracy.

【技术实现步骤摘要】
异常分词的处理方法及系统
本专利技术涉及数据处理
,特别涉及一种异常分词的处理方法及系统。
技术介绍
目前,针对专业领域(例如医疗的各个科室)的语料,人工标注效率低且标注成本高,因此,对上述语料进行自动标注的需求越来越强烈。现阶段,在扩充分词训练语料时,通常利用少量的领域分词模型去扩展跨领域的语料,这样的扩展方式所得到的结果误差太大,因此这种处理方式往往不可用;如果直接利用人工来标注跨领域的所有分词语料,提高了标注准确率,但又太费时间,且成本过高。因此,如何提高异常分词标注的效率和准确率,成为目前亟待解决的问题之一。
技术实现思路
本专利技术提供一种异常分词的处理方法及系统,用以辅助人工快速标注异常分词,提高标注效率的同时,提高标注准确率。本专利技术提供了一种异常分词的处理方法,所述异常分词的处理方法包括:将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。优选地,所述利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注,包括:利用所述现有领域对应的已知切分语料seg0的统计特征,对初始分词结果seg1中的每个分词进行打分;选取seg1中分数低于预设阈值的分词作为异常分词,并对所述异常分词进行标注。优选地,所述基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果,包括:推送已标注的异常分词,供用户进行人工审核;接收人工审核后的分词,得到对应的分词集seg1-1;基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1;将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果。优选地,所述基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1,包括:将分词结果seg1-1添加至已知切分语料seg0中,利用分词集seg1-1和seg0训练得到新的分词模型B;利用分词模型B在所述测试集t上进行标注性能的测试,得到测试参数p1。优选地,所述将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果,包括:将测试参数p1与所述测试参数p0进行比较;若测试参数p1大于测试参数p0,则将分词结果seg1-1添加至seg0中,作为现有领域对应的已知切分语料;若测试参数p1小于测试参数p0,则调整预设阈值,重新找出异常分词并标注,并基于重新标注的异常分词,计算得到新的测试参数p1;根据新的测试参数p1进行比较处理,得到对应的分词结果;若测试参数p1等于测试参数p0,则从未标注的跨领域语料中重新选取对应的测试数据,并基于重新选择的测试数据,按照测试参数p1的计算方式,计算得到新的测试参数p1;根据新的测试参数p1进行比较处理,得到对应的分词结果。对应于上述所提供的一种异常分词的处理方法,本专利技术还提供了一种异常分词的处理系统,所述异常分词的处理系统包括:测试模块,用于将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;预切分模块,用于从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;异常标注模块,用于利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;分词处理模块,用于基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。优选地,所述异常标注模块用于:利用所述现有领域对应的已知切分语料seg0的统计特征,对初始分词结果seg1中的每个分词进行打分;选取seg1中分数低于预设阈值的分词作为异常分词,并对所述异常分词进行标注。优选地,所述分词处理模块用于:推送已标注的异常分词,供用户进行人工审核;接收人工审核后的分词,得到对应的分词集seg1-1;基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1;将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果。优选地,所述分词处理模块用于:将分词结果seg1-1添加至已知切分语料seg0中,利用分词集seg1-1和seg0训练得到新的分词模型B;利用分词模型B在所述测试集t上进行标注性能的测试,得到测试参数p1。优选地,所述分词处理模块用于:将测试参数p1与所述测试参数p0进行比较;若测试参数p1大于测试参数p0,则将分词结果seg1-1添加至seg0中,作为现有领域对应的已知切分语料;若测试参数p1小于测试参数p0,则调整预设阈值,重新找出异常分词并标注,并基于重新标注的异常分词,计算得到新的测试参数p1;根据新的测试参数p1进行比较处理,得到对应的分词结果;若测试参数p1等于测试参数p0,则从未标注的跨领域语料中重新选取对应的测试数据,并基于重新选择的测试数据,按照测试参数p1的计算方式,计算得到新的测试参数p1;根据新的测试参数p1进行比较处理,得到对应的分词结果。本专利技术一种异常分词的处理方法及系统可以达到如下有益效果:通过将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果;通过将测试集作为评价指标,并小批量在跨领域数据上进行迭代、消除分词异常,逐渐加入跨领域语料的正确分词,提高了分词模型在跨领域语料上的性能,具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术异常分词的处理方法的一种实施方式的流程示意图;图2是本专利技术异常分词的处理方法中,图1所述实施例中步骤S30的一种实施方式的流程示意图;图3是本专利技术异常分词的处理方法中,图1所述实施例中步骤S40的一种实施方式的流程示意图;图4是本专利技术异常分词的处理系统的一种实施方式的功能模块示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种异常分词的处理本文档来自技高网...

【技术保护点】
1.一种异常分词的处理方法,其特征在于,所述异常分词的处理方法包括:将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。

【技术特征摘要】
1.一种异常分词的处理方法,其特征在于,所述异常分词的处理方法包括:将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。2.如权利要求1所述的异常分词的处理方法,其特征在于,所述利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注,包括:利用所述现有领域对应的已知切分语料seg0的统计特征,对初始分词结果seg1中的每个分词进行打分;选取seg1中分数低于预设阈值的分词作为异常分词,并对所述异常分词进行标注。3.如权利要求1或2所述的异常分词的处理方法,其特征在于,所述基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果,包括:推送已标注的异常分词,供用户进行人工审核;接收人工审核后的分词,得到对应的分词集seg1-1;基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1;将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果。4.如权利要求3所述的异常分词的处理方法,其特征在于,所述基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1,包括:将分词结果seg1-1添加至已知切分语料seg0中,利用分词集seg1-1和seg0训练得到新的分词模型B;利用分词模型B在所述测试集t上进行标注性能的测试,得到测试参数p1。5.如权利要求3所述的异常分词的处理方法,其特征在于,所述将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果,包括:将测试参数p1与所述测试参数p0进行比较;若测试参数p1大于测试参数p0,则将分词结果seg1-1添加至seg0中,作为现有领域对应的已知切分语料;若测试参数p1小于测试参数p0,则调整预设阈值,重新找出异常分词并标注,并基于重新标注的异常分词,计算得到新的测试参数p1;根据新的测试参数p1进行比较处理,得到对应的分词结果;若测试参数p1等于测试参数p0,则从未标注的跨领域语料中重新选取对应的测试数据,并基于重新选择的测试数据...

【专利技术属性】
技术研发人员:陈峰
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1