The invention discloses a processing method and a system for abnormal word segmentation, which improves the performance of the word segmentation model on cross-domain corpus by taking test sets as evaluation indexes, iterating on cross-domain data in small batches, eliminating abnormal word segmentation, and gradually adding correct word segmentation to cross-domain corpus, and having auxiliary manual rapid marking. It also improves the efficiency of annotation and improves the efficiency of annotation accuracy.
【技术实现步骤摘要】
异常分词的处理方法及系统
本专利技术涉及数据处理
,特别涉及一种异常分词的处理方法及系统。
技术介绍
目前,针对专业领域(例如医疗的各个科室)的语料,人工标注效率低且标注成本高,因此,对上述语料进行自动标注的需求越来越强烈。现阶段,在扩充分词训练语料时,通常利用少量的领域分词模型去扩展跨领域的语料,这样的扩展方式所得到的结果误差太大,因此这种处理方式往往不可用;如果直接利用人工来标注跨领域的所有分词语料,提高了标注准确率,但又太费时间,且成本过高。因此,如何提高异常分词标注的效率和准确率,成为目前亟待解决的问题之一。
技术实现思路
本专利技术提供一种异常分词的处理方法及系统,用以辅助人工快速标注异常分词,提高标注效率的同时,提高标注准确率。本专利技术提供了一种异常分词的处理方法,所述异常分词的处理方法包括:将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。优选地,所述利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注,包括:利用所述现有领域对应的已知切分语料seg0的统计特征,对初始分词结果seg1中的每个分词进行打分;选取seg1中分数低于预设阈值的分词作为异常分词,并 ...
【技术保护点】
1.一种异常分词的处理方法,其特征在于,所述异常分词的处理方法包括:将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。
【技术特征摘要】
1.一种异常分词的处理方法,其特征在于,所述异常分词的处理方法包括:将人工标注的跨领域分词语料作为测试集t,利用现有领域的分词模型A在所述测试集t上进行标注性能的测试,得到对应的性能参数p0;从未标注的跨领域语料中选取对应的测试数据,利用分词模型A进行预切分,得到初始分词结果seg1;利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注;基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果。2.如权利要求1所述的异常分词的处理方法,其特征在于,所述利用所述现有领域对应的已知切分语料seg0,找出初始分词结果seg1中的异常分词并标注,包括:利用所述现有领域对应的已知切分语料seg0的统计特征,对初始分词结果seg1中的每个分词进行打分;选取seg1中分数低于预设阈值的分词作为异常分词,并对所述异常分词进行标注。3.如权利要求1或2所述的异常分词的处理方法,其特征在于,所述基于所述性能参数p0以及异常分词的人工审核结果,对自动标注的异常分词进行处理,得到对应的分词结果,包括:推送已标注的异常分词,供用户进行人工审核;接收人工审核后的分词,得到对应的分词集seg1-1;基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1;将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果。4.如权利要求3所述的异常分词的处理方法,其特征在于,所述基于所述已知切分语料seg0,获取分词集seg1-1映射的测试参数p1,包括:将分词结果seg1-1添加至已知切分语料seg0中,利用分词集seg1-1和seg0训练得到新的分词模型B;利用分词模型B在所述测试集t上进行标注性能的测试,得到测试参数p1。5.如权利要求3所述的异常分词的处理方法,其特征在于,所述将测试参数p1与所述性能参数p0进行比较,根据比较结果,得到对应的分词结果,包括:将测试参数p1与所述测试参数p0进行比较;若测试参数p1大于测试参数p0,则将分词结果seg1-1添加至seg0中,作为现有领域对应的已知切分语料;若测试参数p1小于测试参数p0,则调整预设阈值,重新找出异常分词并标注,并基于重新标注的异常分词,计算得到新的测试参数p1;根据新的测试参数p1进行比较处理,得到对应的分词结果;若测试参数p1等于测试参数p0,则从未标注的跨领域语料中重新选取对应的测试数据,并基于重新选择的测试数据...
【专利技术属性】
技术研发人员:陈峰,
申请(专利权)人:北京云知声信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。