异常分词的处理方法及系统技术方案

技术编号：18940507 阅读：20 留言：0更新日期：2018-09-15 11:04

本发明专利技术公开了一种异常分词的处理方法及系统，通过将测试集作为评价指标，并小批量在跨领域数据上进行迭代、消除分词异常，逐渐加入跨领域语料的正确分词，提高了分词模型在跨领域语料上的性能，具有辅助人工快速标注异常分词、提高标注效率的同时提高标注准确率的有益效果。

The processing method and system of abnormal segmentation

The invention discloses a processing method and a system for abnormal word segmentation, which improves the performance of the word segmentation model on cross-domain corpus by taking test sets as evaluation indexes, iterating on cross-domain data in small batches, eliminating abnormal word segmentation, and gradually adding correct word segmentation to cross-domain corpus, and having auxiliary manual rapid marking. It also improves the efficiency of annotation and improves the efficiency of annotation accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
异常分词的处理方法及系统
本专利技术涉及数据处理
，特别涉及一种异常分词的处理方法及系统。
技术介绍
目前，针对专业领域(例如医疗的各个科室)的语料，人工标注效率低且标注成本高，因此，对上述语料进行自动标注的需求越来越强烈。现阶段，在扩充分词训练语料时，通常利用少量的领域分词模型去扩展跨领域的语料，这样的扩展方式所得到的结果误差太大，因此这种处理方式往往不可用；如果直接利用人工来标注跨领域的所有分词语料，提高了标注准确率，但又太费时间，且成本过高。因此，如何提高异常分词标注的效率和准确率，成为目前亟待解决的问题之一。
技术实现思路
本专利技术提供一种异常分词的处理方法及系统，用以辅助人工快速标注异常分词，提高标注效率的同时，提高标注准确率。本专利技术提供了一种异常分词的处理方法，所述异常分词的处理方法包括：将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果。优选地，所述利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注，包括：利用所述现有领域对应的已知切分语料seg0的统计特征，对初始分词结果seg1中的每个分词进行打分；选取seg1中分数低于预设阈值的分词作为异常分词，并...

【技术保护点】
1.一种异常分词的处理方法，其特征在于，所述异常分词的处理方法包括：将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果。

【技术特征摘要】
1.一种异常分词的处理方法，其特征在于，所述异常分词的处理方法包括：将人工标注的跨领域分词语料作为测试集t，利用现有领域的分词模型A在所述测试集t上进行标注性能的测试，得到对应的性能参数p0；从未标注的跨领域语料中选取对应的测试数据，利用分词模型A进行预切分，得到初始分词结果seg1；利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注；基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果。2.如权利要求1所述的异常分词的处理方法，其特征在于，所述利用所述现有领域对应的已知切分语料seg0，找出初始分词结果seg1中的异常分词并标注，包括：利用所述现有领域对应的已知切分语料seg0的统计特征，对初始分词结果seg1中的每个分词进行打分；选取seg1中分数低于预设阈值的分词作为异常分词，并对所述异常分词进行标注。3.如权利要求1或2所述的异常分词的处理方法，其特征在于，所述基于所述性能参数p0以及异常分词的人工审核结果，对自动标注的异常分词进行处理，得到对应的分词结果，包括：推送已标注的异常分词，供用户进行人工审核；接收人工审核后的分词，得到对应的分词集seg1-1；基于所述已知切分语料seg0，获取分词集seg1-1映射的测试参数p1；将测试参数p1与所述性能参数p0进行比较，根据比较结果，得到对应的分词结果。4.如权利要求3所述的异常分词的处理方法，其特征在于，所述基于所述已知切分语料seg0，获取分词集seg1-1映射的测试参数p1，包括：将分词结果seg1-1添加至已知切分语料seg0中，利用分词集seg1-1和seg0训练得到新的分词模型B；利用分词模型B在所述测试集t上进行标注性能的测试，得到测试参数p1。5.如权利要求3所述的异常分词的处理方法，其特征在于，所述将测试参数p1与所述性能参数p0进行比较，根据比较结果，得到对应的分词结果，包括：将测试参数p1与所述测试参数p0进行比较；若测试参数p1大于测试参数p0，则将分词结果seg1-1添加至seg0中，作为现有领域对应的已知切分语料；若测试参数p1小于测试参数p0，则调整预设阈值，重新找出异常分词并标注，并基于重新标注的异常分词，计算得到新的测试参数p1；根据新的测试参数p1进行比较处理，得到对应的分词结果；若测试参数p1等于测试参数p0，则从未标注的跨领域语料中重新选取对应的测试数据，并基于重新选择的测试数据...

【专利技术属性】
技术研发人员：陈峰，
申请(专利权)人：北京云知声信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人