一种中文分词增量学习方法技术

技术编号：12356314 阅读：202 留言：0更新日期：2015-11-20 11:39

一种中文分词增量学习方法，涉及中文分词领域。本发明专利技术为了解决现有的在源领域切分数据的基础上加入目标领域数据混合训练数据的方法存在的每次数据混合都需要重新训练模型和数据处理量非常大时导致的运算时间长、对硬件要求高的问题。本发明专利技术首先对中文语句集合中的语句xn进行人工标注标记，将已进行人工标记的语句(xn,yn)记为训练集；对中文语句集合中特征的权重向量W进行初始化，针对中文语句集合中的N个语句，计算每个语句权重向量Wn；然后进行T次迭代操作，然后计算权重向量平均值当中文语句集合中引入增量中文语句集合时，计算出增量中文语句集合的权重向量平均值求得中文分词增量权重参数完成中文分词增量的学习。本发明专利技术适用中文分词领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文分词领域。
技术介绍
词是最小的具有独立意义的语言成分，汉语是以字为基本的书写单位，词与词之间没有明显的区分标记。因此，中文分词是中文信息处理的基础与关键，信息检索、文本挖掘等任务中广泛使用。近年来，基于统计的中文分词方法在新闻领域已经取得了很好的性能。但随着互联网、社交媒体与移动平台的迅猛发展，当前中文分词模型处理的数据不单局限于新闻领域，越来越多的开放领域数据的加入，对中文分词模型提出了新的要求。现有的研究表明在新闻领域训练的中文分词模型切换到诸如论坛、微博、小说等领域时，性能往往严重下降。这种训练与测试领域不一致致使模型性能下降的问题可归纳为领域适应问题。在使用新闻领域训练的分词模型处理开放领域时，新闻领域为源领域，开放领域为目标领域。出现这种问题主要有两点原因，一是不同领域数据文体不一致，例如小说与新闻；二是不同领域间领域词典不一致，如金融领域与新闻领域。《Unsupervised Domain Adaptation for Joint Segmentation and POS-Tagging》在分词词性标注联合模型上通过聚类的方式捕捉原始领域与目标领域的相似性，得以解决文体差异过大问题。《Type-supervised domain adaptation for joint segmentation and pos-tagging》将目标领域词典融入模型，避免了源领域与目标领域词典差异过大。《Domain Adaptation for CRF-based Chinese Word Segme...
一种中文分词增量学习方法

【技术保护点】
一种中文分词增量学习方法，其特征在于它包括下述步骤：步骤1；设中文语句集合中有N个语句；对中文语句集合中的语句xn进行人工标注标记，语句xn人工标注标记结果为yn；将已进行人工标记的语句(xn,yn)记为训练集，n为语句的序号，n＝(1,2,…,N)；步骤2：对中文语句集合中特征的权重向量W进行初始化，将初始化的权重向量标记为W1＝(w1,w2,…,wM)；其中w1,w2,…,wM分别为中文语句集合中各个特征对应的权重；M表示中文语句集合中所有特征的个数；步骤3：针对中文语句集合中的N个语句，计算每个语句权重向量Wn；步骤4：重复步骤3，进行T次迭代操作，然后计算权重向量平均值W‾=1NTΣn=1,t=1,n=N,t=TWn,t]]>其中，Wn，t表示第t次迭代操作中第n个的语句对应的权重向量；步骤5：当中文语句集合中引入增量中文语句集合时，单独提取出增量中文语句集合，按照步骤1至步骤4的操作，求出增量中文语句集合的权重向量平均值W‾add=1NaddTaddΣn=1,t=1,n=Nadd,t=TaddWaddn,t]]>其中，带...

【技术特征摘要】

【专利技术属性】
技术研发人员：车万翔，刘一佳，刘挺，赵妍妍，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人