一种基于新词发现的跨领域中文分词系统及方法技术方案

技术编号:29157412 阅读:23 留言:0更新日期:2021-07-06 22:57
本发明专利技术公开了一种基于新词发现的跨领域中文分词系统及方法,该系统包括:新词发现模块,使用结合统计信息和语义信息的增强互信息来实现新词发现算法,用于从无标注的语料中挖掘新词词表;自动标注模块,使用新词词表结合逆向最大匹配算法实现对无标注语料的初始切分,得到切分不完全的语料,使用分词模型对切分不完全的语料进行完全切分,得到自动标注的语料;跨领域分词模块,使用对抗式方法实现跨领域中文分词算法,并使用有标注的源领域语料和自动标注的语料进行对抗式训练。本发明专利技术使用增强互信息优化了新词发现算法,提升了新词发现的准确率和词表的领域性;在跨领域分词算法中提升了对无标注语料的利用率,优化了分词的召回率和准确率。

【技术实现步骤摘要】
一种基于新词发现的跨领域中文分词系统及方法
本专利技术涉及自然语言
,具体涉及一种基于新词发现的跨领域中文分词系统及方法。
技术介绍
中文文本以汉字作为最小的书写单元,汉字之间相互组合构成词语,最后由词语构成中文文本。词语是中文文本中包含语义信息并且能够独立使用的最小结构单元,但不同于英语等语言,中文词语之间没有显式的分隔符,使用一定的技术方法将中文文本切分成词以方便计算机理解,这个过程就是中文分词。中文分词是中文自然语言处理中最基础的任务,它是诸如文本分类、文本生成和情感分析等等自然语言处理任务的基石。因此中文分词结果的好坏将对下游任务的结果产生直接影响。传统的中文分词方法主要分为两类:机械分词方法和基于统计的中文分词方法。机械分词方法以现有的词典作为基础结合一定的人工规则进行分词,对于未登录词(OutOfVocabulary,OOV,未在分词词典中出现过的词)的识别能力很低;基于统计的分词方法局限在很小范围内的上下文,无法统计到全局特征,对于未登录词的识别能力一样很低,故而这两种分词方法的准确率和召回率都很差,并不能作为当今实本文档来自技高网...

【技术保护点】
1.一种基于新词发现的跨领域中文分词系统,其特征在于,所述系统包括新词发现模块、自动标注模块和跨领域分词模块,以上三个模块顺次连接,其中,/n所述新词发现模块,用于从无标注的目标领域语料中提取出没有在源领域中的出现过的未登录词,得到该领域的新词词表;/n所述自动标注模块,使用基于新词词表的逆向最大匹配算法对无标注语料进行初始切分,得到没有完全切分开的语料;使用基于源领域语料训练的GCNN-CRF分词算法对初始切分后语料中未切分的部分进行完全切分,实现对无标注目标领域语料的自动切分;/n所述跨领域分词模块,使用有标注的源领域语料和自动标注的目标领域语料来训练对抗式深度神经网络,将跨领域分词转换为...

【技术特征摘要】
1.一种基于新词发现的跨领域中文分词系统,其特征在于,所述系统包括新词发现模块、自动标注模块和跨领域分词模块,以上三个模块顺次连接,其中,
所述新词发现模块,用于从无标注的目标领域语料中提取出没有在源领域中的出现过的未登录词,得到该领域的新词词表;
所述自动标注模块,使用基于新词词表的逆向最大匹配算法对无标注语料进行初始切分,得到没有完全切分开的语料;使用基于源领域语料训练的GCNN-CRF分词算法对初始切分后语料中未切分的部分进行完全切分,实现对无标注目标领域语料的自动切分;
所述跨领域分词模块,使用有标注的源领域语料和自动标注的目标领域语料来训练对抗式深度神经网络,将跨领域分词转换为领域内分词实现对目标领域的分词。


2.根据权利要求1所述的一种基于新词发现的跨领域中文分词系统,其特征在于,所述新词发现模块由候选词提取子模块、增强互信息提取子模块、邻接熵提取子模块和候选词过滤子模块共同构成,其中,候选词提取子模块、增强互信息提取子模块和候选词过滤子模块顺次连接,候选词提取子模块用于从目标领域语料中提取所有的候选词,增强互信息提取子模块用于提取所有候选词的增强互信息,候选词过滤子模块用于对候选词进行过滤;候选词过滤子模块、邻接熵提取子模块和候选词过滤子模块顺次连接,邻接熵提取子模块用于提取所有候选词的邻接熵;候选词提取子模块和候选词过滤子模块连接。


3.根据权利要求1所述的一种基于新词发现的跨领域中文分词系统,其特征在于,所述自动标注模块由第一中文分词子模块和第二中文分词子模块共同构成,第一中文分词子模块基于新词词表对语料进行匹配,若匹配成功则进行切分,否则不切分,实现对目标领域语料的不完全切分;第二中文分词子模块使用基于源领域语料训练的GCNN-CRF分词算法对第一中文分词子模块中未切分的语料进行切分,实现对目标领域语料的完全切分。


4.根据权利要求1所述的一种基于新词发现的跨领域中文分词系统,其特征在于,所述跨领域分词模块包括源领域特征提取子模块、公共特征提取子模块、目标领域特征提取子模块、源领域词位标注子模块、文本分类子模块和目标领域词位标注子模块,其中,源领域特征提取子模块和源领域词位标注子模块连接构成支路一,源领域特征提取子模块用于提取源领域语料的独有特征,源领域词位标注子模块用于对源领域语料进行词位标注;公共特征提取子模块分别与文本分类子模块、源领域词位标注子模块、目标领域词位标注子模块连接构成支路二,公共特征提取子模块用于提取源领域语料和目标领域语料的公共特征,文本分类子模块用于判别输入来自于哪个领域,目标领域词位标注子模块连接用于对目标领域语料进行词位标注;目标领域特征提取子模块和目标领域词位标注子模块连接构成支路三,目标领域特征提取子模块用于提取目标领域语料的独有特征。


5.根据权利要求1所述的一种基于新词发现的跨领域中文分词系统,其特征在于,所述源领域特征提取子模块、目标领域特征提取子模块和公共特征提取子模块均采用GCNN作为特征提取器,GCNN包含4个CNN层、1个激活层,输入向量并行进入4个CNN层,经过CNN进行特征提取后得到4个特征向量,将第一个CNN层的特征向量输入到激活层中进行激活,维度保持不变,将向量中的数字局限在0到1之间作为一个权重向量,将权重向量和另外3个CNN层输出的特征向量相乘得到的向量就是最终的特征向量,其中激活函数为sigmoid。


6.一种根据权利要求1-5任一所述的基于新词发现的跨领域中文分词系统的分词方法,其特征在于,采用以下步骤实现对不同领域语料的分词:
步骤S1:使用新词发现模块从目标领域语料中挖掘出该领域的新词词表。
步骤S2:使用自动标注模块结合步骤S中得到的领域新词词表对无标注目标领域语料进行自动标注。
步骤S3:通过跨领域分词模块的三条支路提取源领域和目标领域语料的特征,其中,支路一使用源领域特征提取子模块在源领域语料提取源领域特征Hsrc;支路二使用公共特征提取子模块提取源领域和目标领域语料的公共特征Hshr;支路三使用目标领域特征提取子模块在目标领域语料提取目标领域特征Htgt;
步骤S4:将步骤S3中得到的Hshc和Hshr输入到源领域词位标注子模块中来预测源领域词位标签,将步骤S3中得到的Htgt和Hshr输入到目标领域词位标注子模块中来预测目标领域词位标签,将步骤S3中得到的Hshr输入到文本分类子模块中来预测输入文本的领域标签。


7.根据权利要求6所述的一种基于新词发现的跨领域中文分词方法,其特征在于,所述步骤S1中,使用新词发现模块从目标领域语料中挖掘出该领域的新词词表的过程如下:步骤S1.1:使用候选词提取子模块从无标注的目标领域语料中提取出该领域语料上所有长度不超过n的候选词;
步骤S1.2:将候选词C随机切分为前后两个内部片段A和B,统计C、A和B的次数分别为nC、nA和nB,采用以下方法计算得到C的互信息MIC。






其中,nw表示任意字符串w在语料中出现次数;
步骤S1.3:使用目标领域语料训练Word2Vec模型,得到任意一个字符cj的字向量采用以下方法计算内部片段A的词向量VecA和内部片段B的词向量VecB:






其中,i表示A中的汉字数量,m表示B中的汉字数量,ap和bq表示词向量在位置p和q处的值,n表示向量维度;
步骤S1.4:根据步骤S1.3中的内部片段A和内部片段B的词向量VecA、VecB,采用以下方法计算内部片段A和内部片段B的语义相关性sim(A,B):



步骤S1.5:根据步骤S1.2中的互信息MIC和步骤S1.4的语义相关性sim(A,B),采用以下方法计算候选词C的增强互信息ENMIC:



其中β1表示语义相关性在增强互信息中的权重系数;
步骤S1.6:分别从目标领域语料中找出候选词C的所有左邻接字[L1,...Lu...LH]...

【专利技术属性】
技术研发人员:张军李学宁更新杨萃冯义志余华陈芳炯季飞
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1