【技术实现步骤摘要】
一种将深度学习应用于中文分词的方法
本专利技术涉及计算机语言处理
,尤其涉及一种将深度学习应用于中文分词的方法。
技术介绍
自然语言处理是信息时代最重要的技术之一,而中文分词(ChineseWordSegmentation)就是将汉字序列切分成一个个单独的词的过程,它是进行自然语言处理的基础,分词应用领域十分广泛,比如词性标注、命名实体识别、语音合成、自动分类、机器翻译等,进行这些任务时,最细粒度的是词语,由词语组成句子,句子再组成段落、文章,传统的分词方法基于统计,这类方法的优点是简单,便于实现,而且效率一般比较高,但准确性不高,对于歧义问题无法很好的解决,特定领域的专业性文档更是如此;基于深度学习的分词方法,泛化能力很强,不依赖于词典,从大规模的语料集合中进行训练,准确性相比较传统分词方法得到了大幅度的提升,但是算法复杂度高,很容易出现梯度消失或梯度爆炸的问题,同时严重依赖于所选取的语料集合,从而发生过拟合。目前深度学习中文分词算法主要是基于长短时记忆网络(LSTM)为代表的循环神经网络模型及其衍生模型,但 ...
【技术保护点】
1.一种将深度学习应用于中文分词的方法,其特征在于,包括如下步骤:/nS1:数据预处理,借助文中原有的标点符号,段落分隔符等具有分割作用的符号对文档进行切分,提取句子的字特征,得到第一数据;/nS2:构建用于模型输入的字典,字典包括源字典src_dict和目标字典tgt_dict两部分,将第一数据进一步处理构建用于模型输入的字典,得到第二数据;/nS3:使用模型进行训练,将src_dict和tgt_dict输入到训练模型中,使用BPEmd模型对预处理的数据进行字嵌入预训练,第一数据作为Universal-Transformer的输入,得到维度增加后的特征向量,第二数据作为C ...
【技术特征摘要】
1.一种将深度学习应用于中文分词的方法,其特征在于,包括如下步骤:
S1:数据预处理,借助文中原有的标点符号,段落分隔符等具有分割作用的符号对文档进行切分,提取句子的字特征,得到第一数据;
S2:构建用于模型输入的字典,字典包括源字典src_dict和目标字典tgt_dict两部分,将第一数据进一步处理构建用于模型输入的字典,得到第二数据;
S3:使用模型进行训练,将src_dict和tgt_dict输入到训练模型中,使用BPEmd模型对预处理的数据进行字嵌入预训练,第一数据作为Universal-Transformer的输入,得到维度增加后的特征向量,第二数据作为CRF层的输入,得到目标字向量模型。
2.根据权利要求1所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S1中字特征包括四种词位置,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S,通过词位置对目标语料数据进行标注得到第一数据,将语料数据转化成为json格式,为了加速训练将第一数据转为hdf5格式。
3.根据权利要求2所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S2中用空格把语料数据集合切分成句子序列,再用制表符“\t”把句子序列切分成单个字符和带有字符对应的词位置标注两个序列,遍历两个序列,统计每个字符出现的频次,如果频次小于阈值5则选择忽略,最终得到源字典src_dict和目标字典tgt_dict。
4.根据权利要求3所述的一种将深度学习应用于中文分词的方法,其特征在于,所述S3中使用模型进行训练,得到训练的模型步包括:
S31:使用BPEmd模型对预处理的数据进行字嵌入预训练,使字向量的字特征维度增加,得到维度增加后的特征向量;
S32:所述S1中的第一数据作为Universal-Transformer的输入,模型编码某个字符,与序列中其他字符进行运算,得到该字符与序列中左右字符的句法和语义关系编码,得到提取了字符上下文关系特征的向量;
S33:所述S2中的第二数据作为CRF层的输入,对语料数据的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到目标字向量模型。
5.根据权利要求4所述的一种将深度学习应用于中文分词的方法,其特征在于,准备足够大的训练语料数据集合,确定期望的确定期望的词表大小,将单词拆分为字符序列并在末尾添加后缀“</w>”,统计单词频率,统计每一个连续字节对的出现频率,选择最高频者合并成新的,重复前述步骤直到达到设定的词表大小或下一个最高频的字节对出现频率...
【专利技术属性】
技术研发人员:曾诚,张敏,温超东,任俊伟,谭道强,盛潇,
申请(专利权)人:湖北大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。