基于成词性信息和键值记忆网络的中文分词方法及系统技术方案

技术编号:32887310 阅读:23 留言:0更新日期:2022-04-02 12:23
本发明专利技术公开了基于成词性信息和键值记忆网络的中文分词方法,属于中文分词技术领域,要解决的技术问题为如何结合多种成词性特征,实现普适性的中分分词。包括:对输入的句子进行分析,得到每个字所有相关的N元模型,基于每个字所有相关的N元模型构建词典,对于每个N元模型,并将N元模型作为键、将字和键的成词性信息作为值,构建键值记忆;通过编码器对输入句子的每个字进行编码,基于键值记忆网络通过键和值之间的转换对键值记忆进行建模,得到建模结果;通过解码器对建模结果进行预测分析,得到分词结果。到分词结果。到分词结果。

【技术实现步骤摘要】
基于成词性信息和键值记忆网络的中文分词方法及系统


[0001]本专利技术涉及中文分词
,具体地说是基于成词性信息和键值记忆网络的中文分词方法及系统。

技术介绍

[0002]一直以来分词往往被当做中文语言处理中的第一步,尤其是对于一些下游任务例如文本分类、问答系统和机器翻译等。现如今,已经有很多研究提出了通过提取上下文特征来做到更有效的基于单字标记的分词方式。然而,对于曾经的很多非神经网络的中文分词模型来说,N元模型的成词性特征仍旧起不到任何作用。随着技术的发展,使用神经网络的模型已被证明在此项工作中很有效。然而,在探索表达上下文信息的最佳方式,例如神经网络模型中的成词性,这一领域中仍旧有很多工作需要被研究。更进一步,即使是成词性的测量也有许多的方法。因此,设计一项可以有效的结合多种成词性特征的框架,从而使得中文分词可以更具有普适性,依旧是一项很具有挑战性的工作。
[0003]基于上述分析,如何结合多种成词性特征,实现普适性的中分分词,是需要解决的技术问题。

技术实现思路

[0004]本专利技术的技术任务是针对以上不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于成词性信息和键值记忆网络的中文分词方法,其特征在于应用于包括编码器、键值记忆网络以及解码器的中文分词模型,编码器和解码器配合作为NER模型,所述方法包括如下步骤:对输入的句子进行分析,得到每个字所有相关的N元模型,基于每个字所有相关的N元模型构建词典,对于每个N元模型,并将N元模型作为键、将字和键的成词性信息作为值,构建键值记忆;通过编码器对输入句子的每个字进行编码,基于键值记忆网络通过键和值之间的转换对键值记忆进行建模,得到建模结果;通过解码器对建模结果进行预测分析,得到分词结果。2.根据权利要求1所述的基于成词性信息和键值记忆网络的中文分词方法,其特征在于基于非监督方法对输入的句子进行学习分析,得到所有相关的N元模型。3.根据权利要求1所述的基于成词性信息和键值记忆网络的中文分词方法,其特征在于所述编码器为Bert或BI

LSTM模型,所述解码器基于softmax函数或条件随机场CRF对建模结果进行分类预测,得到分词结果。4.根据权利要求1

4任一项所述的基于成词性信息和键值记忆网络的中文分词方法,其特征在于基于键值记忆网络通过键和值之间的转换对每一对键值记忆进行建模,包括如下步骤:对于每个字,从字的上下文包括字本身生成所有相关的N元模型,对于每个N元模型,基于键值记忆网络的键寻址进行N元模型寻址,得到每个N元模型的寻址概率;基于键值记忆网络的值读取进行字的词性获取,根据值中字的不同情况读取一个键的值,使所有N元模型都映射到基于字在键中的位置的值之一,字的成词性记忆取所有键和值的加权和。5.基于成词性信息和键值记忆网络的中文分词系统,其特征在于包括:词典构建模块,所述词典构建模块用于对输入的句子进行分析,得到每个字所有相关的N元模型,基于每个字所有相关的N元模型构建词典,对于每个N元模型,并将N元模型作为键、将字和键的成词性信息作为值,构建键值记忆;中文分词模型,所述中文分词模型包括编码...

【专利技术属性】
技术研发人员:李晓瑜冯落落冯卫森李沛
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1