一种基于孪生循环神经网络的泰文句子切分方法技术

技术编号：24092912 阅读：42 留言：0更新日期：2020-05-09 08:54

本发明专利技术公开了一种基于孪生循环神经网络的泰文句子切分方法，属于句子切分领域。本发明专利技术方法不需要人工设计特征，也不依赖词性标注和句法信息。与已有方法相比，本发明专利技术所提出的方法更加简洁，句子切分效果也有了提升；本发明专利技术方法对空格前后的词序列进行编码获取句子切分的特征时，空格前和空格后的词序列使用相同的模型框架，并且共享了相同的参数，这样更好的考虑了空格前后词序列之间的可比性，同时缩减了参数，更有利于模型的训练；通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义，从而提升句子切分的性能。

A Thai sentence segmentation method based on twin circulation neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于孪生循环神经网络的泰文句子切分方法
本专利技术涉及一种基于孪生循环神经网络的泰文句子切分方法，属于句子切分领域。
技术介绍
泰文很少使用标点符号，句子间没有明显的分隔符，为泰文词法分析、句法分析、机器翻译等自然语言处理任务带来了额外的困难。泰文也有标点符号，在Unicode甚至提供了特殊的零宽度空格符(Zero-WidthSpace,ZWSP)用于分隔泰文词。然而，与英语不同的是，在实际应用中泰文很少使用标点符号，词语间通常也不用分隔符，而是用空格符分隔句子、短语和特殊词语，如称谓和姓名之间、标号和内容之间、括号和内容之间等。所以，泰文句子切分不能依靠标点符号，而必须充分考虑段落的上下文信息。
技术实现思路
本专利技术提供了一种基于孪生循环神经网络的泰文句子切分方法，以用于构建最优孪生循环神经网络模型用于泰文句子切分。本专利技术的技术方案是：一种基于孪生循环神经网络的泰文句子切分方法，所述方法的具体步骤如下：Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入...

【技术保护点】
1.一种基于孪生循环神经网络的泰文句子切分方法，其特征在于：所述方法的具体步骤如下：/nStep1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入，分别得到空格前后的词序列所对应的one-hot矩阵表示X；其中，孪生循环神经网络模型表示两个循环神经网络模型，X＝[x

【技术特征摘要】
1.一种基于孪生循环神经网络的泰文句子切分方法，其特征在于：所述方法的具体步骤如下：
Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入，分别得到空格前后的词序列所对应的one-hot矩阵表示X；其中，孪生循环神经网络模型表示两个循环神经网络模型，X＝[x1,x2,...,xt,…,xT]，每个词对应的one-hot向量表示xt的维数为Nw维，T表示词序列中词的数量，Nw为词汇表的大小，即从语料中统计并去重后的词语数量；
Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E；其中，E＝WEX＝[e1,e2,...,et,…,eT]，et∈Rd，et表示第t个词所对应的词嵌入表示，和Rd中的R表示实数域，d表示词序列中每个词所对应的词嵌入表示的维数；
Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码，分别得到空格前后的词序列编码表示hl和hr；其中，hl表示空格前的词序列所对应的编码表示，...

【专利技术属性】
技术研发人员：线岩团，王红斌，余正涛，文永华，张志菊，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人