一种基于孪生循环神经网络的泰文句子切分方法技术

技术编号:24092912 阅读:36 留言:0更新日期:2020-05-09 08:54
本发明专利技术公开了一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。本发明专利技术方法不需要人工设计特征,也不依赖词性标注和句法信息。与已有方法相比,本发明专利技术所提出的方法更加简洁,句子切分效果也有了提升;本发明专利技术方法对空格前后的词序列进行编码获取句子切分的特征时,空格前和空格后的词序列使用相同的模型框架,并且共享了相同的参数,这样更好的考虑了空格前后词序列之间的可比性,同时缩减了参数,更有利于模型的训练;通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义,从而提升句子切分的性能。

A Thai sentence segmentation method based on twin circulation neural network

【技术实现步骤摘要】
一种基于孪生循环神经网络的泰文句子切分方法
本专利技术涉及一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。
技术介绍
泰文很少使用标点符号,句子间没有明显的分隔符,为泰文词法分析、句法分析、机器翻译等自然语言处理任务带来了额外的困难。泰文也有标点符号,在Unicode甚至提供了特殊的零宽度空格符(Zero-WidthSpace,ZWSP)用于分隔泰文词。然而,与英语不同的是,在实际应用中泰文很少使用标点符号,词语间通常也不用分隔符,而是用空格符分隔句子、短语和特殊词语,如称谓和姓名之间、标号和内容之间、括号和内容之间等。所以,泰文句子切分不能依靠标点符号,而必须充分考虑段落的上下文信息。
技术实现思路
本专利技术提供了一种基于孪生循环神经网络的泰文句子切分方法,以用于构建最优孪生循环神经网络模型用于泰文句子切分。本专利技术的技术方案是:一种基于孪生循环神经网络的泰文句子切分方法,所述方法的具体步骤如下:Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x1,x2,...,xt,…,xT],每个词对应的one-hot向量表示xt的维数为Nw维,T表示词序列中词的数量,Nw为词汇表的大小,即从语料中统计并去重后的词语数量;Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E;其中,E=WEX=[e1,e2,...,et,…,eT],et∈Rd,ed表示第t个词所对应的词嵌入表示,和Rd中的R表示实数域,d表示词序列中每个词所对应的词嵌入表示的维数;Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码,分别得到空格前后的词序列编码表示hl和hr;其中,hl表示空格前的词序列所对应的编码表示,hr表示空格后词序列所对应的编码表示;Step4、将step3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网络模型的隐含层综合学习,得到最终的编码向量表示h作为句子切分的特征;Step5、在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分特征h进行二分类操作:y=sigmoid(W2h+b2)其中,y表示模型分类结果,W2是输出层的权重矩阵,b2是偏置矩阵;Step6、采用对数损失函数作为孪生循环神经网络模型的损失函数,同时采用一种自适应学习速率梯度下降优化算法Adam训练该模型,Adam算法根据对数损失函数对每个模型参数梯度的一阶矩估计和二阶矩估计来动态调整Adam算法学习速率,从而训练出泰文句子切分的最优孪生循环神经网络模型;其中,针对一个样本数量为M的批次数据,其损失函数定义如下:对数损失函数是求在空格前词序列中第i个词的编码表示和空格后词序列中第i个词的编码表示的条件下分类结果为y的概率,log表示对数函数。所述语料为ORCHID语料。本专利技术的有益效果是:1.本专利技术提出了一种基于孪生循环神经网络的泰文句子切分方法。该方法不需要人工设计特征,也不依赖词性标注和句法信息。与已有方法相比,本专利技术所提出的方法更加简洁,句子切分效果也有了提升。2.本专利技术提出了一种基于孪生循环神经网络的泰文句子切分方法。对空格前后的词序列进行编码获取句子切分的特征时,空格前和空格后的词序列使用相同的模型框架,并且共享了相同的参数,这样更好的考虑了空格前后词序列之间的可比性,同时缩减了参数,更有利于模型的训练。3.本专利技术提出了一种基于孪生循环神经网络的泰文句子切分方法。通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义,从而提升句子切分的性能。附图说明图1为本专利技术的流程图。具体实施方式实施例1:如图1所示,一种基于孪生循环神经网络的泰文句子切分方法,所述方法的具体步骤如下:Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x1,x2,...,xt,…,xT],每个词对应的one-hot向量表示xt的维数为Nw维,T表示词序列中词的数量,Nw为词汇表的大小,即从语料中统计并去重后的词语数量;Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E;其中,E=WEX=[e1,e2,...,et,…,eT],et∈Rd,et表示第t个词所对应的词嵌入表示,和Rd中的R表示实数域,d表示词序列中每个词所对应的词嵌入表示的维数;Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码,分别得到空格前后的词序列编码表示hl和hr;其中,hl表示空格前的词序列所对应的编码表示,hr表示空格后词序列所对应的编码表示;Step4、将step3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网络模型的隐含层综合学习,得到最终的编码向量表示h作为句子切分的特征;Step5、在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分特征h进行二分类操作:y=sigmoid(W2h+b2)其中,y表示模型分类结果,W2是输出层的权重矩阵,b2是偏置矩阵;Step6、采用对数损失函数作为孪生循环神经网络模型的损失函数,同时采用一种自适应学习速率梯度下降优化算法Adam训练该模型,Adam算法根据对数损失函数对每个模型参数梯度的一阶矩估计和二阶矩估计来动态调整Adam算法学习速率,从而训练出泰文句子切分的最优孪生循环神经网络模型;其中,针对一个样本数量为M的批次数据,其损失函数定义如下:对数损失函数是求在空格前词序列中第i个词的编码表示和空格后词序列中第i个词的编码表示的条件下分类结果为y的概率,log表示对数函数。作为本专利技术的进一步方案,所述语料为ORCHID语料。作为本专利技术的进一步方案,所述步骤3的具体步骤为:Step3.1、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码,首先通过重置门rt来控制过去状态对候选状态的贡献。如果rt为零,则它将忘记过去的状态,重置门rt的更新公式为:rt=σ(Wret+Urht-1+br)在这里,rt表示重置门,σ代表激活函数,Wr和Ur表示权重矩阵,br表示偏置矩阵,et表示第t个词的词嵌入表示,本文档来自技高网...

【技术保护点】
1.一种基于孪生循环神经网络的泰文句子切分方法,其特征在于:所述方法的具体步骤如下:/nStep1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x

【技术特征摘要】
1.一种基于孪生循环神经网络的泰文句子切分方法,其特征在于:所述方法的具体步骤如下:
Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x1,x2,...,xt,…,xT],每个词对应的one-hot向量表示xt的维数为Nw维,T表示词序列中词的数量,Nw为词汇表的大小,即从语料中统计并去重后的词语数量;
Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E;其中,E=WEX=[e1,e2,...,et,…,eT],et∈Rd,et表示第t个词所对应的词嵌入表示,和Rd中的R表示实数域,d表示词序列中每个词所对应的词嵌入表示的维数;
Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码,分别得到空格前后的词序列编码表示hl和hr;其中,hl表示空格前的词序列所对应的编码表示,...

【专利技术属性】
技术研发人员:线岩团王红斌余正涛文永华张志菊
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1