【技术实现步骤摘要】
一种基于孪生循环神经网络的泰文句子切分方法
本专利技术涉及一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。
技术介绍
泰文很少使用标点符号,句子间没有明显的分隔符,为泰文词法分析、句法分析、机器翻译等自然语言处理任务带来了额外的困难。泰文也有标点符号,在Unicode甚至提供了特殊的零宽度空格符(Zero-WidthSpace,ZWSP)用于分隔泰文词。然而,与英语不同的是,在实际应用中泰文很少使用标点符号,词语间通常也不用分隔符,而是用空格符分隔句子、短语和特殊词语,如称谓和姓名之间、标号和内容之间、括号和内容之间等。所以,泰文句子切分不能依靠标点符号,而必须充分考虑段落的上下文信息。
技术实现思路
本专利技术提供了一种基于孪生循环神经网络的泰文句子切分方法,以用于构建最优孪生循环神经网络模型用于泰文句子切分。本专利技术的技术方案是:一种基于孪生循环神经网络的泰文句子切分方法,所述方法的具体步骤如下:Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入 ...
【技术保护点】
1.一种基于孪生循环神经网络的泰文句子切分方法,其特征在于:所述方法的具体步骤如下:/nStep1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x
【技术特征摘要】
1.一种基于孪生循环神经网络的泰文句子切分方法,其特征在于:所述方法的具体步骤如下:
Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x1,x2,...,xt,…,xT],每个词对应的one-hot向量表示xt的维数为Nw维,T表示词序列中词的数量,Nw为词汇表的大小,即从语料中统计并去重后的词语数量;
Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E;其中,E=WEX=[e1,e2,...,et,…,eT],et∈Rd,et表示第t个词所对应的词嵌入表示,和Rd中的R表示实数域,d表示词序列中每个词所对应的词嵌入表示的维数;
Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码,分别得到空格前后的词序列编码表示hl和hr;其中,hl表示空格前的词序列所对应的编码表示,...
【专利技术属性】
技术研发人员:线岩团,王红斌,余正涛,文永华,张志菊,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。