基于两个层次Bi-LSTM的汉语句子排序方法技术

技术编号:28119549 阅读:37 留言:0更新日期:2021-04-19 11:24
本发明专利技术属于自然语言处理技术领域,公开了基于两个层次Bi

【技术实现步骤摘要】
基于两个层次Bi

LSTM的汉语句子排序方法


[0001]本专利技术属于自然语言处理
,具体涉及基于两个层次Bi

LSTM的汉语句子排序方法。

技术介绍

[0002]句子排序是将本无顺序或打乱顺序的若干句子,通过分析这些句子之间的逻辑结构与语义关联,将它们重新排序,得到一段语义连贯、可读性强的文本的过程。句子排序在自然语言处理领域有许多应用场景。第一类应用场景是多文档自动摘要和自动问答系统,这类应用场景中有一个共同的任务:句子排序。多文档自动摘要中要从多个文档抽取出一些候选摘要句子,在形成最终摘要文本时需要对这些句子进行排序;自动问答系统中要从多个答案文本中抽取出一些候选答案句子,在形成最终问题答案时也需要对这些候选句子进行排序。并且由于这些摘要句子或答案句子来自于不同文档或答案文本,所以在进行句子排序时可以作为排序依据的时间信息、空间信息缺失或不可用,这时只能根据句子的语义逻辑关系进行排序。第二类应用场景是让计算机去“参加”一些考试,解答句子排序这类试题。“句子排序”是高考试题中的一种常考题型,也是中小学生学习语文时经常要做的一类练习题,这些试题或练习题主要是对学生语言表达连贯的考查。句子顺序正确是文本可读、准确地表达语义和传递信息的必要条件,将一组给定的句子组织成句意连贯的一段文本,方便他人阅读和理解是学生学习语文的重要目标。
[0003]句子排序的方法主要有传统的句子排序方法和基于深度神经网络的句子排序方法两类。传统的句子排序方法主要依据待排序句子中的时间信息或逻辑连词等明显的文本特征进行排序,人力成本较高。近几年,不少学者探索了基于深度神经网络的句子排序方法,文献[1](栾克鑫,杜新凯,孙承杰,等.基于注意力机制的句子排序方法.中文信息学报,2018,32(1):123

130.)公开了一种基于注意力机制的句子排序方法,该方法通过注意力机制将重点聚焦在关键词上,通过找出词与词之间的关系来确定句子与句子之间的关系,具体实现时将待排序的句子两两组合,首先判断每个组合中两个句子的顺序关系,根据两两句子的顺序关系,确定所有句子的顺序关系。该方法需要比较确定的句子间顺序次数多,增加了运算时间。专利文献[2](浙江大学于2018年9月21日提交的公开号为CN 109241536A的中国专利“一种基于深度学习自注意力机制的句子排序方法”)公开了一种基于深度学习自注意力机制的句子排序方法,该方法采用自注意力机制从句子向量中学习句子间的语义关联,并挖掘潜在的逻辑结构,保存重要信息构成高层次的段落向量,然后输入指针网络得到句子顺序,该方法具有较高的准确率,但计算复杂。
[0004]针对以上技术中计算复杂和运算时间长等问题,特提出本专利技术。本专利技术提供一种基于两个层次双向长短期记忆网络(Bidirectional Long Short

Term Memory,Bi

LSTM)的汉语句子排序方法,将汉语句子排序问题转换为一个多分类问题。第一层次的Bi

LSTM实现从词向量得到句向量,输入为句子的各个词向量,输出为该句子的句向量;第二层次的Bi

LSTM实现对句子的排序,输入为待排序句子的经第一层次Bi

LSTM输出的句向量,输出
为该句子的排序序号,通过Bi

LSTM实现多对多的输入和输出,将输出结果通过归一化指数函数做多分类处理,取得了较好的汉语句子排序结果,且实现较简单。

技术实现思路

[0005]本专利技术的目的在于:提供一种基于两个层次Bi

LSTM的汉语句子排序方法,将汉语句子排序问题转换为一个多分类问题。第一层次的Bi

LSTM实现从词向量得到句向量,输入为句子的各个词向量,输出为该句子的句向量;第二层次的Bi

LSTM实现对句子的排序,输入为待排序句子的经第一层次Bi

LSTM输出的句向量,输出为该句子的排序序号,通过Bi

LSTM实现多对多的输入和输出,将输出结果通过归一化指数函数做多分类处理,取得了较好的汉语句子排序结果,且实现较简单。
[0006]本专利技术采用的技术方案如下:
[0007]基于两个层次Bi

LSTM的汉语句子排序方法,该方法包括如下步骤:
[0008](1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量,具体步骤如下:
[0009](11)对已分词的词向量训练语料进行预处理生成分词语料句子集,建立词的词典,为每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词典中的词;
[0010](12)采用word2vec得到该分词语料句子集的词向量;
[0011](2)对选取的汉语句子排序语料进行预处理,将该排序语料按一定比例划分为训练语料和测试语料,其中,训练语料再按一定比例划分为训练语料和验证语料;
[0012](3)采用第一层次的Bi

LSTM模型实现在词向量的基础上生成汉语句子的句向量:具体是一种多对一的模式,输入为句子的各个词向量,输出为该句子的句向量;
[0013](4)采用第二层次的Bi

LSTM模型实现汉语句子的排序:具体是一种多对多的模式,将汉语句子排序问题转换为一个多分类问题,输入为5个句子的句向量,输出为每个句子的排序序号;
[0014](5)训练用于进行汉语句子排序的第一层次的Bi

LSTM模型、第二层次的Bi

LSTM模型,具体步骤如下:
[0015](51)将步骤(2)得到的汉语句子排序训练语料输入第一层次的Bi

LSTM模型、第二层次的Bi

LSTM模型;
[0016](52)训练用于进行汉语句子排序的第一层次的Bi

LSTM模型、第二层次的Bi

LSTM模型,得到模型各层权重参数与相应偏置项;
[0017](6)在测试语料中输入待排序的一组汉语句子,进行汉语句子排序及后处理,具体步骤如下:
[0018](61)将一组待排序的汉语句子输入训练好的第一层次的Bi

LSTM模型、第二层次的Bi

LSTM模型;
[0019](62)输出这组汉语句子的得分最高的排序序号。
[0020]进一步的,所述步骤(2)中,汉语句子排序语料是分词之后的人民日报语料,每5个句子一组,序号依次为1

5。
[0021]进一步的,所述汉语句子的长度为36个词语,长于36个词语的句子会被截断,少于36个词语的句子会进行填充。
[0022]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0023]1、本专利技术中,将汉语句子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于两个层次Bi

LSTM的汉语句子排序方法,其特征在于,该方法包括如下步骤:(1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量,具体步骤如下:(11)对已分词的词向量训练语料进行预处理生成分词语料句子集,建立词的词典,为每个词分配序号,序号从1开始编号,0号保留用来表示没有出现在词典中的词;(12)采用word2vec得到该分词语料句子集的词向量;(2)对选取的汉语句子排序语料进行预处理,将该排序语料按一定比例划分为训练语料和测试语料,其中,训练语料再按一定比例划分为训练语料和验证语料;(3)采用第一层次的Bi

LSTM模型实现在词向量的基础上生成汉语句子的句向量:具体是一种多对一的模式,输入为句子的各个词向量,输出为该句子的句向量;(4)采用第二层次的Bi

LSTM模型实现汉语句子的排序:具体是一种多对多的模式,将汉语句子排序问题转换为一个多分类问题,输入为5个句子的句向量,输出为每个句子的排序序号;(5)训练用于进行汉语句子排序的第一层次的Bi

LSTM模型、第二层次的Bi

LSTM模型,具体步骤如下:(...

【专利技术属性】
技术研发人员:于江德李学钰宋俊昌武宇浩杨佩于
申请(专利权)人:安阳师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1