基于两个层次Bi-LSTM的汉语句子排序方法技术

技术编号：28119549 阅读：37 留言：0更新日期：2021-04-19 11:24

本发明专利技术属于自然语言处理技术领域，公开了基于两个层次Bi

全部详细技术资料下载

【技术实现步骤摘要】
基于两个层次Bi
‑
LSTM的汉语句子排序方法

[0001]本专利技术属于自然语言处理
，具体涉及基于两个层次Bi
‑
LSTM的汉语句子排序方法。

技术介绍

[0002]句子排序是将本无顺序或打乱顺序的若干句子，通过分析这些句子之间的逻辑结构与语义关联，将它们重新排序，得到一段语义连贯、可读性强的文本的过程。句子排序在自然语言处理领域有许多应用场景。第一类应用场景是多文档自动摘要和自动问答系统，这类应用场景中有一个共同的任务：句子排序。多文档自动摘要中要从多个文档抽取出一些候选摘要句子，在形成最终摘要文本时需要对这些句子进行排序；自动问答系统中要从多个答案文本中抽取出一些候选答案句子，在形成最终问题答案时也需要对这些候选句子进行排序。并且由于这些摘要句子或答案句子来自于不同文档或答案文本，所以在进行句子排序时可以作为排序依据的时间信息、空间信息缺失或不可用，这时只能根据句子的语义逻辑关系进行排序。第二类应用场景是让计算机去“参加”一些考试，解答句子排序这类试题。“句子排序”是高考试题中的一种常考题型，也是中小学生学习语文时经常要做的一类练习题，这些试题或练习题主要是对学生语言表达连贯的考查。句子顺序正确是文本可读、准确地表达语义和传递信息的必要条件，将一组给定的句子组织成句意连贯的一段文本，方便他人阅读和理解是学生学习语文的重要目标。
[0003]句子排序的方法主要有传统的句子排序方法和基于深度神经网络的句子排序方法两类。传统的句子排序方法主要依据待排序句子中的时间信...

【技术保护点】

【技术特征摘要】
1.基于两个层次Bi
‑
LSTM的汉语句子排序方法，其特征在于，该方法包括如下步骤：(1)在词向量训练语料上采用word2vec得到训练语料中词语的词向量，具体步骤如下：(11)对已分词的词向量训练语料进行预处理生成分词语料句子集，建立词的词典，为每个词分配序号，序号从1开始编号，0号保留用来表示没有出现在词典中的词；(12)采用word2vec得到该分词语料句子集的词向量；(2)对选取的汉语句子排序语料进行预处理，将该排序语料按一定比例划分为训练语料和测试语料，其中，训练语料再按一定比例划分为训练语料和验证语料；(3)采用第一层次的Bi
‑
LSTM模型实现在词向量的基础上生成汉语句子的句向量：具体是一种多对一的模式，输入为句子的各个词向量，输出为该句子的句向量；(4)采用第二层次的Bi
‑
LSTM模型实现汉语句子的排序：具体是一种多对多的模式，将汉语句子排序问题转换为一个多分类问题，输入为5个句子的句向量，输出为每个句子的排序序号；(5)训练用于进行汉语句子排序的第一层次的Bi
‑
LSTM模型、第二层次的Bi
‑
LSTM模型，具体步骤如下：(...

【专利技术属性】
技术研发人员：于江德，李学钰，宋俊昌，武宇浩，杨佩于，
申请(专利权)人：安阳师范学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人