基于预训练和门控神经网络的语步识别方法、系统、设备及介质技术方案

技术编号：38470852 阅读：31 留言：0更新日期：2023-08-11 14:47

本发明专利技术提供基于预训练和门控神经网络的语步识别方法、系统、设备及介质，通过采集目标文段中的数据进行预处理，并按照预设语步打标签；对目标文段中长难复杂句进行甄别与拆分；搭建基于ERNIE_AT

全部详细技术资料下载

【技术实现步骤摘要】
基于预训练和门控神经网络的语步识别方法、系统、设备及介质

[0001]本专利技术属于文本处理
，具体涉及基于预训练和门控神经网络的语步识别方法、系统、设备及介质。

技术介绍

[0002]学术论文所有的文段中的摘要语步识别中利用简洁明了语步词语概括摘要句，帮助读者快速定位论文的具体信息，语步分类还具有人工智能推荐、实现图书情报学科、信息挖掘以及知识发现与知识图谱的构建等方面的应用扩展，可见，语步识别可以作为文本处理相关研究的基础任务是一项有重要意义的研究，然而，已有的语步识别算法中，由于没有充分挖掘和利用词语之间的内在关系和特征，导致这类算法的性能还需改善和提高。
[0003]语步识别的一个难点是：自然语言存在表达多样性和复杂性的问题，中文表达多样、一词多义、句子结构嵌套形成的长难复杂句难以拆分等问题，对于机器来说难以理解；语步识别的另一难点在于，还没有完善的数学模型来准确描述自然语言所表述的内容，机器对于自然语言的语义理解存在挑战较大。
[0004]摘要语步识别主要为基于传统机器学习和深度学习的方法，近...

【技术保护点】

【技术特征摘要】
1.基于预训练和门控神经网络的语步识别方法，其特征在于，包括以下步骤：S1：采集目标文段中的数据进行预处理，并按照预设语步打标签；S2：对目标文段中长难复杂句进行甄别与拆分；S3：搭建基于ERNIE_AT
‑
GRU语步自动识别模型；S4：将拆分之后的数据输入ERNIE_AT
‑
GRU模型训练，经过轮次训练对测试数据进行语步识别测试，得到语步识别结果。2.根据权利要求1所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤S1中对采集的目标文段进行统一化文本格式，并清洗文本中“\n”、“\t”、空格等格式符号，保留原数据的完整文字内容。3.根据权利要求1所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述步骤S2中对目标文段的数据利用LTP工具进行依存句法分析，依据COO辨别语句中是否存在复杂关系；依据获取的并列关系标记实现长难复杂句的甄别与拆分，得到单语义数据，并按照8:2比例分为训练数据和测试数据。4.根据权利要求3所述基于预训练和门控神经网络的语步识别方法，其特征在于，所述LTP工具进行依存句法分析以及依据COO辨别语句中是否存在复杂关系包括以下步骤：A1：LTP工具对目标文段的数据进行分词、词性标记、依存句法分析；A2：将得到的数据整合为方便处理的格式，S＝(分词、词性标记、(分词节点、父节点、依存关系标记))；A3：遍历整合数据，获取分词父节点为根节点且依存关系标记为COO的句子，存储符合条件的语义复杂句；A4：遍历语义复杂句，对于符合条件的复杂句在并列关系前的逗号处将句子分开，得到单语义分句；所述步骤S3中搭建语步自动识别模型包括以下步骤：B1：搭建ERNIE预训练模型，使用其Transformer
‑
XL特征处理器融合多头自注意力机制学习文本语义得到融合多头注意力机制的词向量特征矩阵；B2：搭建带注意力机制的门控网络AT
‑
GRU模块，将预训练模型所得词向量矩阵输入双向门控网络学习文本上下文特征，连接注意力机制聚焦用于文本分类的重要信息；B3：将ERNIE预训练模型与AT
‑
GRU模块组合，得到ERNIE_AT
‑
GRU模型；所述步骤B1搭建ERNIE预训练模型包括以下步骤：C1：编写预训练模型调用接口，加载预训练模型所需要预训练参数等信息；ERNIE预训练模型利用三段单字掩码、短语和实体层次的掩码信息整合方式得到词、短语、实体的完整语义；C2：经过三段掩码的词向量X:{w
i1
,w
i2
,...,w
iN
}输入Transformer
‑
XL编码器，经过词嵌入Embedding过程x
it
＝W
e
w
it
,t∈[1,N]，W
e
为Embedding层权重参数，将高维稀疏词向量矩阵转换为低维稠密词向量矩阵，即为每个语句的词嵌入向量；C3：对于单个self
‑
attention计算所得的三个权重矩阵W
q
、W
k
、W
v
将词嵌入向量与三者分别相乘所得矩阵Q、K和V表示目前词与句中其他词之间的相关度，为了防止结果过大，除以他们维度的均方根d
k
表示一个Q或K矩阵向量的维度，其中为可学习变量用于一
段范围内相对距离计算，接着通过Softmax函数归一化，得到归一化后各个词与其他词的相关度，再与V矩阵相乘，即加权求和，得到每个词新的向量编码，其公式如下：C4：将每个单个self
‑
attention计算所得Q、K、V矩阵按照切分的head合并，点乘权重W0，将切分后的head线性转换为原维度的矩阵，得到Multi
‑
Head矩阵，其过程可以表示为：head
i
＝Attentiin(Q
i
，K
i
，V
i
)，i＝1，...,h；MultiHead(Q,K,V)＝Concact(head
i
,...,head
h
)W0；C5：将Multi
‑
Head计算所得Q、K、V矩阵输入Add&Norm层进行自注意力输入输出相加和归一化...

【专利技术属性】
技术研发人员：温浩，王杰，
申请(专利权)人：西安建筑科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人