基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置制造方法及图纸

技术编号:43378117 阅读:22 留言:0更新日期:2024-11-19 17:56
基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置,其方法包括:S1:对数据集预处理;S2:中文分词操作,获得拼音嵌入向量PE;S3:将段落和问题拼接,输入到BERT,得到词嵌入向量E<subgt;token</subgt;;S4:基于拼音嵌入PE和词嵌入E<subgt;token</subgt;,通过全连接层,再与段嵌入E<subgt;seg</subgt;和位置嵌入E<subgt;pos</subgt;相加,得到嵌入向量w;S5:进行BERT编码,得到编码向量表示;S6:将编码向量表示与词嵌入表示进行多层注意力融合,得到融合低层级问题语义信息的上下文表示向量;S7:进行多层注意力融合计算,得到融合高层级问题语义信息的上下文表示向量;S8:利用编码器的自注意力,得到融合多层信息的上下文语义向量;S9:预测答案起始点和结束点的概率分布,选择概率最大的组合确定答案跨度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域的抽取式机器阅读理解方法,特别涉及一种基于拼音嵌入增强和多层信息融合的中文抽取式机器阅读理解方法和装置。


技术介绍

0、技术背景

1、抽取式机器阅读理解任务旨在让构建的模型从给定的文本中找到准确的答案,而这些答案通常可以直接从原文中抽取出来,不需要生成新的内容。这种任务通常涉及对问题和文本的理解,以及在给定的文本中定位相关信息的能力。

2、基于神经网络的阅读理解模型的研究重心是采用双向编码或注意力机制对问题和文本进行充分的信息交互,重点关注与问题有关的部分,或者是利用词性标注、句法分析等方式深入理解问题和文本的语义信息。但是,这些都依赖于大量标注数据,尤其是在面对特定领域,需要大规模的标注数据才能取得较好的性能。在英文机器阅读理解领域,由于英文语言结构相对简单,并且数据集资源丰富,许多先进的模型和技术已经被广泛应用,取得了较好的效果。相比之下,在中文机器阅读理解任务中,由于中文语言的复杂性和歧义性,以及中文数据集缺乏的情况下,其挑战性更大。

3、中文具有丰富的词汇和语法结构,存在大量的多音字本文档来自技高网...

【技术保护点】

1.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,包括以下步骤:

2.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤2所述的利用卷积网络模型获得拼音嵌入,具体是指:设汉字拼音数量为len,对每个汉字的拼音随机初始化一个pd维向量,形成拼音矩阵将中文文本转换为拼音序列x=[x1,x2,...,xlx],通过PV将每个拼音序列映射为相应的拼音向量,得到矩阵px=[x1,x2,...,xlx];其中xi=PV(xi),1≤i≤lx,表示拼音xi对应的拼音向量,lx表示汉字的数量;通过对拼音序列进行卷积操作,再进行最大池化,得到拼音嵌入表示PE...

【技术特征摘要】

1.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,包括以下步骤:

2.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤2所述的利用卷积网络模型获得拼音嵌入,具体是指:设汉字拼音数量为len,对每个汉字的拼音随机初始化一个pd维向量,形成拼音矩阵将中文文本转换为拼音序列x=[x1,x2,...,xlx],通过pv将每个拼音序列映射为相应的拼音向量,得到矩阵px=[x1,x2,...,xlx];其中xi=pv(xi),1≤i≤lx,表示拼音xi对应的拼音向量,lx表示汉字的数量;通过对拼音序列进行卷积操作,再进行最大池化,得到拼音嵌入表示pe。

3.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤4的嵌入向量w使用能表示为w=fe+eseg+epos,其中fe=concat(etoken,pe)wfc+bfc,其中wfc表示全连接层的权重,wfc表示全连接层的偏置,

4.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤5所述的利用bert对输入序列嵌入进行编码操作,具体是指:利用bert中的encoder编码器对输入序列中的单词的语义信息进行建模,得到输入序列的每一层编码输出;给定输入序列嵌入w,输入到bert模型中:

5.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤6所述的注意力融合计算,具体是指:定义关于上下文和问题的两...

【专利技术属性】
技术研发人员:董天阳肖帆应文渊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1