【技术实现步骤摘要】
本专利技术涉及自然语言处理领域的抽取式机器阅读理解方法,特别涉及一种基于拼音嵌入增强和多层信息融合的中文抽取式机器阅读理解方法和装置。
技术介绍
0、技术背景
1、抽取式机器阅读理解任务旨在让构建的模型从给定的文本中找到准确的答案,而这些答案通常可以直接从原文中抽取出来,不需要生成新的内容。这种任务通常涉及对问题和文本的理解,以及在给定的文本中定位相关信息的能力。
2、基于神经网络的阅读理解模型的研究重心是采用双向编码或注意力机制对问题和文本进行充分的信息交互,重点关注与问题有关的部分,或者是利用词性标注、句法分析等方式深入理解问题和文本的语义信息。但是,这些都依赖于大量标注数据,尤其是在面对特定领域,需要大规模的标注数据才能取得较好的性能。在英文机器阅读理解领域,由于英文语言结构相对简单,并且数据集资源丰富,许多先进的模型和技术已经被广泛应用,取得了较好的效果。相比之下,在中文机器阅读理解任务中,由于中文语言的复杂性和歧义性,以及中文数据集缺乏的情况下,其挑战性更大。
3、中文具有丰富的词汇和语法结
...【技术保护点】
1.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,包括以下步骤:
2.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤2所述的利用卷积网络模型获得拼音嵌入,具体是指:设汉字拼音数量为len,对每个汉字的拼音随机初始化一个pd维向量,形成拼音矩阵将中文文本转换为拼音序列x=[x1,x2,...,xlx],通过PV将每个拼音序列映射为相应的拼音向量,得到矩阵px=[x1,x2,...,xlx];其中xi=PV(xi),1≤i≤lx,表示拼音xi对应的拼音向量,lx表示汉字的数量;通过对拼音序列进行卷积操作,再进行最大池化,
...【技术特征摘要】
1.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,包括以下步骤:
2.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤2所述的利用卷积网络模型获得拼音嵌入,具体是指:设汉字拼音数量为len,对每个汉字的拼音随机初始化一个pd维向量,形成拼音矩阵将中文文本转换为拼音序列x=[x1,x2,...,xlx],通过pv将每个拼音序列映射为相应的拼音向量,得到矩阵px=[x1,x2,...,xlx];其中xi=pv(xi),1≤i≤lx,表示拼音xi对应的拼音向量,lx表示汉字的数量;通过对拼音序列进行卷积操作,再进行最大池化,得到拼音嵌入表示pe。
3.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤4的嵌入向量w使用能表示为w=fe+eseg+epos,其中fe=concat(etoken,pe)wfc+bfc,其中wfc表示全连接层的权重,wfc表示全连接层的偏置,
4.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤5所述的利用bert对输入序列嵌入进行编码操作,具体是指:利用bert中的encoder编码器对输入序列中的单词的语义信息进行建模,得到输入序列的每一层编码输出;给定输入序列嵌入w,输入到bert模型中:
5.一种基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法,其特征在于,步骤6所述的注意力融合计算,具体是指:定义关于上下文和问题的两...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。