文本处理方法、装置、设备及介质制造方法及图纸

技术编号:37996653 阅读:19 留言:0更新日期:2023-06-30 10:10
本发明专利技术涉及自然语言处理技术领域,公开了一种文本处理方法、装置、设备及介质,该方法包括:获取问题和所述问题对应的文本段落;将所述问题和所述文本段落输入预训练的略读模型,得到所述问题的第一有答案得分;将所述问题和所述文本段落输入预训练的精读模型,得到所述问题的第二有答案得分和所述问题对应的答案;根据所述第一有答案得分和所述第二有答案得分,得到所述问题的最终有答案得分。提升实体匹配的效果及问答引擎的应答效果。匹配的效果及问答引擎的应答效果。匹配的效果及问答引擎的应答效果。

【技术实现步骤摘要】
文本处理方法、装置、设备及介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本处理方法、装置、设备及介质。

技术介绍

[0002]机器阅读理解(MRC)是自然语言理解(NLU)领域的一个重要方向,旨在训练机器理解文本段落后回答问题,在自动问答Q&A系统开发等方面有广阔应用前景。早期的机器阅读理解工作默认所有问题均有答案,但在真实应用中往往会伴随着许多没有答案的问题。
[0003]对于有没有答案问题的机器阅读理解模型,需要做到两个要求:判断是否可以回答;准确回答问题,这需要模型有强大的语言模型进行文本段落编码建模,同时还能高效判断一个问题是否有答案。
[0004]专利技术人注意到:近几年MRC模型中的语言模型已经取得了长足发展,例如BERT和XLNet等encoder模型已经可以在应用中表现出非常好的效果,但现有对于MRC的研究更多地集中于encoder端,而较少关注decoder端,但decoder端对于MRC模型的效果有十分重要的影响。另外,传统模型例如PrLMs的Pre<br/>‑
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取问题和所述问题对应的文本段落;将所述问题和所述文本段落输入预训练的略读模型,得到所述问题的第一有答案得分;将所述问题和所述文本段落输入预训练的精读模型,得到所述问题的第二有答案得分和所述问题对应的答案;根据所述第一有答案得分和所述第二有答案得分,得到所述问题的最终有答案得分。2.根据权利要求1所述的文本处理方法,其特征在于,所述略读模型包括略读解码层、略读交互层和略读验证层,所述将所述问题和所述文本段落输入预训练的略读模型,得到所述问题的第一有答案得分,包括:将所述问题和所述文本段落输入略读解码层,得到所述问题和所述文本段落的拼接向量;将所述拼接向量输入所述略读交互层的略读神经网络结构中,得到所述问题和所述文本段落的融合向量;将所述融合向量输入所述验证层,得到所述问题的第一有答案得分。3.根据权利要求2所述的文本处理方法,其特征在于,所述略读验证层包括第一略读逻辑回归分类器和第二略读逻辑回归分类器;所述将所述融合向量输入所述验证层,得到所述问题第一有答案得分,包括:将所述融合向量输入所述第一略读逻辑回归分类器,得到所述问题有答案的第一得分;将所述融合向量输入所述第一略读逻辑回归分类器,得到所述问题没有答案的第二得分;根据所述第一得分和所述第二得分,得到所述问题的第一有答案得分。4.根据权利要求1所述的文本处理方法,其特征在于,所述精读模型包括精读解码层、精读交互层和精读验证层,所述将所述问题和所述文本段落输入预训练的精读模型,得到所述问题的第二有答案得分和所述问题对应的答案,包括:将所述问题和所述文本段落输入精读解码层,得到所述问题和所述文本段落的拼接向量;将所述拼接向量输入所述精读交互层的精读神经网络结构中,得到所述问题对应的问题向量和所述文本段落对应的文本段落向量;根据所述问题向量,得到所述问题在所述文本段落中的加权求和向量;将所述加权求和向量与所述文本段落向量一起输入所述精读验证层,得到所述问题的第二有答案得分和所述问题对应的答案。5.根据权利要求4所述的文本处理方法,其特征在于,所述精读验证层包括GRU神经网络结构,所述将所述加权求...

【专利技术属性】
技术研发人员:杨翰章吴育人李弦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1