多语种问答方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32028936 阅读:27 留言:0更新日期:2022-01-27 12:46
本申请提供了一种多语种问答方法、装置、电子设备及存储介质,通过先获取用户输入的问题文本,然后利用段落选择模型以及多语种词表从预设资源库中确定问题文本对应的待选择段落,最后利用答案生成模型以及多语种词表从待选择段落中确定问题文本的答案。实现了在搜寻待选择段落以及生成答案的阶段通过运用多语种词表,避免多次翻译,解决了多次翻译耗时较长且语义可能出现偏差而影响答案质量,从而影响用户体验感的问题。达到了快速生成多语种问答答案,且为智能问答系统的国际化推广或者是多语种环境的使用提供了便捷高效的解决方案,避免了用户需要去设置语种模式或者需选择不同语种对应的智能问答系统产品的技术效果。同语种对应的智能问答系统产品的技术效果。同语种对应的智能问答系统产品的技术效果。

【技术实现步骤摘要】
多语种问答方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理领域,尤其涉及一种多语种问答方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,自然语言处理技术在智能问答机器人领域应用越来越广泛,如微软的小冰,百度的小度,苹果的Siri,小米的小爱同学等,他们大都采用了开放域问答的处理方式。
[0003]目前,开放域问答系统主要由问题文本分析,段落抽取,答案抽取三部分组成。在各个模块可以采用不同的算法,已获得更好的精度。答案抽取模块几乎都是采用CNN(Convolutional Neural Networks卷积神经网络),RNN(Recurrent Neural Networks循环神经网络),LSTM(Long-Short Term Memory长短期记忆模型),Transformer(自注意力模型)四种结构,或者是他们的组合来在数据库或者语义库中抽取或者生成答案。但是随着智能应用产品的国际化推广,部分用户可能会在不同时段用不同的自然语言语种来与智能问答机器人进行互动,甚至出现在同一段对话中引用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多语种问答方法,其特征在于,包括:获取用户输入的问题文本,所述问题文本包括至少一种语种文本;利用段落选择模型以及多语种词表从预设资源库中确定所述问题文本对应的待选择段落,所述多语种词表用于解析所述问题文本中所有语种的词汇,所述段落选择模型所输出的所述待选择段落与所输入的所述问题文本的语种特征相匹配;利用答案生成模型以及所述多语种词表从所述待选择段落中确定所述问题文本的答案,所述答案生成模型所输出的所述答案与所输入的所述待选择段落的语种特征相匹配。2.根据权利要求1所述的多语种问答方法,其特征在于,所述利用段落选择模型以及多语种词表从预设资源库中确定所述问题文本对应的待选择段落,包括:利用检索模型,从所述预设资源库中确定所述问题文本对应的检索结果;利用预设分词算法,根据所述检索结果以及所述多语种词表确定段落文本;根据所述段落文本以及组合算法确定第一文本向量;根据所述第一文本向量以及段落选择模型确定第二文本向量;根据所述第二文本向量以及预设筛选算法确定所述待选择段落。3.根据权利要求2所述的多语种问答方法,其特征在于,所述根据所述第二文本向量以及预设筛选算法确定所述待选择段落,包括:提取所述第二文本向量的第一分词向量;根据所述第一分词向量以及预设解码模型确定所述段落文本的选择概率;若所述选择概率大于或等于预设概率阈值,则将所述段落文本作为所述待选段落。4.根据权利要求2或3所述的多语种问答方法,其特征在于,所述利用检索模型,从所述预设资源库中确定所述问题文本对应的检索结果,包括:利用问题文本清洗算法,对所述问题文本进行内容清洗,以确定满足预设格式的清洗问题文本;根据所述清洗问题文本以及所述检索模型确定待清洗检索结果;根据所述待清洗检索结果以及结果清洗算法确定所述检索结果。5.根据权利要求4所述的多语种问答方法,其特征在于,所述根据所述清洗问题文本以及所述检索模型确定待清洗检索结果,包括:将所述清洗问题文本输入搜索引擎,以确定网页地址;利用内容抓取模型抓取所述网页地址对应网页中的内容作为所述待清洗检索结果。6.根据权利要求4所述的多语种问答方法,其特征在于,所述根据所述清洗问题文本以及所述检索模型确定待清洗检索结果,包括:利用匹配算法在预设问答文件库中筛选所述清洗问题文本对应的适配答案文件;根据所述适配答案文件以及内容抓取模型确定所述待清洗检索结果。7.根据权利要求1所述的多语种问答方法,其特征在于,所述利用答案生成模型以及所述多语种词表从所述待选择段落中确定所述问题文本的答案,包括:将所述问题文本与所述待选择段落进行组合,以生成第三文本向量;根据所述第三文本向量以及语言表征模型确定句子编码向量,所述语言表征模型与所述多语种词表相匹配;根据所述句子编码向量以...

【专利技术属性】
技术研发人员:李省平肖达莫兆全钱胜杰袁行远
申请(专利权)人:广州彩彻区明科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1