一种文本识别方法、装置、终端设备及存储介质制造方法及图纸

技术编号:42476722 阅读:21 留言:0更新日期:2024-08-21 12:59
本发明专利技术公开了一种文本识别方法、装置、终端设备及存储介质,获取待识别文本;将待识别文本输入多语种表征模型中,以使多语种表征模型输出目标识别文本;其中,多语种表征模型的构建包括:获取若干不同语种的双语语料库以及每一双语语料库中源语言语句和目标语言语句的词对齐标签;构建初始神经网络模型,以源语言语句和目标语言语句作为第一训练集对初始神经网络模型进行自监督训练,在初始神经网络模型收敛时,生成初始多语种表征模型;在所述初始多语种表征模型中引入注意力机制,以所述词对齐标签、源语言语句和目标语言语句作为第二训练集对初始多语种表征模型进行训练,在所述初始多语种表征模型收敛时,生成多语种表征模型。

【技术实现步骤摘要】

本专利技术涉及语义理解,尤其涉及一种文本识别方法、装置、终端设备及存储介质


技术介绍

1、在现有语义理解与智能对话领域中,通过需通过输入待识别文本到预训练模型中,以使预训练模型输出语义理解结果。例如:在智能客服与用户进行人机交互问答时,用户输入问题,智能客服根据用户所输入的问题进行相应的理解并答复。但是现有的智能客服在理解用户输入问题时,存在对输入文本中包含多种语言时无法解读或理解偏差的问题,进而导致智能客服答复用户输入问题时存在问答不准确的问题。因此,亟需一种能提高对用户输入文本语义表示的方法辅助智能客服对用户输入文本的理解,提高智能客服的答复准确性。


技术实现思路

1、本专利技术实施例提供一种文本识别方法、装置、终端设备及存储介质,能提高待识别文本识别的准确性。

2、本专利技术一实施例提供一种文本识别方法,包括:

3、获取待识别文本;

4、将所述待识别文本输入多语种表征模型中,以使多语种表征模型输出目标识别文本;

5、其中,所述多语种表征模型的构建包括:<本文档来自技高网...

【技术保护点】

1.一种文本识别方法,其特征在于,包括:

2.如权利要求1所述的一种文本识别方法,其特征在于,在获取若干不同语种的双语语料库之后,还包括:

3.如权利要求2所述的一种文本识别方法,其特征在于,所述以源语言语句和目标语言语句作为第一训练集对初始神经网络模型进行自监督训练,在初始神经网络模型收敛时,生成初始多语种表征模型,包括:

4.如权利要求3所述的一种文本识别方法,其特征在于,在所述初始多语种表征模型中引入注意力机制,以所述词对齐标签、源语言语句和目标语言语句作为第二训练集对初始多语种表征模型进行训练,在所述初始多语种表征模型收敛时,生成多语种表征模型...

【技术特征摘要】

1.一种文本识别方法,其特征在于,包括:

2.如权利要求1所述的一种文本识别方法,其特征在于,在获取若干不同语种的双语语料库之后,还包括:

3.如权利要求2所述的一种文本识别方法,其特征在于,所述以源语言语句和目标语言语句作为第一训练集对初始神经网络模型进行自监督训练,在初始神经网络模型收敛时,生成初始多语种表征模型,包括:

4.如权利要求3所述的一种文本识别方法,其特征在于,在所述初始多语种表征模型中引入注意力机制,以所述词对齐标签、源语言语句和目标语言语句作为第二训练集对初始多语种表征模型进行训练,在所述初始多语种表征模型收敛时,生成多语种表征模型,包括:

5.一种文本识别装置,其特征在于,包括:数据获取模块、文本识别模块以及多语种表征模型构建模块;

6.如权利要求5所述的一种文本识别装置,其特征在于,还包括:数据处理模块;

7.如权利要求6...

【专利技术属性】
技术研发人员:苏立伟马喆非康峰刘振华吴石松余恒祥谭火超陈海燕陈宋张立慧黄荣达吴海波伍广斌沈尚锋方霆李紫京
申请(专利权)人:广东电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1