一种英文案例训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:34133522 阅读:23 留言:0更新日期:2022-07-14 16:02
本发明专利技术提供了一种英文案例训练方法、装置、设备及可读存储介质,涉及自然语言处理技术领域,包括获取目标案例文本语句中至少两个英文字符和所述字符之间的组合关系,每个所述字符均对应有第一向量集合;基于所述字符之间的组合关系和每个所述字符对应的所述第一向量集合,得到训练案例,将所有的所述训练案例进行集合,得到英文训练案例集合;对所述英文训练案例集合中的每个所述训练案例进行测试,得到每个所述训练案例对应的案例训练结果。有益效果:解决了传统的英文文本表示方法表示的特征项之间相互独立,数据稀疏,导致了计算量大的技术问题,并且测试准确率大于预设准确率时,进一步提高了英文案例训练的准确率。进一步提高了英文案例训练的准确率。进一步提高了英文案例训练的准确率。

【技术实现步骤摘要】
一种英文案例训练方法、装置、设备及可读存储介质


[0001]本专利技术涉及自然语言处理
,具体而言,涉及英文案例训练方法、装置、设备及可读存储介质。

技术介绍

[0002]在计算机自然语言处理领域,语言模型的训练需要依赖极大量的语料数据,局限性较大。
[0003]现有技术中一般采用将语音转换成文本,再将采用算法将文本信息与翻译库中的语句进行相似性匹配,将相似度最高的结果作为输出。采用信息检索技术对大规模翻译记忆库构建索引,采用粗选和精选策略,即首先从索引库中根据输入的待译句子得到匹配的子集,然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出,最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。这样效率并不高,也影响了交流效率。

技术实现思路

[0004]本专利技术的目的在于提供一种英文案例训练方法、装置、设备及可读存储介质,以改善上述问题。为了实现上述目的,本专利技术采取的技术方案如下:第一方面,本申请提供了一种英文案例训练方法,包括:获取目标案例文本语句中至少两个英文字符和所述字符之间的组合关系,每个所述字符均对应有第一向量集合,所述第一向量集合中包括至少一个字符;基于所述字符之间的组合关系和每个所述字符对应的所述第一向量集合,得到训练案例,将所有的所述训练案例进行集合,得到英文训练案例集合;对所述英文训练案例集合中的每个所述训练案例进行测试,得到每个所述训练案例对应的案例训练结果。
[0005]优选地,所述基于所述字符之间的组合关系和每个所述字符对应的所述第一向量集合,得到训练案例,包括:分析所述字符之间的组合关系,若所述字符之间的组合关系为且的关系,则在每个所述第一向量集合里各取一个所述字符,将取出来的所有所述字符与其对应的所述字符进行集合得到所述训练案例;分析所述字符之间的组合关系,若所述字符之间的组合关系为或的关系,则在每个所述字符所对应的所述第一向量集合中均加入一个代表空值的字符;将加入所述代表空值的字符后的所述第一向量集合定义为第二向量集合;在每个所述第二向量集合里各取一个字符,将取出来的所有数值与其对应的所述字符进行集合得到所述训练案例。
[0006]优选地,所述将所有的所述训练案例进行集合,得到英文训练案例集合,之后包括:
获取第一信息,所述第一信息包括英文训练案例集合中的英文语音信息;将所述第一信息转换为数字语音信号,检测到与所述数值语音信号相对应的匹配参数;根据所述匹配参数识别到相对应的图像信息,对图像信息进行顺序标注,并将标注好的所述图像信息输入至卷积神经网络中进行训练;根据时序分类算法,对所述卷积神经网络中的所述图像信息进行更新;基于遗传算法,将更新后的所述图像信息重新配置得到可编程器件的重配置数据流;根据所述重配置数据流,找到与所述重配置数据流相匹配的所述训练案例。
[0007]优选地,所述对所述英文训练案例集合中的每个所述训练案例进行测试,之后包括:获取第二信息,所述第二信息包括每个所述训练案例进行测试的结果;对所述测试的结果进行预处理后,得到英文训练文本;将所述英文训练文本输入至word2vec模型中;转换所述word2vec模型中的所述英文训练文本为向量集合;将所述向量集合和英文训练文本输入至卷积神经网络中训练,得到训练结果;根据训练结果和预置代价函数计算得出损失函数值;判断所述损失函数值是否低于预置阈值;若是,则保存损失函数的参数,并生成训练后的英文文本模型;若否,则继续进行计算。
[0008]第二方面,本申请还提供了一种英文案例训练装置,包括获取模块、集合模块和测试模块,其中:获取模块:用于获取目标案例文本语句中至少两个英文字符和所述字符之间的组合关系,每个所述字符均对应有第一向量集合,所述第一向量集合中包括至少一个字符;集合模块:用于基于所述字符之间的组合关系和每个所述字符对应的所述第一向量集合,得到训练案例,将所有的所述训练案例进行集合,得到英文训练案例集合;测试模块:用于对所述英文训练案例集合中的每个所述训练案例进行测试,得到每个所述训练案例对应的案例训练结果。
[0009]第三方面,本申请还提供了一种英文案例训练设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现所述英文案例训练方法的步骤。
[0010]第四方面,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于英文案例训练方法的步骤。
[0011]本专利技术的有益效果为:通过利用word2vec模型,使得文本能够表示为类似图像和语音的连续、稠密的数据,利用卷积神经网络,通过卷积神经网络的卷积层、池化层和非线性转换成来训练网络参数,使得能够得到正确的分类,解决了传统的英文文本表示方法表示的特征项之间相互独立,数据稀疏,导致了计算量大的技术问题,并且测试准确率大于预设准确率时,进一步提高了英文案例训练的准确率。
[0012]本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说
明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0013]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0014]图1为本专利技术实施例中所述的英文案例训练方法流程示意图;图2为本专利技术实施例中所述的英文案例训练装置结构示意图;图3为本专利技术实施例中所述的英文案例训练设备结构示意图。
[0015]图中:701、获取模块;702、集合模块;7021、第一分析单元;7022、第二分析单元;7023、定义单元;7024、取值单元;703、测试模块;7031、第一获取单元;7032、检测单元;7033、训练单元;7034、更新单元;7035、配置单元;7036、匹配单元;7037、第二获取单元;7038、预处理单元;7039、输入单元;7040、转换单元;7041、获得单元;7042、计算单元;7043、判断单元;800、英文案例训练设备;801、处理器;802、存储器;803、多媒体组件;804、输入/输出(I/O)接口;805、通信组件。
具体实施方式
[0016]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种英文案例训练方法,其特征在于,包括:获取目标案例文本语句中至少两个英文字符和所述字符之间的组合关系,每个所述字符均对应有第一向量集合,所述第一向量集合中包括至少一个字符;基于所述字符之间的组合关系和每个所述字符对应的所述第一向量集合,得到训练案例,将所有的所述训练案例进行集合,得到英文训练案例集合;对所述英文训练案例集合中的每个所述训练案例进行测试,得到每个所述训练案例对应的案例训练结果。2.根据权利要求1所述的英文案例训练方法,其特征在于,所述基于所述字符之间的组合关系和每个所述字符对应的所述第一向量集合,得到训练案例,包括:分析所述字符之间的组合关系,若所述字符之间的组合关系为且的关系,则在每个所述第一向量集合里各取一个所述字符,将取出来的所有所述字符与其对应的所述字符进行集合得到所述训练案例;分析所述字符之间的组合关系,若所述字符之间的组合关系为或的关系,则在每个所述字符所对应的所述第一向量集合中均加入一个代表空值的字符;将加入所述代表空值的字符后的所述第一向量集合定义为第二向量集合;在每个所述第二向量集合里各取一个字符,将取出来的所有数值与其对应的所述字符进行集合得到所述训练案例。3.根据权利要求1所述的英文案例训练方法,其特征在于,所述将所有的所述训练案例进行集合,得到英文训练案例集合,之后包括:获取第一信息,所述第一信息包括英文训练案例集合中的英文语音信息;将所述第一信息转换为数字语音信号,检测到与所述数值语音信号相对应的匹配参数;根据所述匹配参数识别到相对应的图像信息,对图像信息进行顺序标注,并将标注好的所述图像信息输入至卷积神经网络中进行训练;根据时序分类算法,对所述卷积神经网络中的所述图像信息进行更新;基于遗传算法,将更新后的所述图像信息重新配置得到可编程器件的重配置数据流;根据所述重配置数据流,找到与所述重配置数据流相匹配的所述训练案例。4.根据权利要求1所述的英文案例训练方法,其特征在于,所述对所述英文训练案例集合中的每个所述训练案例进行测试,之后包括:获取第二信息,所述第二信息包括每个所述训练案例进行测试的结果;对所述测试的结果进行预处理后,得到英文训练文本;将所述英文训练文本输入至word2vec模型中;转换所述word2vec模型中的所述英文训练文本为向量集合;将所述向量集合和英文训练文本输入至卷积神经网络中训练,得到训练结果;根据训练结果和预置代价函数计算得出损失函数值;判断所述损失函数值是否低于预置阈值;若是,则保存损失函数的参数,并生成训练后的英文文本模型;若否,则继续进行计算。5.一种英文案例训练装置,其特征在于,包括:获取模块:用于获取目标案例文本语句中至少两个英文字符和所述字符之间的组合关
系,每个所述字符均对应有第一向量集合,所述第一向量集合中包括至少一个字符;集合模块:用于基于所述字符之间的组合关系和...

【专利技术属性】
技术研发人员:李银波
申请(专利权)人:湖南城市学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1