文本转换模型训练方法、文本转换方法、装置及电子设备制造方法及图纸

技术编号:34035155 阅读:16 留言:0更新日期:2022-07-06 12:06
本申请公开了一种文本转换模型训练方法、文本转换方法、装置及电子设备,涉及机器学习技术领域,包括:获取包含预设词语的第一文本与包含转换词语的第二文本,预设词语是部分人群难以理解的词语,转换词语为上述人群易于理解的词语,基于预设词语和转换词语,从第一文本中确定待转换内容,且从第二文本中确定已转换内容,将该待转换内容和已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型,通过文本转换模型可以将不易于上述人群理解的文本转换为易于上述人群理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,为用户提供阅读便利。为用户提供阅读便利。为用户提供阅读便利。

Text conversion model training method, text conversion method, device and electronic equipment

【技术实现步骤摘要】
文本转换模型训练方法、文本转换方法、装置及电子设备


[0001]本申请涉及机器学习
,更具体地,涉及一种文本转换模型训练方法、文本转换方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的快速发展,并且伴随着网民数量的激增,生活中不断地涌现出新事物例如网络新词、网络热词等。然而对于某些人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)而言,在理解网络新词上存在困难,因此,在使用的比较新潮的产品上显示网络新词,或者是生活中出现网络新词时,该部分人群在阅读这些内容时多有不便,存在阅读障碍。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种文本转换模型训练方法、文本转换方法、装置及电子设备,能够解决上述问题。
[0004]第一方面,本申请实施例提供了一种文本转换模型的训练方法,所述方法包括:获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0005]第二方面,本申请实施例提供了一种文本转换方法,所述方法包括:获取待转换文本;将所述待转换文本输入文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。
[0006]第三方面,本申请实施例提供了一种文本转换模型的训练装置,所述装置包括:获取模块,用于获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;转换模块,用于在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;确定模块,用于基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;训练模块,用于将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0007]第四方面,本申请实施例提供了一种文本转换装置,所述装置包括:采集模块,用于获取待转换文本;转换模块,用于将所述待转换文本输入至上述文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。
[0008]第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
[0009]第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
[0010]第七方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法。
[0011]在本申请实施例中,预设词语是上述人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)难以理解的词语,在第一文本中包括预设词语的情况下,预设词语会导致第一文本难以被上述人群理解,第二文本中包括与预设词语存在转换关系的转换词语,转换词语可以理解为将难以理解的预设词语经过转换后成为易于上述人群理解的词语,由于第二文本中存在转换词语,第二文本易于上述人群理解。基于预设词语和转换词语,从第一文本中确定待转换内容,相应的在第二文本中确定已转换内容,将该待转换内容和已转换内容作为训练数据对待训练模型进行训练,使得该模型学习训练数据的规律,从而获得文本转换模型,文本转换模型用于将不易于上述人群理解的文本转换为易于上述人群理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,打破了不易于理解的文本带来的阅读障碍,为用户提供阅读便利。
[0012]本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
[0013]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1示出了本申请一实施例提供的文本转换模型训练方法的流程示意图;
[0015]图2示出了Transformer模型的架构示意图;
[0016]图3示出了本申请的图1所示的文本转换模型训练方法的步骤S130的一种流程示意图;
[0017]图4示出了本申请的图1所示的文本转换模型训练文本翻译方法的步骤S140的一种流程示意图;
[0018]图5示出了本申请一实施例提供的文本转换方法的流程示意图;
[0019]图6示出了本申请另一实施例提供的文本转换方法的流程示意图;
[0020]图7示出了本申请实施例提供的电子设备的显示界面示意图;
[0021]图8示出了本申请又一实施例提供的文本转换模型训练方法的流程示意图;
[0022]图9示出了本申请一实施例提供的文本转换模型训练装置的框图;
[0023]图10示出了本申请一实施例提供的文本转换装置的框图;
[0024]图11是本申请实施例的用于执行根据本申请实施例的文本转换模型训练方法或文本转换方法的电子设备的框图;
[0025]图12示出了本申请实施例的用于保存或者携带实现根据本申请实施例的文本转换模型训练方法或文本转换方法的程序代码的存储单元。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]随着互联网技术的快速发展,并且伴随着网民数量的激增,生活中不断地涌现出新事物例如网络新词、网络热词等。对于某些人群,例如,较少上网的人群,或者是与现代社会存在信息代差的老年人,尤其是对于老年人,人口老龄化问题已成为公共课题,就我国而言,截至2020年,65岁以上的老年人口占总人口的比例已经接近12%,149个地级市已经进入深度老龄化,由老龄化引起的代际沟通困难,社会服务的数字鸿沟问题越来越显著。
[0028]目前的技术产品如客服机器人,这类技术产品的设计者、开发者和使用者主要是较为新潮的年轻人群体,而面向新潮的用户(如新潮的年轻人用户)的语言沟通特点是简洁、明快、高效、低信息冗余等,使得网络新词也具备这些特点。而对于上述人群中较少上网的人群,由于较少接触到网络上的新事物、新词汇,在使用上述技术产品或者接触到网络新词时,难以理解。同样,对于老年人群体而言,由于视力退化、反应速度变慢等自然原因,导致老年人阅读信息的速度比较缓慢,而且对各种“新词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本转换模型训练方法,其特征在于,所述方法包括:获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容,包括:获取所述转换词语的词语数量;基于所述预设词语、所述转换词语以及所述词语数量,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容。3.根据权利要求2所述的方法,其特征在于,所述基于所述预设词语、所述转换词语以及所述词语数量,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容,包括:若所述词语数量为一个,则从所述第一文本中确定所述预设词语作为所述待转换内容,并从所述第二文本中确定所述转换词语作为已转换内容;或者若所述词语数量为至少两个,则从所述第一文本中确定所述预设词语以及所述预设词语的上下文中的目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。4.根据权利要求3所述的方法,其特征在于,所述从所述第一文本中确定所述预设词语以及所述预设词语的上下文中的目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容,包括:获取所述至少两个转换词语之间的文本内容;在所述第一文本中的所述预设词语的上下文中的目标文本内容与所述至少两个转换词语之间的文本内容匹配的情况下,将所述目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。5.根据权利要求1所述的方法,其特征在于,所述将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型,包括:获取所述待转换内容对应的第一字符串长度,并获取所述已转换内容对应的第二字符串长度;在所述第二字符串长度和所述第一字符串长度满足预设长度关系的情况下,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。6.根据权利要求5所述的方法,其特征在于,所述获取所述待转换内容对应的第一字符串长度,并获取所述已转换内容对应的第二字符串长度,包括:获取所述待转换内容中除所述预设词语和标点符号之外的的字串符的长度,作为所述
...

【专利技术属性】
技术研发人员:乔宏利王洪斌蒋宁吴海英
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1