System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种中英文转换方法及装置制造方法及图纸_技高网

一种中英文转换方法及装置制造方法及图纸

技术编号:41070058 阅读:4 留言:0更新日期:2024-04-24 11:25
本说明书一个或多个实施例公开了一种中英文转换方法及装置,该方法首先获取目标业务场景中不同字段名对应的中文文本和英文文本;其次分别对两种文本进行分词处理,获取中文词元信息和英文词元信息;然后基于邻接矩阵确定中文词元信息和英文词元信息的词频分布信息,并确定每个中文词元信息和英文词元信息的第二关联度信息;最后基于词频分布信息和第二关联度信息,对不同字段名进行中英文转换,获取转换结果。通过邻接矩阵确定词频分布信息,从而引入词元信息本身的重要性因素,能够有效提高中英文转换的准确性。通过确定第二关联度信息,能够构建中英文之间多样性的映射关系,涵盖中英文词元之间的复杂关联性,有利于提高转换的准确性。

【技术实现步骤摘要】

本文件涉及自然语言处理,尤其涉及一种中英文转换方法及装置


技术介绍

1、在数据中台的底层数据收集整理业务中,如果缺乏规范的中英文命名规则,可能会导致现有的各种字段名所对应的历史中英文数据对中存在缺失项或者中英文不匹配等情况。为提高中英文命名规则的规范性,需要设计有效的中英文字段名转换方法。

2、目前的中英文字段名转换方法,通常是基于中英文词元的对照表构建一对一式的映射关系,即:用于进行中英文字段名转换的输入信息与转换后的输出信息之间是唯一确定的关系。而且目前的中英文字段名转换方法并不考虑词元数据本身在整个语料库中的重要性。因此,需要提供一种转换准确性更高的中英文字段名转换方法。


技术实现思路

1、一方面,本说明书一个或多个实施例提供一种中英文转换方法,包括:获取目标业务场景中不同字段名对应的中文文本和英文文本;分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息;基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,并确定每个所述中文词元信息和英文词元信息的第二关联度信息,所述邻接矩阵是基于所述中文词元信息与英文词元信息之间的第一关联度信息以及每个中文词元信息或英文词元信息在所述目标业务场景的字段名中的词频所构建的有权有向的邻接矩阵;基于所述词频分布信息和第二关联度信息,对所述不同字段名进行中英文转换,获取转换结果。

2、可选地,所述分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息包括:基于jieba机器学习库对所述中文文本进行分词处理,获取中文词元信息;基于sklearn机器学习工具对所述英文文本进行分词处理,获取英文词元信息。

3、可选地,所述基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,包括:按照预设的顺序对所获取的中文词元信息和英文词元信息构建中英文词典;分别计算每个中文词元信息与所述中英文词典中的中文字段名之间的中文相似度以及每个英文词元信息与所述中英文词典中的英文字段名之间的英文相似度;根据计算得出的中文相似度和英文相似度,确定中文词元信息与英文词元信息之间的第一关联度信息;分别统计每个中文词元信息或英文词元信息在所述目标业务场景的字段名中的词频;基于所述第一关联度信息和统计得到的词频,确定每个中文词元信息或英文词元信息在所述邻接矩阵中对应的权重,并根据所述权重确定所述中文词元信息和英文词元信息的词频分布信息。

4、可选地,所述确定每个中文词元信息和英文词元信息的第二关联度信息,包括:分别对所述每个中文词元信息和英文词元信息进行数字向量化处理,得到中文词元信息向量和英文词元信息向量;基于所述中文词元信息和英文词元信息之间的对应关系,构建每个中文词元信息向量分别与中文词元信息向量和英文词元信息向量的转换关系,以及每个英文词元信息向量分别与中文词元信息向量和英文词元信息向量的转换关系;基于预设的算法,确定每个转换关系所对应的转换概率,并根据所述转换概率确定第二关联度信息。

5、可选地,所述第二关联度信息包括:每个中文词元信息与英文词元信息、每个中文词元信息与中文词元信息以及每个英文词元信息与英文词元信息之间的关联度信息。

6、可选地,所述预设的算法是pagerank算法。

7、可选地,所述基于所述词频分布信息和第二关联度信息,对所述不同字段名进行中英文转换,获取转换结果,包括:基于所述词频分布信息和第二关联度信息,确定多种中英文转换方式对应的转换值集合;取所述转换值集合中超过预设的转换值阈值的中文词元信息或英文词元信息作为所述不同字段名所对应的转换结果。

8、可选地,还包括:基于所述转换结果构建所述目标业务场景中不同字段名的中英文对照表;获取目标业务场景中的目标字段名;基于所述目标字段名和中英文对照表,确定所述目标字段名对应的转换结果。

9、另一方面,本说明书一个或多个实施例提供一种语言转换方法,包括:获取目标业务场景中不同字段名对应的第一语言文本和第二语言文本,所述第一语言文本和所述第二语言文本分别是使用不同的自然语言的文字构建的不同文本;分别对所述第一语言文本和第二语言文本进行分词处理,获取第一语言词元信息和第二语言词元信息;基于邻接矩阵确定所述第一语言词元信息和第二语言词元信息的词频分布信息,并确定每个所述第一语言词元信息和第二语言词元信息的第二关联度信息,所述邻接矩阵是基于所述第一语言词元信息与第二语言词元信息之间的第一关联度信息以及每个第一语言词元信息或第二语言词元信息在所述目标业务场景的字段名中的词频所构建的有权有向的邻接矩阵;基于所述词频分布信息和第二关联度信息,对所述不同字段名进行自然语言转换,获取转换结果,所述自然语言转换是所述第一语言文本所对应的自然语言与所述第二语言文本对应的语言之间的相互转换。

10、再一方面,本说明书一个或多个实施例提供一种中英文转换装置,包括:文本获取模块,获取目标业务场景中不同字段名对应的中文文本和英文文本;分词处理模块,分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息;信息确定模块,基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,并确定每个所述中文词元信息和英文词元信息的第二关联度信息,所述邻接矩阵是基于所述中文词元信息与英文词元信息之间的第一关联度信息以及每个中文词元信息或英文词元信息在所述目标业务场景的字段名中的词频所构建的有权有向的邻接矩阵;转换模块,基于所述词频分布信息和第二关联度信息,对所述不同字段名进行中英文转换,获取转换结果。

11、再一方面,本说明书一个或多个实施例提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:获取目标业务场景中不同字段名对应的中文文本和英文文本;分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息;基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,并确定每个所述中文词元信息和英文词元信息的第二关联度信息,所述邻接矩阵是基于所述中文词元信息与英文词元信息之间的第一关联度信息以及每个中文词元信息或英文词元信息在所述目标业务场景的字段名中的词频所构建的有权有向的邻接矩阵;基于所述词频分布信息和第二关联度信息,对所述不同字段名进行中英文转换,获取转换结果。

12、再一方面,本说明书一个或多个实施例提供存储介质,用于存储计算机程序,所属计算机程序能够被处理器执行以实现以下流程:获取目标业务场景中不同字段名对应的中文文本和英文文本;分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息;基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,并确定每个所述中文词元信息和英文词元信息的第二关联度信息,所述邻接矩阵是基于所述中文词元信息与英文词元信息之间的第一关联度信息以及每个中文词元信息或英文词元信息在所述目标业务场景的字段名中的词频所构建的有权有向的邻接矩阵本文档来自技高网...

【技术保护点】

1.一种中英文转换方法,包括:

2.根据权利要求1所述的方法,所述分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息包括:

3.根据权利要求1所述的方法,所述基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,包括:

4.根据权利要求1所述的方法,所述确定每个中文词元信息和英文词元信息的第二关联度信息,包括:

5.根据权利要求1所述的方法,所述第二关联度信息包括:每个中文词元信息与英文词元信息、每个中文词元信息与中文词元信息以及每个英文词元信息与英文词元信息之间的关联度信息。

6.根据权利要求4所述的方法,所述预设的算法是PageRank算法。

7.根据权利要求1所述的方法,所述基于所述词频分布信息和第二关联度信息,对所述不同字段名进行中英文转换,获取转换结果,包括:

8.根据权利要求1所述的方法,还包括:

9.一种语言转换方法,包括:

10.一种中英文转换装置,包括:

11.一种电子设备,包括:

【技术特征摘要】

1.一种中英文转换方法,包括:

2.根据权利要求1所述的方法,所述分别对所述中文文本和英文文本进行分词处理,获取中文词元信息和英文词元信息包括:

3.根据权利要求1所述的方法,所述基于邻接矩阵确定所述中文词元信息和英文词元信息的词频分布信息,包括:

4.根据权利要求1所述的方法,所述确定每个中文词元信息和英文词元信息的第二关联度信息,包括:

5.根据权利要求1所述的方法,所述第二关联度信息包括:每个中文词元信息与英文词元信息、每...

【专利技术属性】
技术研发人员:王智超张云茹张承炘温佳美李昊
申请(专利权)人:人保信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1