用于机器学习的文本字符编码方法、装置及电子设备制造方法及图纸

技术编号:31381853 阅读:14 留言:0更新日期:2021-12-15 11:30
本公开的实施例提供了一种用于机器学习的文本字符编码方法、装置及电子设备。所述方法包括:统计训练样本中每个字符的出现频率,所述训练样本为文本文件;对每个字符进行权重分配;按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。以此方式,可以在使用两字节编码进行高效运算的同时,保证了机器多语言学习能力。保证了机器多语言学习能力。保证了机器多语言学习能力。

【技术实现步骤摘要】
用于机器学习的文本字符编码方法、装置及电子设备


[0001]本公开涉及计算机领域,尤其涉及计算机编码
,具体提供一种用于机器学习的文本字符编码方法、装置及电子设备。

技术介绍

[0002]在机器学习中,为了加快学习速度,通用的做法是将文本内容转换为某种更加高效的编码格式,如Label编码或One

Hot编码,但这些常用的编码都存在字长不固定的问题,在很多场合下计算仍不方便。而Unicode编码虽然定长,但其长度为4字节,计算量较大,计算效率低。

技术实现思路

[0003]本公开提供了一种用于机器学习的文本字符编码方法、装置及电子设备,在使用两字节编码可进行高效运算的同时,保证了机器多语言学习能力。
[0004]根据本公开的第一方面,提供了一种用于机器学习的文本字符编码方法。该方法包括:统计训练样本中每个字符的出现频率,所述训练样本为文本文件;对每个字符进行权重分配;按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。
[0005]在第一方面的一些可实现方式中,对每个字符进行权重分配包括:按照每个字符与机器学习目标的关联度进行权重分配。
[0006]在第一方面的一些可实现方式中,按照出现频率降序和权重降序对每个字符进行排序包括:先按照权重降序对字符进行排序,若字符权重相同则按照出现频率降序进行排序。
[0007]在第一方面的一些可实现方式中,按照机器学习目标与字符的关联度进行权重值标记,未被标记的权重值默认为0。
[0008]在第一方面的一些可实现方式中,当机器学习目标发生变化时,重新对每个字符进行权重分配,然后按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。
[0009]在第一方面的一些可实现方式中,还包括机器按照机器学习目标对新的文本文件进行学习,包括:按照已生成的字符编码对新的文本文件进行编码转换。
[0010]在第一方面的一些可实现方式中,还包括扩充训练样本,包括:向训练样本中加入新的文本文件,与原始文本文件结合形成新的训练样本,根据新的训练样本按照编码规则进行编码转换。
[0011]在第一方面的一些可实现方式中,当两字节字符数达到65556时,超出部分不进行
编码转换。
[0012]根据本公开的第二方面,提供了一种用于机器学习的文本字符编码装置。该装置包括:统计单元:用于统计训练样本中每个字符的出现频率,所述训练样本为文本文件;分配单元:用于对每个字符进行权重分配;编码单元:用于按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;转换单元:用于根据所述两字节编码对待编码文本文件进行编码转换。
[0013]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0014]在本公开中,采用两字节编码方式对字符进行编码,两字节编码字节定长且短,大大提高了机器计算效率,能够适应多种场合。且本公开中对文本文件中的每个字符按照出现频率和权重进行排序,使出现频率高、权重值大的字符在编码时位于两字节字符值上限的范围之内,如此,在两字节编码转换时,重要信息已经全部位于两字节编码范围之内,因此,本公开采用两字节编码提高计算效率的同时,保证了机器多语言学习能力。
[0015]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0016]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本公开的实施例的用于机器学习的文本字符编码方法100的流程图;图2示出了根据本公开的实施例的用于机器学习的文本字符编码装置200的框图;图3示出了能够实施本公开的实施例的示例性电子设备300的方框图。
具体实施方式
[0017]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0018]本公开采用两字节编码方式对字符进行编码,两字节编码由于字长短且字长定长,因此运算效率高,在很多场景中有较大优势,但由于两个字节所能表示的最大字符数是65536个,因此,在通常情况下,两字节编码无法实现多语言处理能力。但本公开中,对字符内容按照出现频率和权重进行排序,使出现频率高,权重值大的字符位于两字节编码能够达到的最大字符数上限范围之内,保证了机器多语言学习能力。
[0019]图1示出了根据本公开的实施例的用于机器学习的文本字符编码方法100的流程
图。
[0020]如图1所示,所述用于机器学习的文本字符编码方法包括:S101: 统计训练样本中每个字符的出现频率,所述训练样本为文本文件;S102: 对每个字符进行权重分配;S103: 按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;S104: 根据所述两字节编码对待编码文本文件进行编码转换。
[0021]所述文本文件可以为采用中文、英文、日文等单一语言书写的文本文件,也可以为包含多种国家语言的混合文本。
[0022]如文本文件可以为中英文混合的文本文件,以文本文件中包括“A、B、你、好”等字符为例,对“A、B、你、好”进行出现次数统计,得到一张统计表,如下所示:字符出现次数A10B20你1好3统计完成后,对其中每个字符进行权重添加,比如,我们更关注中文的内容,因此对中文标记权重值为1,英文标记权重值为0,因此“A、B、你、好”的权重值如下表所示:字符出现次数权重值A100B200你11好31然后进行S103、S104步骤进行编码转换,即可实现文本文件两字节编码。
[0023]从上述例子中可以看出,所述文本文件可以为中英文混杂的文本文件,可以理解的是,本公开所述的方法可以针对多种不同语言的文本进行编码,显然也可以针对单一语言的文本进行编码,从理论上来讲,本公开所述的用于机器学习的文本字符编码方法可以针对任何具有采用有一定含义语言进行书写的文本文件进行编码。
[0024]在一些实施例中,对每个字符进行权重分配包括:按照每个字符与机器学习目标的关联度进行权重分配。
[0025]机器学习目标即试图让机器从文本文件中分析出的内容,而字符与机器学习目标的关联度即该字符所表达的含义与机器学习目标之间的关联程度,如下边一段文字:“《丝路花雨本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于机器学习的文本字符编码方法,其特征在于,包括:统计训练样本中每个字符的出现频率,所述训练样本为文本文件;对每个字符进行权重分配;按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。2.根据权利要求1所述的用于机器学习的文本字符编码方法,其特征在于,对每个字符进行权重分配包括:按照每个字符与机器学习目标的关联度进行权重分配。3.根据权利要求1所述的用于机器学习的文本字符编码方法,其特征在于,按照出现频率降序和权重降序对每个字符进行排序包括:先按照权重降序对字符进行排序,若字符权重相同则按照出现频率降序进行排序。4.根据权利要求2所述的用于机器学习的文本字符编码方法,其特征在于,按照机器学习目标与字符的关联度进行权重值标记,未被标记的权重值默认为0。5.根据权利要求2所述的用于机器学习的文本字符编码方法,其特征在于,当机器学习目标发生变化时,重新对每个字符进行权重分配,然后按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。6.根据权利要求2所述的用于机器学习的文本字符编码方法,其特征在于,还包括...

【专利技术属性】
技术研发人员:郝伟沈传宝刘加瑞
申请(专利权)人:北京华云安信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1