【技术实现步骤摘要】
用于机器学习的文本字符编码方法、装置及电子设备
[0001]本公开涉及计算机领域,尤其涉及计算机编码
,具体提供一种用于机器学习的文本字符编码方法、装置及电子设备。
技术介绍
[0002]在机器学习中,为了加快学习速度,通用的做法是将文本内容转换为某种更加高效的编码格式,如Label编码或One
‑
Hot编码,但这些常用的编码都存在字长不固定的问题,在很多场合下计算仍不方便。而Unicode编码虽然定长,但其长度为4字节,计算量较大,计算效率低。
技术实现思路
[0003]本公开提供了一种用于机器学习的文本字符编码方法、装置及电子设备,在使用两字节编码可进行高效运算的同时,保证了机器多语言学习能力。
[0004]根据本公开的第一方面,提供了一种用于机器学习的文本字符编码方法。该方法包括:统计训练样本中每个字符的出现频率,所述训练样本为文本文件;对每个字符进行权重分配;按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转 ...
【技术保护点】
【技术特征摘要】
1.一种用于机器学习的文本字符编码方法,其特征在于,包括:统计训练样本中每个字符的出现频率,所述训练样本为文本文件;对每个字符进行权重分配;按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。2.根据权利要求1所述的用于机器学习的文本字符编码方法,其特征在于,对每个字符进行权重分配包括:按照每个字符与机器学习目标的关联度进行权重分配。3.根据权利要求1所述的用于机器学习的文本字符编码方法,其特征在于,按照出现频率降序和权重降序对每个字符进行排序包括:先按照权重降序对字符进行排序,若字符权重相同则按照出现频率降序进行排序。4.根据权利要求2所述的用于机器学习的文本字符编码方法,其特征在于,按照机器学习目标与字符的关联度进行权重值标记,未被标记的权重值默认为0。5.根据权利要求2所述的用于机器学习的文本字符编码方法,其特征在于,当机器学习目标发生变化时,重新对每个字符进行权重分配,然后按照出现频率降序和权重降序对每个字符进行排序并对字符进行两字节编码;根据所述两字节编码对待编码文本文件进行编码转换。6.根据权利要求2所述的用于机器学习的文本字符编码方法,其特征在于,还包括...
【专利技术属性】
技术研发人员:郝伟,沈传宝,刘加瑞,
申请(专利权)人:北京华云安信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。