货名分类方法、装置、电子设备、存储介质制造方法及图纸

技术编号:27479414 阅读:9 留言:0更新日期:2021-03-02 17:49
本发明专利技术提供一种货名分类方法、装置、电子设备、存储介质,方法包括:将货物名称划分为字节片段序列;将所述字节片段序列作为一经训练的货名分类模型的输入,所述货名分类模型包括依次相连的输入层、隐含层以及输出层,所述输出层采用分层softmax结构;以及将经训练的货名分类模型的输出作为所述货物名称的货名分类。本发明专利技术优化货物名称的货名分类算法,从而提高模型训练速度以及预测效率,以减少系统负载的同时,提高货物名称的错别字的容错,进而提高货名分类准确率。提高货名分类准确率。提高货名分类准确率。

【技术实现步骤摘要】
货名分类方法、装置、电子设备、存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种货名分类方法、装置、电子设备、存储介质。

技术介绍

[0002]随着互联网以及信息技术的发展,线上货运平台在货主和司机之间已经越来越普及。货主通过货运平台发布货源信息,并由司机进行浏览和接单,以实现货运前的对接过程。
[0003]在货运平台的货运调度中,常常需要根据不同的货物匹配不同负载不同类型的货车,而货名繁多,为每个货名都建立一个类别十分不便,这就需要对货主发布的货物名称进行准确的快速分类。货名分类算法可以将货名自动归入预先设定好的类别。分类后的类别信息可以让货运人或调度人快速判断可与之匹配的货车。
[0004]货名分类是一种文本分类任务,常见的用于货名分类的算法有基于循环神经网络(RNN)的文本分类算法。它将货名文本依次输入RNN,并将输入最后一个文本字符时RNN的隐藏状态输出放入前馈神经网络,产生每个种类的概率,并选取概率最大的种类作为预测的货物种类。
[0005]基于RNN的文本分类算法的缺陷在于训练和测试速度较慢。RNN的自循环机制使得不论是对模型做训练还是对实际样例做预测,算法的计算量大耗时长。在实际应用过程中,如果更新的货物较多,需要大量的调用分类算法,则服务器的负载会变大,运行速度变慢,影响其他功能的实现和用户体验。
[0006]其次,需要分类的货名是由货主用户输入上传的,在实际应用中会出现大量的错别字,并因此产生一些在货物名称中较少出现的字。基于RNN的文本分类算法对错别字和稀有字较为敏感,同样的货物名称,对于有错别字和无错别字两种情况该算法容易产生不同的分类结果。可见在有错别字或稀有字时,基于RNN的文本分类算法错误率较高。
[0007]由此,如何优化货物名称的货名分类算法,从而提高模型训练速度以及预测效率,以减少系统负载的同时,提高货物名称的错别字的容错,进而提高货名分类准确率,是本领域技术人员亟待解决的技术问题。

技术实现思路

[0008]本专利技术为了克服上述相关技术存在的缺陷,提供一种货名分类方法、装置、电子设备、存储介质,进而至少在一定程度上优化货物名称的货名分类算法,从而提高模型训练速度以及预测效率,以减少系统负载的同时,提高货物名称的错别字的容错,进而提高货名分类准确率。
[0009]根据本专利技术的一个方面,提供一种货名分类方法,包括:
[0010]将货物名称划分为字节片段序列;
[0011]将所述字节片段序列作为一经训练的货名分类模型的输入,所述货名分类模型包
括依次相连的输入层、隐含层以及输出层,所述输出层采用分层softmax结构;以及
[0012]将经训练的货名分类模型的输出作为所述货物名称的货名分类。
[0013]在本专利技术的一些实施例中,所述将货物名称划分为字节片段序列包括:
[0014]将所述货物名称的第i个字符至第i+N-1个字符作为所述字节片段序列的第i个字节片段,其中,i大于等于1且小于等于所述货物名称的字符总数-N+1,N为预设的字节片段的长度,N为大于1且小于等于所述货物名称的字符总数的整数。
[0015]在本专利技术的一些实施例中,所述输出层包括根据候选货名分类的频数统计量生成的哈夫曼二叉树,所述哈夫曼二叉树中的叶子节点为候选货名分类,所述候选货名分类的频数统计量越大,其与所述哈夫曼二叉树的根节点越接近,各所述候选货名分类的概率仅基于该候选货名分类在所述哈夫曼二叉树的路径上的节点计算。
[0016]在本专利技术的一些实施例中,所述将货物名称划分为字节片段序列之前包括:
[0017]接收货主端输入的货源出发地以及货源目的地;
[0018]基于所述货源出发地以及货源目的地获取热门路线和/或热门地点,所述热门路线为所述货源出发地以及货源目的地之间的历史频次大于第一预设频次阈值的运输路线,所述热门地点为所述货源出发地以及货源目的地之间的历史频次大于第二预设频次阈值的途径地点;
[0019]基于获取的热门路线和/或热门地点获取多个候选货物名称,所述候选货物名称为在所述热门路线和/或热门地点的历史运输频次大于第三预设频次阈值的货物名称;
[0020]基于货主端对所述候选货物名称的选择,确定用于进行货名分类的货物名称。
[0021]在本专利技术的一些实施例中,所述将货物名称划分为字节片段序列之前包括:
[0022]接收货主端输入的货物名称。
[0023]在本专利技术的一些实施例中,所述将经训练的货名分类模型的输出作为所述货物名称的货名分类之后还包括:
[0024]获取提供所述货物名称的货主端的历史货运订单;
[0025]基于所述历史货运订单查询所述货名分类的货物包装方式和/或货运需求标签;
[0026]向提供所述货物名称的货主端展示所查询的货物包装方式和/或货运需求标签。
[0027]在本专利技术的一些实施例中,所述将经训练的货名分类模型的输出作为所述货物名称的货名分类之后还包括:
[0028]获取提供所述货物名称的货主端的货源信息的发布请求;
[0029]发布所述货源信息,使所述货名分类以及货物名称一并显示,
[0030]其中,所述货名分类用于供司机端进行货源检索。
[0031]根据本专利技术的又一方面,还提供一种货名分类装置,包括:
[0032]划分模块,配置成将货物名称划分为字节片段序列;
[0033]输入模块,配置成将所述字节片段序列作为一经训练的货名分类模型的输入,所述货名分类模型包括依次相连的输入层、隐含层以及输出层,所述输出层采用分层softmax结构;以及
[0034]输出模块,配置成将经训练的货名分类模型的输出作为所述货物名称的货名分类。
[0035]根据本专利技术的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储
介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
[0036]根据本专利技术的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
[0037]相比现有技术,本专利技术的优势在于:
[0038]本专利技术通过将货物名称划分为字节片段序列,并将所述字节片段序列作为一经训练的货名分类模型的输入,从而优化模型的输入,同时让模型在训练是保持词序信息,减小错别字,稀有字对预测结果的影响,提高模型准确率;通过使货名分类模型的输出层采用分层softmax结构,以大大减少模型训练和预测时间,同时,减少系统负载。
附图说明
[0039]通过参照附图详细描述其示例实施方式,本专利技术的上述和其它特征及优点将变得更加明显。
[0040]图1示出了根据本专利技术实施例的货名分类方法的流程图。
[0041]图2示出了根据本专利技术实施例的将货物名称划分为字节片段序列的示意图。
[0042]图3示出了根据本专利技术实施例的分层s本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种货名分类方法,其特征在于,包括:将货物名称划分为字节片段序列;将所述字节片段序列作为一经训练的货名分类模型的输入,所述货名分类模型包括依次相连的输入层、隐含层以及输出层,所述输出层采用分层softmax结构;以及将经训练的货名分类模型的输出作为所述货物名称的货名分类。2.如权利要求1所述的货名分类方法,其特征在于,所述将货物名称划分为字节片段序列包括:将所述货物名称的第i个字符至第i+N-1个字符作为所述字节片段序列的第i个字节片段,其中,i大于等于1且小于等于所述货物名称的字符总数-N+1,N为预设的字节片段的长度,N为大于1且小于等于所述货物名称的字符总数的整数。3.如权利要求1所述的货名分类方法,其特征在于,所述输出层包括根据候选货名分类的频数统计量生成的哈夫曼二叉树,所述哈夫曼二叉树中的叶子节点为候选货名分类,所述候选货名分类的频数统计量越大,其与所述哈夫曼二叉树的根节点越接近,各所述候选货名分类的概率仅基于该候选货名分类在所述哈夫曼二叉树的路径上的节点计算。4.如权利要求1所述的货名分类方法,其特征在于,所述将货物名称划分为字节片段序列之前包括:接收货主端输入的货源出发地以及货源目的地;基于所述货源出发地以及货源目的地获取热门路线和/或热门地点,所述热门路线为所述货源出发地以及货源目的地之间的历史频次大于第一预设频次阈值的运输路线,所述热门地点为所述货源出发地以及货源目的地之间的历史频次大于第二预设频次阈值的途径地点;基于获取的热门路线和/或热门地点获取多个候选货物名称,所述候选货物名称为在所述热门路线和/或热门地点的历史运输频次大于第三预设频次阈值的货物名称;基于...

【专利技术属性】
技术研发人员:仲惠琳郁博文
申请(专利权)人:江苏满运物流信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1