一种条目分类方法及装置制造方法及图纸

技术编号:21629161 阅读:20 留言:0更新日期:2019-07-17 11:09
一种条目分类方法,包括:获取目标对象的条目的低阶特征,低阶特征包括该条目自身的特征;获取条目的高阶特征,高阶特征表示该条目与目标对象的其他条目之间的关系;根据该条目的低阶特征和高阶特征,确定该条目所属的类别。如此,提高了条目分类准确性。

A Method and Device for Item Classification

【技术实现步骤摘要】
一种条目分类方法及装置
本专利技术涉及数据处理
,尤其涉及一种条目分类方法及装置。
技术介绍
目前的条目分类方法是在文字区域检测、文字识别后,针对条目区域内的文本进行基于语义的识别,以确定条目所属的类别。其中,基于语义的识别可以包括使用人工规则进行条目类别的识别。比如,针对名片上的条目进行识别时,根据这些条目的内容来判断这些条目分别属于哪个类别,例如,姓名、公司、电话、地址等类别。然而,使用人工规则进行语义识别具有一定的局限性,一方面耗费大量的时间设定规则和阈值等,导致迭代优化速度较慢;另一方面,人为定义的规则使用范围小,泛化性差。另外,由于OCR(OpticalCharacterRecognition,光学字符识别)存在一定的错误,导致文字检测和识别结果含有噪声,容易出现误判,条目的分类准确率较低。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供一种条目分类方法及装置,能够提高条目的分类识别准确率。本申请实施例提供一种条目分类方法,包括:获取目标对象的条目的低阶特征,所述低阶特征包括所述条目自身的特征;获取所述条目的高阶特征,所述高阶特征表示所述条目与所述目标对象的其他条目之间的关系;根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别。在示例性实施方式中,所述低阶特征可以包括以下至少之一:空间特征、文本特征、语义特征、语义分类结果。在示例性实施方式中,所述获取目标对象的条目的低阶特征,可以包括:采用基于机器学习的第一分类器,获取所述条目的语义特征和语义分类结果。在示例性实施方式中,所述第一分类器可以包括:快速文本分类器。在示例性实施方式中,所述高阶特征可以包括以下至少之一:所述条目在所述目标对象的全局特征、所述条目的邻域特征。在示例性实施方式中,所述获取所述条目的高阶特征,可以包括以下至少之一:根据所述条目的低阶特征以及所述目标对象的其他条目的低阶特征,获取所述条目的全局特征;根据所述条目的低阶特征以及与所述条目相邻的一个或多个条目的低阶特征,获取所述条目的邻域特征。在示例性实施方式中,所述根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别,可以包括:将所述条目的低阶特征和高阶特征拼接形成所述条目的总特征;根据所述条目的总特征输入基于机器学习的第二分类器的输出结果,确定所述条目所属的类别。本申请实施例还提供一种条目分类装置,包括:第一获取模块,适于获取目标对象的条目的低阶特征,其中,所述低阶特征包括所述条目自身的特征;第二获取模块,适于获取所述条目的高阶特征,其中,所述高阶特征表示所述条目与所述目标对象的其他条目之间的关系;处理模块,适于根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别。在示例性实施方式中,所述低阶特征可以包括以下至少之一:空间特征、文本特征、语义特征、语义分类结果;所述高阶特征可以包括以下至少之一:所述条目在所述目标对象的全局特征、所述条目的邻域特征。本申请实施例还提供一种计算设备,包括:存储器以及处理器;其中,所述存储器用于存储条目分类程序,所述条目分类程序被所述处理器读取执行时,执行以下操作:获取目标对象的条目的低阶特征,所述低阶特征包括所述条目自身的特征;获取所述条目的高阶特征,所述高阶特征表示所述条目与所述目标对象的其他条目之间的关系;根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别。本申请实施例还提供一种计算机可读介质,存储有条目分类程序,所述条目分类程序被处理器读取执行时,执行以下操作:获取目标对象的条目的低阶特征,所述低阶特征包括所述条目自身的特征;获取所述条目的高阶特征,所述高阶特征表示所述条目与所述目标对象的其他条目的关系;根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别。在本申请实施例中,获取目标对象的条目的低阶特征,低阶特征包括该条目自身的特征;获取该条目的高阶特征,高阶特征表示该条目与目标对象的其他条目之间的关系;根据该条目的低阶特征和高阶特征,确定该条目所属的类别。本申请通过条目自身的低阶特征和与其他条目相关的高阶特征的组合,确定条目所属的类别,从而提高条目的分类识别准确率。而且,本申请通过基于机器学习的第一分类器和第二分类器进行条目的类别判断,减少了人为规则的使用,能够在新数据的驱动下,以极小的人力成本驱动分类器的迭代优化。在阅读并理解了附图和详细描述后,可以明白其他方面。附图说明图1为本申请实施例提供的条目分类方法的流程图;图2为fasttext分类器的语义分类示例图;图3为随机森林分类器的一种决策树分类器的示意图;图4为本申请实施例提供的条目分类方法的示例性分类架构图;图5为本申请实施例提供的条目分类装置的示意图。具体实施方式以下结合附图对本申请实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本申请,并不用于限定本申请。需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。一些实施方式中,执行条目分类方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。内存可能包括模块1,模块2,……,模块N(N为大于2的整数)。计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。图1为本申请实施例提供的条目分类方法的流程图。本实施例提供的条目分类方法可以用于识别名片上的条目所属的类别,其中,类别可以包括姓名、电话、地址、公司名称等。然而,本申请对此并不限定。本实施例提供的条目分类方法还可以用于识别车票(例如,汽车票、火车票、飞机票等)或证件(例如,身份证等)上的条目所属的类别,比如,类别可以包括姓名、发车时间、上车地点、座位信息等。如图1所示,本实施例提供的条目分类方法,包括以下步骤:S101、获取目标对象的条目的低阶特征;其中,低阶特征包括该条目自身的特征;S102、获取条目的高阶特征;其中,高阶特征表示该条目与目标对象的其他条目之间的关系;S103、根据条目的低阶特征和高阶特征,确定该条目所属的类别。在本实施例中,目标对象可以包括:名片、车票、证件等本文档来自技高网...

【技术保护点】
1.一种条目分类方法,其特征在于,包括:获取目标对象的条目的低阶特征,所述低阶特征包括所述条目自身的特征;获取所述条目的高阶特征,所述高阶特征表示所述条目与所述目标对象的其他条目之间的关系;根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别。

【技术特征摘要】
1.一种条目分类方法,其特征在于,包括:获取目标对象的条目的低阶特征,所述低阶特征包括所述条目自身的特征;获取所述条目的高阶特征,所述高阶特征表示所述条目与所述目标对象的其他条目之间的关系;根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别。2.根据权利要求1所述的方法,其特征在于,所述低阶特征包括以下至少之一:空间特征、文本特征、语义特征、语义分类结果。3.根据权利要求2所述的方法,其特征在于,所述获取目标对象的条目的低阶特征,包括:采用基于机器学习的第一分类器,获取所述条目的语义特征和语义分类结果。4.根据权利要求3所述的方法,其特征在于,所述第一分类器包括:快速文本分类器。5.根据权利要求1所述的方法,其特征在于,所述高阶特征包括以下至少之一:所述条目在所述目标对象的全局特征、所述条目的邻域特征。6.根据权利要求5所述的方法,其特征在于,所述获取所述条目的高阶特征,包括以下至少之一:根据所述条目的低阶特征以及所述目标对象的其他条目的低阶特征,获取所述条目的全局特征;根据所述条目的低阶特征以及与所述条目相邻的一个或多个条目的低阶特征,获取所述条目的邻域特征。7.根据权利要求1所述的方法,其特征在于,所述根据所述条目的低阶特征和高阶特征,确定所述条目所属的类别,包括:将所述条目的低阶特征和高阶特征拼接形成所述条目的总特征;根据所述条目的总特征输入基于机器学习的第二分类器的输出结...

【专利技术属性】
技术研发人员:周文猛
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1