对象处理方法及装置制造方法及图纸

技术编号:16128804 阅读:30 留言:0更新日期:2017-09-01 20:50
本发明专利技术实施方式提供了一种对象处理方法及装置,涉及通信领域,其中,所述方法包括:获取待标注对象的向量;根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签;若判定为采用所述标签,则通过所述标签标注所述待标注对象。由于在本发明专利技术的实施方式中,利用标签下的种子对象(具有代表性的典型对象)的向量(即种子对象向量)来取代标签自身的向量,与待标注对象的向量进行相似度计算,因此省去了对标签进行向量构造的过程,从而有效避免了人为构造标签向量所带来的问题。

Object processing method and device

The embodiment of the invention provides a method and apparatus for processing objects, relates to the field of communication, among them, the method comprises: acquiring the annotation vector object; according to whether the similarity judgment of the seed object vector and vector label using the label; if it is determined by the label, through the label mark the object to be marked. The embodiment of the invention, the seed object under the label (typical representative) vector (i.e. seed object vector) vector to replace the label itself, calculation and annotation object similarity vector, thus eliminating the process of vector structure on the label, so as to effectively avoid human the problems caused by the structural vector label.

【技术实现步骤摘要】
对象处理方法及装置
本专利技术涉及通信领域,更为具体而言,涉及对象处理方法及装置。
技术介绍
对象(例如,菜品)的标签是人工定义的有限集合,例如,【川菜】、【祛寒】等。利用标签标注对象的技术是基于对象与标签之间的相似性来确定是否采用该标签来标注所述对象。其中的关键技术是向量的相似度计算,即基于对象的向量与标签的向量之间的相似度来确定对象与标签之间的相似性。然而,在现有技术当中,标签的向量通常需要人为构造,具体而言,需要人为地给标签确定若干个关键词,并给每个关键词人为地赋予权重weight_i,利用这些权重构造出标签tag_i的向量vector_i=[weight_1,weight_2,weight_3,……weight_n],然而,这种人为构造标签向量的方法受人为主观因素的影响,导致其结果不稳定。
技术实现思路
为解决上述技术问题,本专利技术提供了对象处理方法及装置。一方面,本专利技术的实施方式提供了一种对象处理方法,所述方法包括:获取待标注对象的向量;根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签;若判定为采用所述标签,则通过所述标签标注所述待标注对象。在本专利技术的实施方式中,利用标签下的种子对象(具有代表性的典型对象)的向量(即种子对象向量)来取代标签自身的向量,与待标注对象的向量进行相似度计算,省去了对标签进行向量构造的过程,从而有效避免了上述人为构造标签向量所带来的问题。在本专利技术的一些实施方式中,所述根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签包括:根据所述相似度计算所述标签的相似性得分;确定所述相似性得分的排序位次;识别所述排序位次是否落入设定范围;若所述排序位次落入设定范围,则判定为采用所述标签。在本专利技术的实施方式中,只有当标签的相似性得分的排序位次落入了预先设定的范围时,才判定为采用该标签对待标注对象进行标注,例如,按照相似性得分从高到低的顺序对相似性得分进行排序,只有当标签的相似性得分在第1位到第5位之间时,才判定为采用该标签;或者,按照相似性得分从低到高的顺序对相似性得分进行排序,只有当标签的相似性得分在最后1位到倒数第5位之间时,才判定为采用该标签,由此可以提高利用标签标注对象的准确度。在本专利技术的一些实施方式中,所述方法还包括:构建训练语料,所述训练语料用于获取所述待标注对象的向量。为了进一步提高标签标注的准确度,在本专利技术的一些实施方式中,所述方法还包括:对所述训练语料执行降噪处理。其中,在本专利技术的一些实施方式中,所述对所述训练语料执行降噪处理包括:对所述训练语料中的对象表征文本执行清洗处理;识别清洗后的对象表征文本是否为噪声数据;若所述清洗后的对象表征文本为噪声数据,则将所述清洗后的对象表征文本从所述训练语料中去除。另一方面,本专利技术的实施方式提供了一种对象处理装置,所述装置包括:获取模块,用于获取待标注对象的向量;判断模块,用于根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签;标注模块,用于在判定为采用所述标签的情形下,通过所述标签标注所述待标注对象。在本专利技术的实施方式中,利用标签下的种子对象(具有代表性的典型对象)的向量(即种子对象向量)来取代标签自身的向量,与待标注对象的向量进行相似度计算,省去了对标签进行向量构造的过程,从而有效避免了上述人为构造标签向量所带来的问题。在本专利技术的一些实施方式中,所述判断模块包括:计算单元,用于根据所述相似度计算所述标签的相似性得分;确定单元,用于确定所述相似性得分的排序位次;第一识别单元,用于识别所述排序位次是否落入设定范围;判定单元,用于在所述排序位次落入设定范围的情形下,判定为采用所述标签。在本专利技术的实施方式中,只有当标签的相似性得分的排序位次落入了预先设定的范围时,才判定为采用该标签对待标注对象进行标注,例如,按照相似性得分从高到低的顺序对相似性得分进行排序,只有当标签的相似性得分在第1位到第5位之间时,才判定为采用该标签;或者,按照相似性得分从低到高的顺序对相似性得分进行排序,只有当标签的相似性得分在最后1位到倒数第5位之间时,才判定为采用该标签,由此可以提高利用标签标注对象的准确度。在本专利技术的一些实施方式中,所述装置还包括:构建模块,用于构建训练语料,所述训练语料用于获取所述待标注对象的向量。为了进一步提高标签标注的准确度,在本专利技术的一些实施方式中,所述装置还包括:降噪模块,用于对所述训练语料执行降噪处理。其中,在本专利技术的一些实施方式中,所述降噪模块包括:清洗单元,用于对所述训练语料中的对象表征文本执行清洗处理;第二识别单元,用于识别清洗后的对象表征文本是否为噪声数据;去除单元,用于在所述清洗后的对象表征文本为噪声数据的情形下,将所述清洗后的对象表征文本从所述训练语料中去除。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术方法实施方式1的对象处理方法的流程图;图2示出了图1所示的处理S12的一种实施方式;图3是根据本专利技术方法实施方式7的对象处理方法的流程图;图4是根据本专利技术方法实施方式9的对象处理方法的流程图;图5示出了图4所示的处理S32的一种实施方式;图6是根据本专利技术装置实施方式1的对象处理装置的结构示意图;图7示出了图6所示的判断模块12的一种实施方式。具体实施方式以下结合附图和具体实施方式对本专利技术的各个方面进行详细阐述。其中,在本专利技术的各个具体实施方式中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施例中以任何方式组合。此外,本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本专利技术的保护范围。本领域的技术人员还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或步骤可以按多种不同配置进行组合和设计。对于未在本说明书中进行具体说明的技术术语,除非另有特定说明,都应以本领域最宽泛的意思进行解释。【方法实施方式1】图1是根据本专利技术方法实施方式1的对象处理方法的流程图。参见图1,在本实施方式中,所述方法包括:S11:获取待标注对象的向量。S12:根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签。若是,则执行S13,若否,则执行S14。S13:通过所述标签标注所述待标注对象。S14:结束当前流程。在本专利技术的实施方式中,利用标签下的种子对象(具有代表性的典型对象)的向量(即种子对象向量)来取代标签自身的向量,与待标注对象的向量进行相似度计算,省去了对标签进行向量构造的过程,从而有效避免了上述人为构造标签向量所带来的问题。【方法实施方式2】本实施方式所提供的方法包括了方法实施方式1中的全部内容,在此不再赘述。其中,在本实施方式中,处理S11可以通过下述方式实现:利用神经网络模型训练出待标注对象的向量。【方法实施方式3】本实施方式所提供的方法包括了方法实施方式1中的全部内容,在此不再赘述。其中,在本实施方式中,所述种子对象包括:所述标签下置信度大于或等于本文档来自技高网...
对象处理方法及装置

【技术保护点】
一种对象处理方法,其特征在于,所述方法包括:获取待标注对象的向量;根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签;若判定为采用所述标签,则通过所述标签标注所述待标注对象。

【技术特征摘要】
1.一种对象处理方法,其特征在于,所述方法包括:获取待标注对象的向量;根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签;若判定为采用所述标签,则通过所述标签标注所述待标注对象。2.如权利要求1所述的方法,其特征在于,所述根据所述向量与标签下种子对象向量的相似度判断是否采用所述标签包括:根据所述相似度计算所述标签的相似性得分;确定所述相似性得分的排序位次;识别所述排序位次是否落入设定范围;若所述排序位次落入设定范围,则判定为采用所述标签。3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:构建训练语料,所述训练语料用于获取所述待标注对象的向量。4.如权利要求3所述的方法,其特征在于,所述方法还包括:对所述训练语料执行降噪处理。5.如权利要求4所述的方法,其特征在于,所述对所述训练语料执行降噪处理包括:对所述训练语料中的对象表征文本执行清洗处理;识别清洗后的对象表征文本是否为噪声数据;若所述清洗后的对象表征文本为噪声数据,则将所述清洗后的对象表征文本从所述训练语料中去除。6.一种对象处理装置,其特征在于,所述装置包括:获取模块,用于...

【专利技术属性】
技术研发人员:张岱闫奎名佟娜肜博辉
申请(专利权)人:北京小度信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1