一种商标文本相似性评审方法技术

技术编号:13995848 阅读:46 留言:0更新日期:2016-11-15 03:11
本发明专利技术涉及一种商标文本评审方法,该商标文本评审方法包括以下步骤:S0、将输入的商标文本进行分词处理;S1、对商标文本中是否包含禁止词的判定;S2、对商标文本的字形相似度的判定;S3、对商标文本的语义相似性;S4、综合判定商标文本在语音、字形和语义上的相似性;将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。本发明专利技术综合利用了拼音、字形及语义等多种语言学知识,将商标的可注册性信息显示提供给用户或商标注册人员,有效提升用户和商标注册人员的工作效率和体验。此外,通过引入可注册性提示信息等,还可以用于商标注册人员的培训,引导新入职及经验相对不足的商标注册人员快速了解并掌握相关评审准则。

【技术实现步骤摘要】

本专利技术属于商标信息处理领域,具体涉及一种商标文本相似性评审方法
技术介绍
商标作为商品生产者、经营者的重要特征标示,是商品生产者、经营者的重要知识产权资源。随着全球经济的迅速发展和经济一体化的快速推进,知识产权保护已经成为重要的商业活动。此外,新型产品和产业迅速兴起,为人们带来了更加丰富的产品品类,商标的产生速度也达到了空前的高度。2015年,我国商标的申请数量就达到240万件以上,且呈现出了逐年递增的趋势。在这样的形式和数据规模下,依靠人工处理商标的评审工作已经非常困难甚至无能为力,急需高效的自动评审方法实现快速、准确的商标评审工作。
技术实现思路
有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种快速、准确的商标文本评审方法。该评审方法综合考虑商标文本的拼音、字形及语义来完成商标文本的自动评审。为实现以上目的,本专利技术采用如下技术方案:一种商标文本评审方法,该商标文本评审方法包括以下步骤:S0、将输入的商标文本进行分词处理;S1、对商标文本中是否包含禁止词的判定:将分词处理后的商标文本与 商标文本数据库中存储的禁止词列表进行比对,查看商标文本中是否包含禁止词列表中的词条;如果商标文本中不包含禁止词词条,则进一步执行步骤S2;S2、对商标文本的字形相似度的判定:将分词处理后的商标文本表示为笔划序列,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中预存储有每一个相关商标的笔划序列,将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量;如果字形相似度大于等于规定的阈值,即判定两个商标在字形上非常相似,如果字形相似度小于规定的阈值,则进一步判定语义相似性,进一步执行步骤S3;S3、对商标文本的语义相似性:将分词处理后的商标文本以包含语义信息的向量空间进行表示,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也以向量空间进行表示,基于两个向量空间计算两个商标在语义上的相似度;如果语义相似度大于等于规定的阈值,即两个商标在语义上非常相似;如果字形相似度小于规定的阈值,则进一步执行步骤S4;S4、综合判定商标文本在语音、字形和语义上的相似性;如果商标文本的字形相似度和语义相似度均没有超过规定的阈值,则将使用公式Sim=wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性;其中,simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度,wp、wx、wy为三种相似度的权重;将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。进一步地,所述步骤S4中,拼音相似度的判定如下:首先将分词处理后的商标文本转换为拼音序列,然后遍历商标文本数据 库的每一个相关商标,所述商标文本数据库中每一个相关商标也转换为拼音序列,然后计算商标的语音相似度。进一步地,拼音相似度计算过程如下:根据字符-拼音映射表,将输入的商标文本转换为拼音序列,使用编辑距离计算商标文本语音方面的相似性,其中,编辑距离指两个字串之间,由一个转成另一个所需的最少编辑操作次数;编辑距离越小,两个串的相似度越大。进一步地,所述步骤S2中,字形相似性计算过程如下:根据字符-笔划映射表,将输入的商标文本转换为笔划序列,利用编辑距离计算商标文本字形方面的相似性;遍历商标数据库中的每一个词条,如果存在字形相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在字形相似度很高的商标,不可注册。字形相似度的阈值设定为0.2~1.0。进一步地,所述步骤S3中,对于分词处理后的商标文本,将词序列中每个词的向量表示进行加和,得到该商标文本的向量表示Yi;遍历商标库中的每一个条目,使用同样的方法得到该商标文本的向量表示Xi,然后使用余弦距离,计算两个商标文本的相似性;其中,余弦距离的计算公式如下:Simy=(Yi·Xi)/(||Yi||·||Xi||)其中,“·”为点积操作,||Yi||和||Xi||分别为向量Yi和Xi的欧氏距离。或者在所述步骤S3中,对于分词处理后的商标文本,使用欧式距离计算两个商标文本的相似性;其中,距离的计算方式如下: ( Σ i = 1 n | x i - y i | p ) 1 / p . ]]>其中,xi和yi分别为向量Xi和向量Yi的第i维,p=2。进一步地,所述步骤S2中,使用Jaccard距离计算两个商标文本的相似性;其中,Jaccard距离的计算方式如下: J ( A , B ) = | A ∩ B | | A ∪ B | . ]]>其中,A和B分别为商标a和商标b的字形基本单位(如笔划或五笔等)序列;分子为序列A和序列B的交集,表示两个序列中相同的字形基本单位的数量,分母为序列A和序列B的并集,表示序列A和序列B中字形基本单位的总数。进一步地,如果存在语义相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在语义相似度很高的商标,不可注册,语义相似度的阈值设定为0.5~0.9。进一步地,对于字形相似度和语义相似度均没有超过规定的阈值的商标文本,则将拼音相似度、字形相似度和语义相似度三种相似度使用如下公式进行加权,Sim=wp*simp+wx*simx+wy*simy得到商标文本的相似性,并将相似度结果信息按照一定的排序规则反馈给用户。根据任务不同,可以采用正序(即相似度从高到低的顺序)或逆序(即相似度从低到高的顺序)排列进行比对的商标文本。根据使用资源(如表示字形的基本单位,获得词向量表示的资源及参数配置不同)的差异,wp、wx、wy在如下范围内调整0~0.5、0.2~1和0~0.8。需要补充说明的是:因为不同的任务或资源,如word2vec训练数据、使用五笔还是笔划作为字形相似度的基本单本文档来自技高网...

【技术保护点】
一种商标文本评审方法,其特征在于:该商标文本评审方法包括以下步骤:S0、将输入的商标文本进行分词处理;S1、对商标文本中是否包含禁止词的判定:将分词处理后的商标文本与商标文本数据库中存储的禁止词列表进行比对,查看商标文本中是否包含禁止词列表中的词条;如果商标文本中不包含禁止词词条,则进一步执行步骤S2;S2、对商标文本的字形相似度的判定:将分词处理后的商标文本表示为笔划序列,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中预存储有每一个相关商标的笔划序列,将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量;如果字形相似度大于等于规定的阈值,即判定两个商标在字形上非常相似,如果字形相似度小于规定的阈值,则进一步判定语义相似性,进一步执行步骤S3;S3、对商标文本的语义相似性:将分词处理后的商标文本以包含语义信息的向量空间进行表示,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也以向量空间进行表示,基于两个向量空间计算两个商标在语义上的相似度;如果语义相似度大于等于规定的阈值,即两个商标在语义上非常相似;如果字形相似度小于规定的阈值,则进一步执行步骤S4;S4、综合判定商标文本在语音、字形和语义上的相似性;如果商标文本的字形相似度和语义相似度均没有超过规定的阈值,则将使用公式Sim=wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性;其中,simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度,wp、wx、wy为三种相似度的权重;将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。...

【技术特征摘要】
1.一种商标文本评审方法,其特征在于:该商标文本评审方法包括以下步骤:S0、将输入的商标文本进行分词处理;S1、对商标文本中是否包含禁止词的判定:将分词处理后的商标文本与商标文本数据库中存储的禁止词列表进行比对,查看商标文本中是否包含禁止词列表中的词条;如果商标文本中不包含禁止词词条,则进一步执行步骤S2;S2、对商标文本的字形相似度的判定:将分词处理后的商标文本表示为笔划序列,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中预存储有每一个相关商标的笔划序列,将计算经过分词处理后的商标文本的笔划序列与商标文本数据库的每一个相关商标的笔划序列的相似度作为字形相似度度量;如果字形相似度大于等于规定的阈值,即判定两个商标在字形上非常相似,如果字形相似度小于规定的阈值,则进一步判定语义相似性,进一步执行步骤S3;S3、对商标文本的语义相似性:将分词处理后的商标文本以包含语义信息的向量空间进行表示,遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也以向量空间进行表示,基于两个向量空间计算两个商标在语义上的相似度;如果语义相似度大于等于规定的阈值,即两个商标在语义上非常相似;如果字形相似度小于规定的阈值,则进一步执行步骤S4;S4、综合判定商标文本在语音、字形和语义上的相似性;如果商标文本的字形相似度和语义相似度均没有超过规定的阈值,则将使用公式Sim=wp*simp+wx*simx+wy*simy将拼音相似度、字形相似度和语义相似度三种相似度进行加权得到商标文本的相似性;其中,simp、simx、simy分别表示拼音相似度、字形相似度和语义相似度,wp、wx、wy为三种相似度的权重;将步骤S4计算得到的相似度结果输出反馈给用户以辅助判断商标的可注册性。2.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S4中,拼音相似度的判定如下:首先将分词处理后的商标文本转换为拼音序列,然后遍历商标文本数据库的每一个相关商标,所述商标文本数据库中每一个相关商标也转换为拼音序列,然后计算商标的语音相似度。3.根据权利要求2所述的商标文本评审方法,其特征在于:拼音相似度计算过程如下:根据字符-拼音映射表,将输入的商标文本转换为拼音序列,使用编辑距离计算商标文本语音方面的相似性,其中,编辑距离指两个字串之间,由一个转成另一个所需的最少编辑操作次数;编辑距离越小,两个串的相似度越大。4.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S2中,字形相似性计算过程如下:根据字符-笔划映射表,将输入的商标文本转换为笔划序列,利用编辑距离计算商标文本字形方面的相似性;遍历商标数据库中的每一个词条,如果存在字形相似度大于等于指定阈值的词条,则反馈该词条给用户,并提示用户存在字形相似度很高的商标,不可注册。5.根据权利要求4所述的商标文本评审方法,其特征在于:字形相似度的阈值设定为0.2~1.0。6.根据权利要求1所述的商标文本评审方法,其特征在于:所述步骤S3中,对于分词处理后的商标文本,将词序列中每个词的向量表示进行加和,得到该商标文本的向量表示Yi;遍历商标库中的每一个条目,使用...

【专利技术属性】
技术研发人员:孔军民谢军
申请(专利权)人:中细软移动互联科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1