基于语义的跨语言专利新创性预判分析方法技术

技术编号:14402084 阅读:67 留言:0更新日期:2017-01-11 14:31
本发明专利技术公开了一种基于语义的跨语言专利新创性预判分析方法,包括:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建跨语言语义网络结构;在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文文档;抽取英文关键词,作相似度计算,进行新创性预判,采用层次聚类构建树状图,输出最相似的一类英文文档。本发明专利技术能够形成跨语言对比策略,将大大提高专利撰写和审查的效率,缩短申报和审批时间,提高申报和审查效率,具有广泛的推广价值。

【技术实现步骤摘要】

本专利技术涉及计算机领域中的自然语言处理范畴。更具体地说,本专利技术涉及一种基于语义的跨语言专利新创性预判分析方法
技术介绍
目前我国专利技术专利的撰写和审核还是采取人工方式进行,庞大的申报数量给专利撰写和审核人员带来了巨大的工作负荷。特别是实质审查阶段,需要审查员在全世界范围内,查找与待审核专利相同或相近的,并且公开日期在此专利申请日之前的专利文献、论文等一切公开的材料,进行比对,据此做出是否具有新颖性和创造性的判断,进而决定是否给予授权。这个过程首先需要进行相似专利和文献的检索,然后进行同语言和跨语言的内容比对,特别是跨语言的内容比对相对较难。2003年,日本国立情报学研究所在第三届NTCIR(ResearchInfrastructureforComparativeEvaluationofInformationRetrievalandAccessTechnologies)会议举办了针对日语、韩语、汉语和英文跨语言专利检索研讨会,该会议在专利跨语言检索研究方向起到很大的促进作用;之后的NTCIR-8的专利研讨会中,主要对专利技术功效分析、专利聚类分析和专利质量分析进行了研究;近年来,国内外相继诞生了一些针对企业和用户的专利分析软件,如美国德雷赛尔大学信息科学与技术学院开发的CiteSpace、THOMSON公司软件分析工具DerwentAnalyticssm、国家知识产权局知识产权出版社开发的PIAS专利信息分析系统、东方灵盾中外专利检索及战略分析平台和中国科学院专利在线分析系统等。而从专利技术专利撰写员和审查员的需求角度,开展的专利技术专利新颖性和创造性(业内简称为新创性,本申报书后续均使用该简称)分析研究未见报道,跨语言专利新创性分析研究更是空白。因此,为了适应日益增长的专利技术专利撰写和审核需求,我国急需研究智能的相似专利跨语言比对技术,增强专利撰写和审查的准确率并为专利撰写员和审核员的工作提供辅助支持。跨语言文本相似度计算方法是专利新创新预判中的关键内容,可以归结为两大类方法:一类是把源语言关键短语翻译成目标语言的语句,这样跨语言任务就变成了单语言任务;另外一类是在两种语言之间自动地构建转换空间,然后将词语映射到转换空间来完成相似度计算。第一类可能会存在有些词无法找到译文的问题,第二类需要选用合适的方法构建转换空间。在满足能够获取到新词译文的前提下,构建本体、语义网络等知识库进行相似度计算是需要进一步探索的问题。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于语义的跨语言专利新创性预判分析方法,其能够形成跨语言对比策略将大大提高专利撰写和审查的效率,缩短申报和审批时间,提高申报和审查效率,具有广泛的推广价值。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于语义的跨语言专利新创性预判分析方法,包括:步骤一、构建基于维基百科的跨语言知识库:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建包含类别、文章、关键词词表的跨语言语义网络结构;步骤二、检索相似英文文档:在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文专利和相似英文文献;步骤三、新创性预判:对每一篇英文文档抽取英文关键词,基于矩阵相似度的统计算法,对待审核的中文专利和每一篇英文文档作相似度计算,对待审核的中文专利进行新创性预判,采用层次聚类构建树状图,输出与待审核的中文专利最相似的一类英文文档。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词具体包括:在维基百科中搜索关键词判断是否为消歧页或重定向页,如果为消歧页,抽取同类别的关键词作相关词;如果为重定向页,抽取近义词作相关词;如果不是消歧页或重定向页,抽取词条本身作关键词,并通过词频统计、名称术语、以及上下文特征提取的形式抽取相关词。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,将多个中文关键词及其相关词组合拓展的具体方式为:将每个中文关键词与其任一相关词两两结合,形成多个中文词对,将至少两个中文词对分别组合,形成多组中文查询词。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,还包括对抽取的相关词进行贡献度计算,去除贡献度低于预设阈值的相关词,贡献度通过计算概率得到。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤一中,还包括在维基百科读取关键词对应的英文译词,并存储在跨语言知识库中;步骤二中,将中文查询词翻译成对应的英文查询词通过自动查询双语词典、Web资源、跨语言知识库中的一种或多种实现。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤二中,在待审核的中文专利抽取中文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,步骤三中,在英文专利抽取英文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,在英文文献抽取英文关键词是在名称、摘要两部分抽取;在英文专利和英文文献抽取英文关键词通过词频统计、名称术语、以及上下文特征提取的形式实现。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,对待审核的中文专利和每一篇英文文档作相似度计算是根据局部相似度和整体相似度线性加和得到,计算待审核的中文专利与相似英文专利中名称、摘要、权利要求书以及说明书的局部相似度和全文的整体相似度,以及待审核的中文专利与相似英文文献中名称、摘要的局部相似度和全文的整体相似度;局部相似度和整体相似度是通过对中文关键词、英文关键词分别构建特征向量,基于矩阵相似度的统计算法得到的。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,对待审核的中文专利进行新创性预判的具体方法为:英文专利相似度公式为:Sim(C,ep(i+j))=λΣinsimpart(ci,epi)+(1-λ)Σinsimunity(ci,epi)]]>其中,ep代表英文专利,表示采用相似度公式计算得到的局部相似度,表示采用相似度公式计算得到的整体相似度;英文文献相似度公式为:Sim(C,esi)=Σi=1nsimunity(ci,esi)]]>新创性预判公式为:Ni=1-max(si(n)),对所有的n<i,其中,Si(n)是第i个中文专利与其他n个相似英文专利或英文科技文献的相似度。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,在采用层次聚类构建树状图之前还包括:去除相似度低于预设阈值的英文文档,得到近似英文文档集合。优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,采用层次聚类构建树状图具体包括:将待审核的中文专利与近似英文文档集合,将每一个近似英文文档作为一个类别,构建树状图,计算任意两个类别之间的距离,若k=1,寻找距离最小的两个类别并合并,计算与其他类别之间的距离,并构建新的树状图,至k=n,输出与待审核的中文专利最相似的一类文档。本专利技术至少包括以下有益效果:本专利技术构建构建基于维基百科的跨语言知识库本文档来自技高网
...
基于语义的跨语言专利新创性预判分析方法

【技术保护点】
一种基于语义的跨语言专利新创性预判分析方法,其特征在于,包括:步骤一、构建基于维基百科的跨语言知识库:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建包含类别、文章、关键词词表的跨语言语义网络结构;步骤二、检索相似英文文档:在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文专利和相似英文文献;步骤三、新创性预判:对每一篇英文文档抽取英文关键词,基于矩阵相似度的统计算法,对待审核的中文专利和每一篇英文文档作相似度计算,对待审核的中文专利进行新创性预判,采用层次聚类构建树状图,输出与待审核的中文专利最相似的一类英文文档。

【技术特征摘要】
1.一种基于语义的跨语言专利新创性预判分析方法,其特征在于,包括:步骤一、构建基于维基百科的跨语言知识库:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建包含类别、文章、关键词词表的跨语言语义网络结构;步骤二、检索相似英文文档:在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文专利和相似英文文献;步骤三、新创性预判:对每一篇英文文档抽取英文关键词,基于矩阵相似度的统计算法,对待审核的中文专利和每一篇英文文档作相似度计算,对待审核的中文专利进行新创性预判,采用层次聚类构建树状图,输出与待审核的中文专利最相似的一类英文文档。2.如权利要求1所述的基于语义的跨语言专利新创性预判分析方法,其特征在于,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词具体包括:在维基百科中搜索关键词判断是否为消歧页或重定向页,如果为消歧页,抽取同类别的关键词作相关词;如果为重定向页,抽取近义词作相关词;如果不是消歧页或重定向页,抽取词条本身作关键词,并通过词频统计、名称术语、以及上下文特征提取的形式抽取相关词。3.如权利要求1所述的基于语义的跨语言专利新创性预判分析方法,其特征在于,将多个中文关键词及其相关词组合拓展的具体方式为:将每个中文关键词与其任一相关词两两结合,形成多个中文词对,将至少两个中文词对分别组合,形成多组中文查询词。4.如权利要求1所述的基于语义的跨语言专利新创性预判分析方法,其特征在于,还包括对抽取的相关词进行贡献度计算,去除贡献度低于预设阈值的相关词,贡献度通过计算概率得到。5.如权利要求1所述的基于语义的跨语言专利新创性预判分析方法,其特征在于,步骤一中,还包括在维基百科读取关键词对应的英文译词,并存储在跨语言知识库中;步骤二中,将中文查询词翻译成对应的英文查询词通过自动查询双语词典、Web资源、跨语言知识库中的一种或多种实现。6.如权利要求1所述的基于语义的跨语言专利新创性预判分析方法,其特征在于,步骤二中,在待审核的中文专利抽取中文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,步...

【专利技术属性】
技术研发人员:梁颖红
申请(专利权)人:金陵科技学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1