信息检索装置及方法制造方法及图纸

技术编号:14533026 阅读:152 留言:0更新日期:2017-02-02 16:08
本发明专利技术公开了一种信息检索装置及方法,包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取关键词分为多个优先级;分类号获取单元,从上述特定专利号对应专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定阈值条件的检索式。自动抽取关键词和分类号,并按相关度对所抽取关键词和分类号进行优先级分级,按关键词和分类号的优先级顺序来构建检索式,可以更精确且高效地自动检索出与期望检索的主题相似的专利信息。

Information retrieval device and method

The invention discloses an information retrieval method and apparatus, comprises a receiving unit, a specific patent number to receive user input; keywords acquisition unit from the specific patent number corresponding to patent information automatic extraction of keywords; compare unit, according to the degree of correlation between the specific keywords and patent, the extracted keywords are divided into a plurality of priority; classification number acquisition unit, extraction from the specific patent classification number corresponding patent information, and a classification number extracted is divided into a plurality of priority; construction unit will search, keyword and classification number according to the priority from high to low build retrieval type and construct the retrieval results until satisfied retrieval type a predetermined threshold condition. Keywords automatic extraction and classification, and priority classification according to the relevant degree of keyword extraction and classification, according to keyword and classification number priority order to construct the retrieval, can be more accurate and efficient automatic retrieval retrieval of patent information with similar themes and expectations.

【技术实现步骤摘要】

本专利技术涉及一种信息检索装置及方法,尤其涉及一种对技术信息,例如专利信息进行检索的装置和方法。
技术介绍
技术信息,尤其是专利信息对于企业或科研院所的发展是不可或缺的重要资源。例如在企业或科研院所进行研发或投资前,可以全面了解特定
的现有技术水平,确定正确的研究方向,避免重复开发,节省时间和科研经费。但最近几年来,专利信息增长迅猛,全世界每年出版的专利文件在百万件以上;而现有的专利检索通常是在专利数据库内进行,其方法是先根据待查询的主题,根据检索者的经验输入相关的关键词及其同义词或相应的分类号,构建检索式,并通过人工审阅的方式对检索式进行重复调整,从而获得所需的数据,随着专利数据量的爆炸式增长,上述人工检索相关信息的方式变得越来越费时费力,尤其对于不熟悉数据库结构和数据库检索式构建的技术人员来说,迅速准确找到自己所需信息变得越来越困难。因此,需要提供一种自动检索出与期望检索的主题相似的专利信息的装置和方法。专利文献1(公开号:JP2005-234868A)公开了一种类似申请说明书检索系统,该系统可以通过从待查专利说明书中抽出的关键词,从数据中存储的多个专利说明书中,检索出类似的专利说明书,该系统包括检索语言抽出部,抽出在待查专利权利要求中记载的语言,并作为检索语言输出;概念说明书文字抽出部,抽出描述了作为检索语言的专利技术理论基础的概念的概念说明文字;关联语言抽出部,抽出概念说明文字中记载的语言,并作为关联语言输出;文件检索部,通过检索语言和关联语言,从数据库中检索出类似的专利说明书。虽然专利文献1可以自动地不借助于人工地检索出与类似申请,但是由于通过机器自动抽取的词语中,通常包括一些没有意义的词语,例如在计算机领域中,“功能”是没有含义的词语,此外,不同的词语与主题的接近程度也是不同的,例如,当待查专利涉及一种摄像装置的镜头,而当抽取的检索语言中包含“CCD”时,按专利文献1的方案,该“CCD”也需参加构建检索式,但显然“CCD”与“镜头”之间的关联度不大,因此,若将“CCD”也放入构建检索式,有可能因引入的检索词过多,反而造成漏减。因此,需要提供一种可更精确且高效地自动检索出与期望检索的主题相似的专利信息的装置和方法。
技术实现思路
本专利技术要解决的技术问题是提供一种信息检索装置和方法,尤其是提供一种专利信息检索装置和方法,能够更精确且高效地自动检索出与期望检索的主题相似的专利信息的装置和方法。本专利技术的信息检索装置,包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应的专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取的关键词分为多个优先级;分类号获取单元,从上述特定专利号对应的专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和/或分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定的阈值条件的检索式。本专利技术的信息检索方法,包括:接收步骤,接收用户输入的特定专利号;关键词获取步骤,从上述特定专利号对应的专利信息中自动抽取关键词;比较步骤,按照关键词与上述特定专利之间的相关程度,将所抽取的关键词分为多个优先级;分类号获取步骤,从上述特定专利号对应的专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建步骤,将关键词和/或分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定的阈值条件的检索式。由于本专利技术中,自动抽取出关键词,并按相关度对所抽取的关键词进行优先级分级,对分类号也进行自动提取和优先级分级,之后,按关键词和分类号的优先级顺序来构建检索式,由此,与现有技术相比,由于其用与用户输入的特定专利最接近的关键词和分类号来进行检索,因此可以更精确且高效地自动检索出与期望检索的主题相似的专利信息。本专利技术中,关键词获取单元对关键词的优先级分类方式为:从用户输入的特定专利的人工处理数据中获取关键词来作为高优先级词;之后根据语义从专利信息中进行分词,从而获取语义关键词,并将其作为一般关键词。分类号获取单元根据所获得的分类号是人工处理的分类号、该分类号是否为主分类号或分类体系的类型,而将所获取的分类号分为多个优先级的分类号。由于人工处理的关键词与自动语义分词相比,更能体现专利的核心概念,而人工确定的分类号也更能体现专利技术的位置,因此,在本专利技术中,将这些人工数据其作为高优先级词可以更加提高检索的精度。此外,与副分类相比,主分类更能体现专利技术的核心思想,且某些分类体系更加细分,因此,也可以依据上述分类的方式来对分类号划分优先级。本专利技术中,上述预定的阈值条件是检索结果大于等于第四阈值且小于等于第五阈值,且该第四和第五阈值是动态可变的。由于不同领域的数据量不同,因此,将上述阈值设置为动态可变可以进一步提高检索的精度。本专利技术的信息检索装置进一步包括相似度计算单元,计算检索结果中的每个文件与用户输入的特定专利的相似度,该检索结果是由检索式构建步骤构建的检索式检索后的结果;排序单元,根据相似度对上述检索结果中的每个文件进行排序。由此,可以按相似度顺序来对检索结果进行排序,从而提高浏览效率。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明,其中:图1示意性示出了依照本专利技术的信息检索系统的一个实施例;图2示意性示出了依照本专利技术的信息检索系统中的关键词分级流程的一实施例;图3示意性示出了依照本专利技术的信息检索系统中的分类号获取单元所实施的分类号分级流程的一实施例;图4示意性示出了依照本专利技术的信息检索系统所实施的检索式构建流程的一例;图5示意性示出了第二实施例的检索式构建单元的结构框图;图6(a)(b)(c)(d)示意性示出了第二实施例的检索式构建单元所实施的检索式构建流程;图7示意性示出了依照本专利技术的信息检索系统中的动态阈值确定单元的一例;图8示意性示出了依照本专利技术的信息检索系统的又一实施例;图9示意性示出了依照本专利技术的计算机系统的一实施例。具体实施方式第一实施例图1示出了本专利技术的信息检索系统的一个实施例。图2示出了依照本专利技术的信息检索系统所实施的关键词分级流程的一实施例。图3示出了依照本专利技术的信息检索系统所实施的分类号分级流程的一实施例。图4示出了依照本专利技术的信息检索系统中的检索式构建单元所实施的检索式构建流程的一实施例。下面,结合图1-4来进行相应说明。如图1所示,该信息检索系统包括输入装置101、数据检索装置201和信息数据库301。其中,上述输入装置101接收用户输入的信息,该输入信息例如是某个特定专利号。信息数据库301中预先存储了一批技术文件信息,该技术文件信息包括但不限于各国专利公报、专利公告、技术公报、特定标准、核心期刊文件等。如图1所示,本专利技术的数据检索装置包括接收单元202、专利信息获取单元203、高优先级词获取单元204、语义分词单元205、过滤单元206、比较单元207、分类号获取单元208、检索式构建单元209、同义词库211和检索结果存储单元210。图1中,高优先级词获取单元204、语义分词单元205和过滤单元206构成了该数据检索装置的关键词获取单元213。语义分词单元205和过滤单元206构成了语义词语获取单元212。如图2所示,在步骤S2本文档来自技高网
...

【技术保护点】
一种信息检索装置,其特征在于,包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应的专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取的关键词分为多个优先级;分类号获取单元,从上述特定专利号对应的专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和/或分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定的阈值条件的检索式。

【技术特征摘要】
1.一种信息检索装置,其特征在于,包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应的专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取的关键词分为多个优先级;分类号获取单元,从上述特定专利号对应的专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和/或分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定的阈值条件的检索式。2.根据权利要求1所述的信息检索装置,其特征在于:检索式构建单元参考关键词的同义词库来进行检索式构建。3.根据权利要求1所述的信息检索装置,其特征在于:关键词获取单元包括高优先级词获取单元和语义词语获取单元;其中高优先级词获取单元从上述特定专利的人工处理数据中获取高优先级词;语义词语获取单元根据语义从专利信息中进行分词,从而获取语义关键词。4.根据权利要求3所述的信息检索装置,其特征在于:语义词语获取单元包括语义分词单元和过滤单元,其中过滤单元从专利信息的语义分词结果中去除屏蔽词和单字。5.根据权利要求1所述的信息检索装置,其特征在于:分类号获取单元根据所获得的分类号是否是人工处理的分类号、该分类号是否为主分类号、预定分类体系的类型中的一个或多个,而将所获取的分类号分为多个优先级。6.根据权利要求1所述的信息检索装置,其特征在于:其中预定的阈值条件是检索结果大于等于第四阈值且小于等于第五阈值。7.根据权利要求6所述的信息检索装置,其特征在于:上述第四阈值和第五阈值是动态可变的。8.根据权利要求7所述的信息检索装置,其特征在于:该信息检索装置进一步包括动态阈值确定单元,用来调整上述第四和第五阈值。9.根据权利要求8所述的信息检索装置,其特征在于:上述关键词获取单元包括语义词语获取单元,从专利信息中进行分词,并从分词结果中去除屏蔽词和单字,从而获得语义关键词;上述动态阈值确定单元包括第二检索式构建单元和数据偏移单元,其中,该第二检索式构建单元,获取语义词语获取单元获得的语义关键词和分类号获取单元提取的多个分类号,来构建检索式进行检索,并获得检索命中量;数据偏移单元,将检索命中量正负偏移一预定量,并将正向偏移的量值作为第五阈值,将负向偏移的量值作为第四阈值。10.根据权利要求6所述的信息检索装置,其特征在于:检索式构建单元,在构建检索式时,相同或不同等级的关键词之间是逻辑与的关系,相同或不同等级的分类号之间是逻辑或的关系,且关键词和分类号之间是逻辑与的关系。11.根据权利要求10所述的信息检索装置,其特征在于:检索式构建单元在检索结果小于第四阈值时,按优先级顺序添加低优先级的分类号来构建检索式,直到检索结果满足预定的阈值条件或不存在可进一步添加的分类号;在检索结果大于第五阈值时,按优先级顺序依次添加低优先级的关键词来构建检索式,直到检索结果满足预定的阈值条件或不存在可进一步添加的关键词。12.根据权利要求6所述的信息检索装置,其特征在于:检索式构建单元,按第一检索式构建准则或第二检索式构建准则来构建检索式,其中,在第一检索式构建准则中,相同或不同等级的分类号之间进行逻辑或操作,相同等级的关键词之间进行逻辑与操作,不同等级的关键词之间进行逻辑或操作,且关键词和分类号之间进行逻辑与操作;在第二检索式构建准则中,相同或不同等级的分类号之间进行逻辑或操作,相同或不同等级的关键词之间进行逻辑与操作,且关键词和分类号之间进行逻辑与操作。13.根据权利要求12所述的信息检索装置,其特征在于:检索式构建单元在检索结果小于第四阈值时,按第一检索式构建准则构建检索式;在检索结果大于第五阈值时,按第二检索式构建准则构建检索式。14.根据权利要求12所述的信息检索装置,其特征在于:检索式构建单元在构建检索式时,最先使用优先级最高的关键词和优先级最高的分类号来构建检索式,并判断检索结果是否满足预定的阈值条件。15.根据权利要求13所述的信息检索装置,其特征在于:检索式构建单元包括第一单元,该第一单元在优先级最高的关键词和优先级最高的分类号按第一检索式构建准则来构建检索式后,由第二比较单元判断为检索结果小于第四阈值时工作,第一单元先按优先级顺序依次添加不同等级的关键词,并将所添加的关键词与优先级最高的分类号按第一检索式构建准则来构建检索式,再按优先级顺序依次添加不同等级的分类号,按第一检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;第二单元,当第一单元中添加特定等级的关键词或分类号后,由第二比较单元判断为检索结果大于第五阈值时工作,第二单元根据添加上述特定等级的关键词或分类号后,检索结果大于第五阈值之前所构建的检索式,保持上述检索式中的关键词不变,而按优先级顺序依次添加更低等级的分类号,并按第一检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;第三单元,在第一单元中添加所有等级的关键词和分类号后或第二单元中添加所有等级的分类号后,由第二比较单元比较后判断为检索结果仍小于第四阈值时工作,第三单元按优先级从低到高的顺序,在同一等级的多个关键词中,按从后到前的顺序依次删除关键词直到该等级仅剩下预定个数的关键词,之后按第一检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;检索式获取单元,获取检索式,其中,当第二比较单元判断为检索结果满足上述阈值条件时,即获取满足检索结果的检索式;当第三单元删除所有等级的关键词后所构建的检索式的检索结果仍小于第四阈值时,获取最终构建的检索式;当第三单元删除特定等级的关键词后所构建的检索式的检索结果大于第五阈值时,获取删除特定等级的关键词后,检索结果大于第五阈值之前所构建的检索式。16.根据权利要求13所述的信息检索装置,其特征在于:检索式构建单元包括第四单元,该第四单元在优先级最高的关键词和优先级最高的分类号按第一检索式构建准则来构建检索式后,在由第二比较单元判断为其检索结果大于第五阈值时工作,第四单元按分类号从后到前的顺序依次删除优先级最高的分类号中的一个,直到该等级仅剩下预定个数的分类号,关键词保持不变,按第二检索式构建准则来构建检索式,直到由第二比较单元比较后判断为检索结果满足上述阈值条件;第五单元,当第四单元中删除特定分类号后,由第二比较单元比较后判断为检索结果小于第四阈值时工作,其中该第五单元根据删除特定分类号后,检索结果小于第四阈值之前的检索式,保持上述检索式中的分类号不变,并按优先级顺序依次添加更低等级的关键词,并按第二检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;第六单元,当第四单元中删除到仅剩下预定个数的分类号来构建检索式后,由第二比较单元比较后判断为检索结果仍大于第五阈值时,该第六单元工作,其中该第六单元根据上述检索式,保持上述检索式中的分类号不变,按优先级从高到低的顺序,在同一等级的多个关键词中,按从前到后的顺序依次添加关键词,并按第二检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;检索式获取单元,获取检索式,其中,当第二比较单元判断为检索结果满足上述阈值条件时,即获取满足检索结果的检索式;当第六单元添加所有等级的关键词后所构建的检索式的检索结果由第二比较单元判断为仍大于第五阈值时,获取最终构建的检索式;当第五单元添加特定等级的关键词后所构建的检索式的检索结果由第二比较单元判断为小于第四阈值时,获取添加特定等级的关键词后,检索结果小于第四阈值之前所构建的检索式。17.根据权利要求1或9或11或15或16所述的信息检索装置,其特征在于:该信息检索装置进一步包括相似度计算单元,计算检索结果中的每个文件与用户输入的特定专利的相似度,该检索结果是由检索式构建单元构建的检索式检索后的结果;排序单元,根据相似度对上述检索结果中的每个文件进行排序。18.根据权利要求17所述的信息检索装置,其特征在于:当第三单元删除所有等级的关键词后所构建的检索式的检索结果由第二比较单元判断为仍小于第四阈值时,获取由第二检索式构建单元构建的检索式得到的检索结果;由上述相似度计算单元对第二检索式构建单元构建的检索式得到的检索结果中的每个文件进行相似度计算;按相似度从高到低的顺序对检索式构建单元构建的检索式的检索结果中的文件进行补充,并进行文件去重,使得补充后的文件数量等于第四阈值。19.根据权利要求17所述的信息检索装置,其特征在于:当第六单元添加所有等级的关键词后所构建的检索式的检索结果由第二比较单元判断为仍大于第五阈值时,按上述相似度计算单元算出的相似度从小到大的顺序依次删除由检索式构建单元构建的检索式的检索结果中的文件,直到文件数量等于第五阈值。20.一种计算机系统,其特征在于,包括:输入装置,由用户输入特定的专利号;存储器,其中存储了同义词库和预定的计算机指令;处理器,其从存储器中读取相应的计算机指令和同义词,从而使该计算机系统接收用户输入的特定专利号;从上述特定专利号对应的专利信息中自动抽取关键词;按照关...

【专利技术属性】
技术研发人员:朱欣昱崔国振程序孔文娟谢虹霞张素兰赵亮
申请(专利权)人:知识产权出版社有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1