The invention discloses an information retrieval method and apparatus, comprises a receiving unit, a specific patent number to receive user input; keywords acquisition unit from the specific patent number corresponding to patent information automatic extraction of keywords; compare unit, according to the degree of correlation between the specific keywords and patent, the extracted keywords are divided into a plurality of priority; classification number acquisition unit, extraction from the specific patent classification number corresponding patent information, and a classification number extracted is divided into a plurality of priority; construction unit will search, keyword and classification number according to the priority from high to low build retrieval type and construct the retrieval results until satisfied retrieval type a predetermined threshold condition. Keywords automatic extraction and classification, and priority classification according to the relevant degree of keyword extraction and classification, according to keyword and classification number priority order to construct the retrieval, can be more accurate and efficient automatic retrieval retrieval of patent information with similar themes and expectations.
【技术实现步骤摘要】
本专利技术涉及一种信息检索装置及方法,尤其涉及一种对技术信息,例如专利信息进行检索的装置和方法。
技术介绍
技术信息,尤其是专利信息对于企业或科研院所的发展是不可或缺的重要资源。例如在企业或科研院所进行研发或投资前,可以全面了解特定
的现有技术水平,确定正确的研究方向,避免重复开发,节省时间和科研经费。但最近几年来,专利信息增长迅猛,全世界每年出版的专利文件在百万件以上;而现有的专利检索通常是在专利数据库内进行,其方法是先根据待查询的主题,根据检索者的经验输入相关的关键词及其同义词或相应的分类号,构建检索式,并通过人工审阅的方式对检索式进行重复调整,从而获得所需的数据,随着专利数据量的爆炸式增长,上述人工检索相关信息的方式变得越来越费时费力,尤其对于不熟悉数据库结构和数据库检索式构建的技术人员来说,迅速准确找到自己所需信息变得越来越困难。因此,需要提供一种自动检索出与期望检索的主题相似的专利信息的装置和方法。专利文献1(公开号:JP2005-234868A)公开了一种类似申请说明书检索系统,该系统可以通过从待查专利说明书中抽出的关键词,从数据中存储的多个专利说明书中,检索出类似的专利说明书,该系统包括检索语言抽出部,抽出在待查专利权利要求中记载的语言,并作为检索语言输出;概念说明书文字抽出部,抽出描述了作为检索语言的专利技术理论基础的概念的概念说明文字;关联语言抽出部,抽出概念说明文字中记载的语言,并作为关联语言输出;文件检索部,通过检索语言和关联语言,从数据库中检索出类似的专利说明书。虽然专利文献1可以自动地不借助于人工地检索出与类似申请,但是由 ...
【技术保护点】
一种信息检索装置,其特征在于,包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应的专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取的关键词分为多个优先级;分类号获取单元,从上述特定专利号对应的专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和/或分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定的阈值条件的检索式。
【技术特征摘要】
1.一种信息检索装置,其特征在于,包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应的专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取的关键词分为多个优先级;分类号获取单元,从上述特定专利号对应的专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和/或分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定的阈值条件的检索式。2.根据权利要求1所述的信息检索装置,其特征在于:检索式构建单元参考关键词的同义词库来进行检索式构建。3.根据权利要求1所述的信息检索装置,其特征在于:关键词获取单元包括高优先级词获取单元和语义词语获取单元;其中高优先级词获取单元从上述特定专利的人工处理数据中获取高优先级词;语义词语获取单元根据语义从专利信息中进行分词,从而获取语义关键词。4.根据权利要求3所述的信息检索装置,其特征在于:语义词语获取单元包括语义分词单元和过滤单元,其中过滤单元从专利信息的语义分词结果中去除屏蔽词和单字。5.根据权利要求1所述的信息检索装置,其特征在于:分类号获取单元根据所获得的分类号是否是人工处理的分类号、该分类号是否为主分类号、预定分类体系的类型中的一个或多个,而将所获取的分类号分为多个优先级。6.根据权利要求1所述的信息检索装置,其特征在于:其中预定的阈值条件是检索结果大于等于第四阈值且小于等于第五阈值。7.根据权利要求6所述的信息检索装置,其特征在于:上述第四阈值和第五阈值是动态可变的。8.根据权利要求7所述的信息检索装置,其特征在于:该信息检索装置进一步包括动态阈值确定单元,用来调整上述第四和第五阈值。9.根据权利要求8所述的信息检索装置,其特征在于:上述关键词获取单元包括语义词语获取单元,从专利信息中进行分词,并从分词结果中去除屏蔽词和单字,从而获得语义关键词;上述动态阈值确定单元包括第二检索式构建单元和数据偏移单元,其中,该第二检索式构建单元,获取语义词语获取单元获得的语义关键词和分类号获取单元提取的多个分类号,来构建检索式进行检索,并获得检索命中量;数据偏移单元,将检索命中量正负偏移一预定量,并将正向偏移的量值作为第五阈值,将负向偏移的量值作为第四阈值。10.根据权利要求6所述的信息检索装置,其特征在于:检索式构建单元,在构建检索式时,相同或不同等级的关键词之间是逻辑与的关系,相同或不同等级的分类号之间是逻辑或的关系,且关键词和分类号之间是逻辑与的关系。11.根据权利要求10所述的信息检索装置,其特征在于:检索式构建单元在检索结果小于第四阈值时,按优先级顺序添加低优先级的分类号来构建检索式,直到检索结果满足预定的阈值条件或不存在可进一步添加的分类号;在检索结果大于第五阈值时,按优先级顺序依次添加低优先级的关键词来构建检索式,直到检索结果满足预定的阈值条件或不存在可进一步添加的关键词。12.根据权利要求6所述的信息检索装置,其特征在于:检索式构建单元,按第一检索式构建准则或第二检索式构建准则来构建检索式,其中,在第一检索式构建准则中,相同或不同等级的分类号之间进行逻辑或操作,相同等级的关键词之间进行逻辑与操作,不同等级的关键词之间进行逻辑或操作,且关键词和分类号之间进行逻辑与操作;在第二检索式构建准则中,相同或不同等级的分类号之间进行逻辑或操作,相同或不同等级的关键词之间进行逻辑与操作,且关键词和分类号之间进行逻辑与操作。13.根据权利要求12所述的信息检索装置,其特征在于:检索式构建单元在检索结果小于第四阈值时,按第一检索式构建准则构建检索式;在检索结果大于第五阈值时,按第二检索式构建准则构建检索式。14.根据权利要求12所述的信息检索装置,其特征在于:检索式构建单元在构建检索式时,最先使用优先级最高的关键词和优先级最高的分类号来构建检索式,并判断检索结果是否满足预定的阈值条件。15.根据权利要求13所述的信息检索装置,其特征在于:检索式构建单元包括第一单元,该第一单元在优先级最高的关键词和优先级最高的分类号按第一检索式构建准则来构建检索式后,由第二比较单元判断为检索结果小于第四阈值时工作,第一单元先按优先级顺序依次添加不同等级的关键词,并将所添加的关键词与优先级最高的分类号按第一检索式构建准则来构建检索式,再按优先级顺序依次添加不同等级的分类号,按第一检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;第二单元,当第一单元中添加特定等级的关键词或分类号后,由第二比较单元判断为检索结果大于第五阈值时工作,第二单元根据添加上述特定等级的关键词或分类号后,检索结果大于第五阈值之前所构建的检索式,保持上述检索式中的关键词不变,而按优先级顺序依次添加更低等级的分类号,并按第一检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;第三单元,在第一单元中添加所有等级的关键词和分类号后或第二单元中添加所有等级的分类号后,由第二比较单元比较后判断为检索结果仍小于第四阈值时工作,第三单元按优先级从低到高的顺序,在同一等级的多个关键词中,按从后到前的顺序依次删除关键词直到该等级仅剩下预定个数的关键词,之后按第一检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;检索式获取单元,获取检索式,其中,当第二比较单元判断为检索结果满足上述阈值条件时,即获取满足检索结果的检索式;当第三单元删除所有等级的关键词后所构建的检索式的检索结果仍小于第四阈值时,获取最终构建的检索式;当第三单元删除特定等级的关键词后所构建的检索式的检索结果大于第五阈值时,获取删除特定等级的关键词后,检索结果大于第五阈值之前所构建的检索式。16.根据权利要求13所述的信息检索装置,其特征在于:检索式构建单元包括第四单元,该第四单元在优先级最高的关键词和优先级最高的分类号按第一检索式构建准则来构建检索式后,在由第二比较单元判断为其检索结果大于第五阈值时工作,第四单元按分类号从后到前的顺序依次删除优先级最高的分类号中的一个,直到该等级仅剩下预定个数的分类号,关键词保持不变,按第二检索式构建准则来构建检索式,直到由第二比较单元比较后判断为检索结果满足上述阈值条件;第五单元,当第四单元中删除特定分类号后,由第二比较单元比较后判断为检索结果小于第四阈值时工作,其中该第五单元根据删除特定分类号后,检索结果小于第四阈值之前的检索式,保持上述检索式中的分类号不变,并按优先级顺序依次添加更低等级的关键词,并按第二检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;第六单元,当第四单元中删除到仅剩下预定个数的分类号来构建检索式后,由第二比较单元比较后判断为检索结果仍大于第五阈值时,该第六单元工作,其中该第六单元根据上述检索式,保持上述检索式中的分类号不变,按优先级从高到低的顺序,在同一等级的多个关键词中,按从前到后的顺序依次添加关键词,并按第二检索式构建准则来构建检索式,直到第二比较单元判断为检索结果满足上述阈值条件;检索式获取单元,获取检索式,其中,当第二比较单元判断为检索结果满足上述阈值条件时,即获取满足检索结果的检索式;当第六单元添加所有等级的关键词后所构建的检索式的检索结果由第二比较单元判断为仍大于第五阈值时,获取最终构建的检索式;当第五单元添加特定等级的关键词后所构建的检索式的检索结果由第二比较单元判断为小于第四阈值时,获取添加特定等级的关键词后,检索结果小于第四阈值之前所构建的检索式。17.根据权利要求1或9或11或15或16所述的信息检索装置,其特征在于:该信息检索装置进一步包括相似度计算单元,计算检索结果中的每个文件与用户输入的特定专利的相似度,该检索结果是由检索式构建单元构建的检索式检索后的结果;排序单元,根据相似度对上述检索结果中的每个文件进行排序。18.根据权利要求17所述的信息检索装置,其特征在于:当第三单元删除所有等级的关键词后所构建的检索式的检索结果由第二比较单元判断为仍小于第四阈值时,获取由第二检索式构建单元构建的检索式得到的检索结果;由上述相似度计算单元对第二检索式构建单元构建的检索式得到的检索结果中的每个文件进行相似度计算;按相似度从高到低的顺序对检索式构建单元构建的检索式的检索结果中的文件进行补充,并进行文件去重,使得补充后的文件数量等于第四阈值。19.根据权利要求17所述的信息检索装置,其特征在于:当第六单元添加所有等级的关键词后所构建的检索式的检索结果由第二比较单元判断为仍大于第五阈值时,按上述相似度计算单元算出的相似度从小到大的顺序依次删除由检索式构建单元构建的检索式的检索结果中的文件,直到文件数量等于第五阈值。20.一种计算机系统,其特征在于,包括:输入装置,由用户输入特定的专利号;存储器,其中存储了同义词库和预定的计算机指令;处理器,其从存储器中读取相应的计算机指令和同义词,从而使该计算机系统接收用户输入的特定专利号;从上述特定专利号对应的专利信息中自动抽取关键词;按照关...
【专利技术属性】
技术研发人员:朱欣昱,崔国振,程序,孔文娟,谢虹霞,张素兰,赵亮,
申请(专利权)人:知识产权出版社有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。