文献搜索方法和装置制造方法及图纸

技术编号:16038140 阅读:31 留言:0更新日期:2017-08-19 19:58
本发明专利技术公开了一种文献搜索方法和装置,其中,方法包括以下步骤:接收用户输入的查询语句;判断查询语句中是否包含数字对象唯一标识符DOI;如果包含DOI,则提取DOI,并根据DOI获取包含DOI的具有单篇标记的文献;以特型样式展现文献。该方法通过文献的DOI获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。

【技术实现步骤摘要】
文献搜索方法和装置
本专利技术涉及计算机应用
,尤其涉及一种文献搜索方法和装置。
技术介绍
科研人员在进行科学研究时,通常需要查找相关领域的科研文献来进行参考。目前,科研人员在查找科研文献时,主要通过输入文献的标题或DOI(DigitalObjectUniqueIdentifier,数字对象唯一标识符)进行查询。但是,由于文献数量众多,因此很难对需求的科研文献进行精确定位。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种文献搜索方法,该方法通过文献的DOI获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。本专利技术的第二个目的在于提出一种文献搜索装置。为了实现上述目的,本专利技术第一方面实施例提出了一种文献搜索方法,包括:接收用户输入的查询语句;判断查询语句中是否包含数字对象唯一标识符DOI;如果包含DOI,则提取DOI,并根据DOI获取包含DOI的具有单篇标记的文献;以特型样式展现文献。本专利技术实施例的文献搜索方法,通过文献的DOI获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。为达上述目的,本专利技术第二方面实施例提出了一种文献搜索装置,包括:接收模块,用于接收用户输入的查询语句;判断模块,用于判断查询语句中是否包含数字对象唯一标识符DOI;提取模块,用于如果包含DOI,则提取DOI,并根据DOI获取包含DOI的具有单篇标记的文献;展现模块,用于以特型样式展现文献。本专利技术实施例的文献搜索装置,通过文献的DOI获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1是在现有搜索引擎中输入DOI查找文献的效果示意图;图2是根据本专利技术一个实施例的文献搜索方法的流程图;图3是根据本专利技术一个实施例的建立DOI倒排索引数据库的流程图;图4是根据本专利技术一个实施例的特型样式展现文献的效果示意图;图5是根据本专利技术一个具体实施例的文献搜索方法的流程图;图6是根据本专利技术一个实施例的文献搜索装置的结构示意图;图7是根据本专利技术一个具体实施例的文献搜索装置的结构示意图;图8是根据本专利技术另一个具体实施例的文献搜索装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。科研工作者通常在查找科研文献时,需要精确查找到某篇具体的文献。目前,主要通过在搜索引擎中输入标题精确查找文献。但是由于科研人员众多,标题相同的文献也较多,通过标题很难对要查找的文献进行精确定位。因而,可以通过能够表示文献唯一性的DOI查找文献。但是,在现有的搜索引擎中输入包含文献的DOI的查询语句,无法精确查找到对应的文献,即现有的搜索引擎不支持DOI检索。如图1所示,在360学术搜索引擎中输入DOI“10.1016/0735-1097(96)82380-1”后,点击“搜索一下”,在搜索结果列表中有两篇文献,未能精确定位DOI为“10.1016/0735-1097(96)82380-1”的文献,并且从搜索结果列表中不能获取文献的详细信息,如摘要、网络来源等。下面参考附图描述本专利技术实施例的文献搜索方法和装置。图2是根据本专利技术一个实施例的文献搜索方法的流程图。如图2所示,该文献搜索方法包括:S201,接收用户输入的查询语句。例如,某科研人员在搜索引擎中输入查询语句查找文献,从而搜索引擎接收用户输入的查询语句。S202,判断查询语句中是否包含DOI。具体地,在获取用户输入的查询语句后,判断查询语句中是否包含DOI。其中,DOI是表明文献唯一性的标识符。例如,在接收到用户输入的查询语句“DOI:10.1056/NEJMoa062462论文”后,判断查询语句“DOI:10.1056/NEJMoa062462论文”中是否包含DOI。S203,如果包含DOI,则提取DOI,并根据DOI获取包含DOI的具有单篇标记的文献。具体地,如果查询语句中包含DOI,则去掉查询语句中除DOI以外的其他字符,以提取DOI,并根据提取的DOI获取包含该DOI的具有单篇标记的文献。更具体地,在提取查询语句中包含的DOI后,将提取的DOI与DOI倒排索引数据库中的数据进行相关性计算,从而从DOI倒排索引数据库中获取所有包含提取的DOI的待选文献。其中,待选文献可包括包含该DOI的参考文献,或者题录信息中包含该DOI的文献等。由于待选文献中可能包含参考文献,因此在获取待选文献后,提取待选文献的题录信息中的DOI号,将提取的待选文献的题录信息中的DOI号与查询语句中的DOI进行匹配。对与查询语句中包含的DOI匹配一致的待选文献进行单篇标记,也就是说,将待选文献中文献的DOI号与查询语句中的DOI一致的文献进行单篇标记,并可通过DOI倒排索引数据库获取具有单篇标记的文献。具体示例如下:用户输入查询语句“DOI:10.1056/NEJMoa062462论文”,搜索引擎接收到查询语句后,经过判断获知查询语句中包含DOI。通过判断获知查询语句“DOI:10.1056/NEJMoa062462论文”中包含DOI后,去掉查询语句中除DOI以外的字符“DOI:”和“论文”,提取DOI为:10.1056/NEJMoa062462。在提取DOI后,将提取的DOI与DOI倒排索引数据库中的数据进行相关性计算,从而从DOI倒排索引数据库中获取包含该DOI的待选文献。获取待选文献后,提取待选文献的题录信息中的DOI号,将待选文献的题录信息中的DOI号与“10.1056/NEJMoa062462”进行匹配。如果某待选文献的题录信息中的DOI号与“10.1056/NEJMoa062462”匹配一致,则对该待选文献进行单篇标记,并从DOI倒排索引数据库中获取具有单篇标记的文献。此外,在根据查询语句中的DOI查询DOI倒排索引数据库,以获取包含DOI的待选文献之前,可预先建立DOI倒排索引数据库。建立DOI倒排索引数据库的具体步骤,如图3所示,可包括:S301,获取网络中的文献样本。具体地,从网络或者文献数据库,如知网、万方等文献数据库中,获取文献样本。S302,提取文献样本中的结构化数据。在获取文献样本后,可利用机器学习模型、OCR(OpticalCharacterRecognition,光学字符识别)技术、最大熵模型等,从文献样本中提取结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、DOI号、参考文献等等。S303,根据结构化数据建立DOI倒排索引数据库。根据提取的结构化数据,利用倒排索引技术,建立文献DOI与对应文献的对应关系,从而得到DOI倒排索引数据库。S204,以特型样式展现文献。具体地,根据查询语句中的DOI获取具有单篇标记的文献即目标文献后,可提取单篇标记的文献的结构化数据,如标题、作者、期刊、本文档来自技高网...
文献搜索方法和装置

【技术保护点】
一种文献搜索方法,其特征在于,包括:接收用户输入的查询语句;判断所述查询语句中是否包含数字对象唯一标识符DOI;如果包含所述DOI,则提取所述DOI,并根据所述DOI获取包含所述DOI的具有单篇标记的文献;以特型样式展现所述文献。

【技术特征摘要】
1.一种文献搜索方法,其特征在于,包括:接收用户输入的查询语句;判断所述查询语句中是否包含数字对象唯一标识符DOI;如果包含所述DOI,则提取所述DOI,并根据所述DOI获取包含所述DOI的具有单篇标记的文献;以特型样式展现所述文献。2.如权利要求1所述的方法,其特征在于,根据所述DOI获取包含所述DOI的具有单篇标记的文献,包括:根据所述DOI查询DOI倒排索引数据库,以获取包含所述DOI的待选文献;将所述待选文献的题录信息中的DOI号与所述DOI进行匹配;对与所述DOI匹配一致的待选文献进行单篇标记,并获取所述具有单篇标记的文献。3.如权利要求2所述的方法,其特征在于,在根据所述DOI查询DOI倒排索引数据库,以获取包含所述DOI的待选文献之前,还包括:预先建立所述DOI倒排索引数据库。4.如权利要求3所述的方法,其特征在于,预先建立所述DOI倒排索引数据库,包括:获取网络中的文献样本;提取所述文献样本中的结构化数据;根据所述结构化数据建立所述DOI倒排索引数据库。5.如权利要求4所述的方法,其特征在于,提取所述文献样本中的结构化数据,包括:利用机器学习模型、OCR技术、最大熵模型中的至少一种提取所述文献样本中的结构化数据。6.如权利要求4所述的方法,其特征在于,所述结构化数据包括标题、作者、期刊、年份、期号、卷号、网络来源、DOI号、参考文献中的一种或多种。7.如权利要求1所述的方法,其特征在于,以特型样式展现所述文献,包括:调用特型样式模板展现所述文献;或者提取所述文献的结构化信息,并将所述结构化信息插入至展现页面预设位置进行展现。8.一种文献搜索装置,其...

【专利技术属性】
技术研发人员:张显卢家广李玉鹏徐学睿
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1