一种用于内容标引的数据处理方法及装置制造方法及图纸

技术编号:20075129 阅读:28 留言:0更新日期:2019-01-15 00:39
本申请公开了一种用于内容标引的数据处理方法及装置。该用于内容标引的数据处理方法括判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。本申请解决了文献检索特别是论文检索中存在的歧义问题。

A Data Processing Method and Device for Content Indexing

This application discloses a data processing method and device for content indexing. The data processing method for content indexing includes judging whether the content data obtained from different data sources are identical, in which the content data includes at least periodical metadata or article metadata; if it is judged that the content data obtained from the different data sources are identical, preset disambiguation processing is performed on the content data; and disambiguation is performed according to the preset. Processing results generate content indexing. This application solves the ambiguity problem in document retrieval, especially in paper retrieval.

【技术实现步骤摘要】
一种用于内容标引的数据处理方法及装置
本申请涉及文献处理领域,具体而言,涉及一种用于内容标引的数据处理方法及装置。
技术介绍
科研工作者在科研过程中需要阅读大量前人已经发表的论文,为了对论文进行定位、访问以及对论文的元数据进行管理,国际标准化组织在2012年5月10日通过了国际DOI基金会的《信息文档数字标识符系统标准》,即ISO26324标准。尽管DOI标准是广泛使用的国际标准,通过DOI编码可以搜索到唯一的论文,但是存在搜索结果的歧义问题,例如,西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》的一文,在知网(CNKI)搜索得到的DOI编码为10.13240/j.cnki.caujsse.2008.03.017,而在万方数据搜索得到的DOI编码是10.3969/j.issn.1009-508X.2008.03.001。这两个DOI编码在国际DOI基金会查询均可以得到下载地址,但是属于同一篇文章。专利技术人发现目前造成文献检索中歧义问题的原因有三:1)期刊社不注册不使用DOI服务,由第三方机构自行进行DOI编码,第三方机构在编码时没有录入期刊的元数据,而元数据是促进DOI服务多样化的必须要素,是有效管理数字权益的基础;2)期刊社虽然使用DOI服务,但是同时委托多家第三方机构而不是一家第三方机构独家进行DOI编码;3)第三方机构的DOI编码中的REG代码不同,必然会造成数据重复,产生歧义。针对相关技术中文献检索特别是论文检索中存在的歧义问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种用于内容标引的数据处理方法及装置,以解决文献检索特别是论文检索中存在的歧义问题。为了实现上述目的,根据本申请的一个方面,提供了一种用于内容标引的数据处理方法。根据本申请的用于内容标引的数据处理方法包括:判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。进一步地,判断从不同数据源获得的内容数据是否相同包括:判断所述期刊元数据是否相同;如果所述期刊元数据相同,则判断所述文章元数据是否相同;如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。进一步地,在所述判断从不同数据源获得的内容数据是否相同之前还包括:判断从相同数据源获得的内容数据的期刊元数据是否相同;如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。进一步地,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理包括如下任一一种方式:如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。进一步地,根据所述预设消除歧义处理结果生成内容标引包括:检测文章元数据是否包含DOI编码;如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;如果检测文章元数据不包含DOI编码,则生成文章Handle编码。为了实现上述目的,根据本申请的另一方面,提供了一种用于内容标引的数据处理装置。根据本申请的用于内容标引的数据处理装置包括:判断模块,用于判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;消除歧义处理模块,用于如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及生成模块,用于根据所述预设消除歧义处理结果生成内容标引。进一步的,所述判断模块包括:第一判断单元,用于判断所述期刊元数据是否相同;第二判断单元,用于如果所述期刊元数据相同,则判断所述文章元数据是否相同;第三判断单元,用于如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。进一步的,所述数据处理装置还包括:期刊元数据判断模块,用于判断从相同数据源获得的内容数据的期刊元数据是否相同;文章元数据判断模块,用于如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。进一步的,所述消除歧义处理模块包括如下任一单元:第一消除歧义处理单元,用于如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;第二消除歧义处理单元,用于如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。进一步的,所述生成模块包括:检测单元,用于检测文章元数据是否包含DOI编码;列表Handle编码单元,用于如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;文章Handle编码单元,用于如果检测文章元数据不包含DOI编码,则生成文章Handle编码。在本申请实施例中,采用判断从不同数据源获得的内容数据是否相同的方式,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理并根据所述预设消除歧义处理结果生成内容标引,达到了对不同数据源的具有歧义问题的文章进行消除歧义处理的目的,从而实现了对论文文章或其他科研数据的歧义消除的技术效果,进而解决了由于一篇文章对应多个DOI编码或文章无DOI编码时存在的文章检索歧义的技术问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请第一实施例的用于内容标引的数据处理方法示意图;图2是根据本申请第二实施例的用于内容标引的数据处理方法示意图;图3是根据本申请第三实施例的用于内容标引的数据处理方法示意图;图4是根据本申请第四实施例的用于内容标引的数据处理方法示意图;图5是根据本申请第五实施例的用于内容标引的数据处理方法示意图;图6是根据本申请第一实施例的用于内容标引的数据处理装置示意图;图7是根据本申请第二实施例的用于内容标引的数据处理装置示意图;图8是根据本申请第三实施例的用于内容标引的数据处理装置示意图;图9是根据本申请第四实施例的用于内容标引的数据处理装置示意图;图10是根据本申请第五实施例的用于内容标引的数据处理装置示意图;图11是根据本申请第六实施例的用于内容标引的数据处理方法示意图;图12是根据本申请第七实施例的用于内容标引的数据处理方法示意图;图13是根据本申请实施例的文章Handle编码示意图;以及图14是根据本申请实施例的列表Handle编码示意图。具体实施方式本文档来自技高网...

【技术保护点】
1.一种用于内容标引的数据处理方法,其特征在于,包括:判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。

【技术特征摘要】
1.一种用于内容标引的数据处理方法,其特征在于,包括:判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。2.根据权利要求1所述的数据处理方法,其特征在于,判断从不同数据源获得的内容数据是否相同包括:判断所述期刊元数据是否相同;如果所述期刊元数据相同,则判断所述文章元数据是否相同;如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。3.根据权利要求1所述的数据处理方法,其特征在于,在所述判断从不同数据源获得的内容数据是否相同之前还包括:判断从相同数据源获得的内容数据的期刊元数据是否相同;如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。4.根据权利要求1所述的数据处理方法,其特征在于,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理包括如下任一一种方式:如果从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。5.根据权利要求1所述的数据处理方法,其特征在于,根据所述预设消除歧义处理结果生成内容标引包括:检测文章元数据是否包含DOI编码;如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;如果检测文章元数据不包含DOI编码,则生成文章Handle编码。6.一种用于内容标引的数据处理装置,其特征在于,包括:判断模块,用...

【专利技术属性】
技术研发人员:曹祺杨志伟丁小罗
申请(专利权)人:南京快文信息科技有限公司灰觋集团有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利