This application discloses a data processing method and device for content indexing. The data processing method for content indexing includes judging whether the content data obtained from different data sources are identical, in which the content data includes at least periodical metadata or article metadata; if it is judged that the content data obtained from the different data sources are identical, preset disambiguation processing is performed on the content data; and disambiguation is performed according to the preset. Processing results generate content indexing. This application solves the ambiguity problem in document retrieval, especially in paper retrieval.
【技术实现步骤摘要】
一种用于内容标引的数据处理方法及装置
本申请涉及文献处理领域,具体而言,涉及一种用于内容标引的数据处理方法及装置。
技术介绍
科研工作者在科研过程中需要阅读大量前人已经发表的论文,为了对论文进行定位、访问以及对论文的元数据进行管理,国际标准化组织在2012年5月10日通过了国际DOI基金会的《信息文档数字标识符系统标准》,即ISO26324标准。尽管DOI标准是广泛使用的国际标准,通过DOI编码可以搜索到唯一的论文,但是存在搜索结果的歧义问题,例如,西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》的一文,在知网(CNKI)搜索得到的DOI编码为10.13240/j.cnki.caujsse.2008.03.017,而在万方数据搜索得到的DOI编码是10.3969/j.issn.1009-508X.2008.03.001。这两个DOI编码在国际DOI基金会查询均可以得到下载地址,但是属于同一篇文章。专利技术人发现目前造成文献检索中歧义问题的原因有三:1)期刊社不注册不使用DOI服务,由第三方机构自行进行DOI编码,第三方机构在编码时没有录入期刊的元数据,而元数据是促进DOI服务多样化的必须要素,是有效管理数字权益的基础;2)期刊社虽然使用DOI服务,但是同时委托多家第三方机构而不是一家第三方机构独家进行DOI编码;3)第三方机构的DOI编码中的REG代码不同,必然会造成数据重复,产生歧义。针对相关技术中文献检索特别是论文检索中存在的歧义问题,目前尚未提出有效的解决方案。
技术实现思路
...
【技术保护点】
1.一种用于内容标引的数据处理方法,其特征在于,包括:判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。
【技术特征摘要】
1.一种用于内容标引的数据处理方法,其特征在于,包括:判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。2.根据权利要求1所述的数据处理方法,其特征在于,判断从不同数据源获得的内容数据是否相同包括:判断所述期刊元数据是否相同;如果所述期刊元数据相同,则判断所述文章元数据是否相同;如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。3.根据权利要求1所述的数据处理方法,其特征在于,在所述判断从不同数据源获得的内容数据是否相同之前还包括:判断从相同数据源获得的内容数据的期刊元数据是否相同;如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。4.根据权利要求1所述的数据处理方法,其特征在于,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理包括如下任一一种方式:如果从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。5.根据权利要求1所述的数据处理方法,其特征在于,根据所述预设消除歧义处理结果生成内容标引包括:检测文章元数据是否包含DOI编码;如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;如果检测文章元数据不包含DOI编码,则生成文章Handle编码。6.一种用于内容标引的数据处理装置,其特征在于,包括:判断模块,用...
【专利技术属性】
技术研发人员:曹祺,杨志伟,丁小罗,
申请(专利权)人:南京快文信息科技有限公司,灰觋集团有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。