【技术实现步骤摘要】
文献去重方法及装置
本专利技术涉及信息处理
,尤其涉及一种文献去重方法及装置。
技术介绍
重复文献筛选是一项相当重要且占用时间的工作,若能够利用机筛的方式代替人工筛选,则可以在很大程度上降低科研工作的工作量。在这个过程中,收录冗余是当前面临的主要问题。收录冗余是指由于数据库收录期刊重叠而导致跨库检索结果的冗余。区别于一般网页信息上传的自由性与转载的随意性,文献信息因其通常涉及版权问题而与特定的刊物所绑定,所以文献信息的出处是唯一的,且上传与转载的自由性不大。然而,特定的刊物却总是被一个或多个网络数据库所收录,不同的数据库收录的刊物经常存在交集,在获取个人/单位发文信息时,通常是借助于对多个数据库跨库检索来完成的,因此,数据库收录刊的重叠是导致文献跨库检索冗余的最根本的原因。对于收录冗余,最常使用的方法人为采用ISBN查重,但这种方式效率低下。
技术实现思路
本专利技术提供一种文献去重方法及装置,用于解决现有技术中对文献查重效率低的问题。第一方面,本专利技术实施例提供一种文献去重方法,包括:获取第一目标文献和第二目标文献各自对应的属性标签和属性内容,所述第一目标文 ...
【技术保护点】
1.一种文献去重方法,其特征在于,包括:获取第一目标文献和第二目标文献各自对应的属性标签和属性内容,所述第一目标文献和所述第二目标文献为属性内容相互存在重复的文献;从所述属性标签中筛选出目标属性标签,以及所述目标属性标签对应的属性内容;根据所述目标属性标签对应的属性内容获得对应的属性标签重复率;根据所述属性标签重复率获得所述第一目标文献与所述第二目标文献的去重结果。
【技术特征摘要】
1.一种文献去重方法,其特征在于,包括:获取第一目标文献和第二目标文献各自对应的属性标签和属性内容,所述第一目标文献和所述第二目标文献为属性内容相互存在重复的文献;从所述属性标签中筛选出目标属性标签,以及所述目标属性标签对应的属性内容;根据所述目标属性标签对应的属性内容获得对应的属性标签重复率;根据所述属性标签重复率获得所述第一目标文献与所述第二目标文献的去重结果。2.根据权利要求1所述的方法,其特征在于,当所述目标属性标签包括文献作者和文献题目时,所述根据所述目标属性标签对应的属性内容获得对应的属性标签重复率,包括:根据所述文献题目标签对应的属性内容获得所述第一目标文献的文献题目的字符串长度、所述第二目标文献的文献题目的字符串长度、以及所述第一目标文献和所述第二目标文献在文献题目下的重复内容的字符串总长度;根据所述第一目标文献和所述第二目标文献各自的文献题目的字符串长度和所述重复内容的字符串总长度采用第一计算公式获得文献题目重复率;根据所述文献作者标签对应的属性内容获得所述第一目标文献和所述第二目标文献对应的作者数目、以及所述第一目标文献的各个作者名与所述第二目标文献的各个作者名相互重复的字符串长度;根据所述第一目标文献和所述第二目标文献对应的作者数目和所述第一目标文献的各个作者名与所述第二目标文献的各个作者名相互重复的字符串长采用第二计算公式获得文献作者重复率。3.根据权利要求2所述的方法,其特征在于,所述第一计算公式包括:其中,TR-Rate为文献题目重复率,LTM为所述第一目标文献和所述第二目标文献在文献题目下的重复内容的字符串总长度,Lpaper1为第一目标文献的文献题目的字符串长度,Lpaper2为第二目标文献的文献题目的字符串长度。4.根据权利要求2所述的方法,其特征在于,所述第二计算公式包括:其中,AR-Rate为文献作者重复率,为第一目标文献的作者集,为第二目标文献的作者集,n1,n2为作者数目,a为n1,n2中最小值对应的下标,为作者的字符串长度,为作者的字符串长度,为作者与作者存在重复内容的字符串长度。5.根据权利要求1所述的方法,其特征在于,还包括:获取对应所述去重结果的文献的属性内容;根据所述属性内容和预设的筛选指标获得保留文献并存储。6.一种文献...
【专利技术属性】
技术研发人员:赵荣生,宋再伟,黄振城,周旻,
申请(专利权)人:北京诺道认知医学科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。