基于特征词和结构的中文引文类型标引方法、系统及设备技术方案

技术编号:46028216 阅读:12 留言:0更新日期:2025-08-05 19:31
本发明专利技术属于引文加工领域,具体涉及了一种基于特征词和结构的中文引文类型标引方法,旨在解决现有引文分类依赖引用文献数据,不符国标,分类效果差且依赖人工判断的问题。本发明专利技术包括:判断待标引类型的中文引文中是否存在文献载体代码;若存在,则以文献载体代码为分界点将引文切分为来源信息、篇名信息及自定义类型;若不存在,则将待标引类型的中文引文基于预设的标点符号进行分段,并结合引文自身特征和特征词将引文切分为来源信息和篇名信息;提取篇名信息中的关键词特征、与文献类型相关的词典特征;获取待标引类型的中文引文中的引文结构特征,通过预定义的分类规则判定引文类型。本发明专利技术通过特征提取,无需依赖人工分类,提高分类精度。

【技术实现步骤摘要】

本专利技术属于引文加工领域,具体涉及了一种基于特征词和结构的中文引文类型标引方法、系统及设备


技术介绍

1、引文分类有利于信息检索、学科建设以及知识更新等。当前针对文献分类的做法有传统的统计学习、规则构建,或者基于深度学习进行文献分类,基于以上方式形成的各种技术方案,一般对文献有针对性,或者效果达不到要求,而且由于引文在文献中的重要性不明显,导致基于引文的类型分类尚未被开发,都是人为自行判断。

2、目前与引文分类相关的文献中,其类别也不是国标gb/t7714-2015中规定的类别,分类使用的数据也不是引文本身,而是引用该引文的文献,侧重点都是在引文在文献中的应用上,无法应用于引文本身的类型分类。

3、基于此,本专利技术提出了一种基于特征词和结构的中文引文类型标引方法、系统及设备。


技术实现思路

1、为了解决现有技术中的上述问题,即现有引文分类依赖引用文献数据,不符国标,分类效果差且依赖人工判断的问题,本专利技术提供了一种基于特征词和结构的中文引文类型标引方法、系统及设备。

...

【技术保护点】

1.一种基于特征词和结构的中文引文类型标引方法,其特征在于,该方法包括:

2.根据权利要求1所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,将所述待标引类型的中文引文基于预设的标点符号进行分段,并结合引文自身特征和特征词将引文切分为来源信息和篇名信息,其方法为:

3.根据权利要求2所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,若所述第一候选篇名段不满足预设条件,则判断所述第一候选篇名段的下一段中是否包含来源信息特征词,若包含,则将第一候选篇名段判定为篇名信息,将所述第一候选篇名段后的全部内容判定为来源信息。

4.根据权利要...

【技术特征摘要】

1.一种基于特征词和结构的中文引文类型标引方法,其特征在于,该方法包括:

2.根据权利要求1所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,将所述待标引类型的中文引文基于预设的标点符号进行分段,并结合引文自身特征和特征词将引文切分为来源信息和篇名信息,其方法为:

3.根据权利要求2所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,若所述第一候选篇名段不满足预设条件,则判断所述第一候选篇名段的下一段中是否包含来源信息特征词,若包含,则将第一候选篇名段判定为篇名信息,将所述第一候选篇名段后的全部内容判定为来源信息。

4.根据权利要求3所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,若所述第一候选篇名段的下一段中不包含来源信息特征词,则计算所述第一候选篇名段的长度,若所述长度超过所述第一候选篇名段的后一段的长度的设定倍数,则将所述将第一候选篇名段判定为篇名信息,将所述第一候选篇名段后的全部内容判定为来源信息。

5....

【专利技术属性】
技术研发人员:赵诣灵王风娥王长征武文成
申请(专利权)人:山西同方知网数字出版技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1