【技术实现步骤摘要】
本专利技术属于引文加工领域,具体涉及了一种基于特征词和结构的中文引文类型标引方法、系统及设备。
技术介绍
1、引文分类有利于信息检索、学科建设以及知识更新等。当前针对文献分类的做法有传统的统计学习、规则构建,或者基于深度学习进行文献分类,基于以上方式形成的各种技术方案,一般对文献有针对性,或者效果达不到要求,而且由于引文在文献中的重要性不明显,导致基于引文的类型分类尚未被开发,都是人为自行判断。
2、目前与引文分类相关的文献中,其类别也不是国标gb/t7714-2015中规定的类别,分类使用的数据也不是引文本身,而是引用该引文的文献,侧重点都是在引文在文献中的应用上,无法应用于引文本身的类型分类。
3、基于此,本专利技术提出了一种基于特征词和结构的中文引文类型标引方法、系统及设备。
技术实现思路
1、为了解决现有技术中的上述问题,即现有引文分类依赖引用文献数据,不符国标,分类效果差且依赖人工判断的问题,本专利技术提供了一种基于特征词和结构的中文引文类型标引方法、系统
...
【技术保护点】
1.一种基于特征词和结构的中文引文类型标引方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,将所述待标引类型的中文引文基于预设的标点符号进行分段,并结合引文自身特征和特征词将引文切分为来源信息和篇名信息,其方法为:
3.根据权利要求2所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,若所述第一候选篇名段不满足预设条件,则判断所述第一候选篇名段的下一段中是否包含来源信息特征词,若包含,则将第一候选篇名段判定为篇名信息,将所述第一候选篇名段后的全部内容判定为来源信息。
...【技术特征摘要】
1.一种基于特征词和结构的中文引文类型标引方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,将所述待标引类型的中文引文基于预设的标点符号进行分段,并结合引文自身特征和特征词将引文切分为来源信息和篇名信息,其方法为:
3.根据权利要求2所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,若所述第一候选篇名段不满足预设条件,则判断所述第一候选篇名段的下一段中是否包含来源信息特征词,若包含,则将第一候选篇名段判定为篇名信息,将所述第一候选篇名段后的全部内容判定为来源信息。
4.根据权利要求3所述的一种基于特征词和结构的中文引文类型标引方法,其特征在于,若所述第一候选篇名段的下一段中不包含来源信息特征词,则计算所述第一候选篇名段的长度,若所述长度超过所述第一候选篇名段的后一段的长度的设定倍数,则将所述将第一候选篇名段判定为篇名信息,将所述第一候选篇名段后的全部内容判定为来源信息。
5....
【专利技术属性】
技术研发人员:赵诣灵,王风娥,王长征,武文成,
申请(专利权)人:山西同方知网数字出版技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。