Word论文的标引方法、装置、设备及存储介质制造方法及图纸

技术编号:24290001 阅读:43 留言:0更新日期:2020-05-26 20:12
本发明专利技术提供一种Word论文的标引方法、装置、设备及存储介质,通过获取标引流程管理文件,标引流程管理文件包括标引流程树;然后遍历标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素,并根据元素对Word论文进行标引。本发明专利技术的方法通过在标引流程树的节点上配置标引规则文件,可以方便快捷的编写标引规则,提高标引规则编写的效率,进而可根据标引流程树实现Word论文的自动标引,提高Word论文的标引效率。

Indexing method, device, equipment and storage medium of word paper

【技术实现步骤摘要】
Word论文的标引方法、装置、设备及存储介质
本专利技术涉及通信
,尤其涉及一种Word论文的标引方法、装置、设备及存储介质。
技术介绍
Office是我们最常用的办公软件。目前图书、期刊、百科类图书等的出版、发行起始多是利用Word进行创作的。而XML(eXtensibleMarkupLanguage)文件即可扩展标记语言,它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它是各种应用程序之间进行数据传输最常用的工具。随着网络技术的发展,XML技术已经应用到了数字出版相关领域,随之,Word文档到XML文档的转换,也成为迫切的需求。现有技术中,需要在Word论文执行标引完成后输出结构化的XML文档,而在标引时通常采用人工判定、手工标引,或者采用通配符查找、简单样式匹配等。由于Word论文具有各自特定的形态和格式,现有技术标引准确率不高、灵活性较差、且效率低下。
技术实现思路
本专利技术提供一种Word论文的标引方法、装置、设备及存储介质,以实现Word论文的自动标引,提高Word论文的标引效率。本专利技术的第一方面是提供一种Word论文的标引方法,包括:获取标引流程管理文件,所述标引流程管理文件包括标引流程树;遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;根据所述元素对所述Word论文进行标引。进一步的,所述根据所述元素对所述Word论文进行标引后,还包括:获取所述元素在所述Word论文中的位置,并在所述Word论文中采用预设样式对所述元素进行标记。进一步的,所述遍历所述标引流程树的每一节点,包括:采用深度优先算法遍历所述标引流程树的每一节点;所述执行该节点上配置的标引规则文件的算法,包括:读取所述执行该节点上配置的标引规则文件的路径,根据所述路径获取所述标引规则文件,并执行所述标引规则文件。进一步的,所述方法还包括:根据预设规则运算符获取所述标引规则文件,其中所述预设规则运算符包括操作运算符和标引策略;其中,所述操作运算符包括逻辑运算运算符、序列运算符、及循环运算符中的至少一项,所述标引策略包括正则表达式策略、机器学习策略、样式策略、及特殊策略中的至少一项。本专利技术的第二方面是提供一种Word论文的标引装置,包括:获取模块,用于获取标引流程管理文件,所述标引流程管理文件包括标引流程树;处理模块,用于遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;标引模块,用于根据所述元素对所述Word论文进行标引。进一步的,所述处理模块还用于:获取所述元素在所述Word论文中的位置,并在所述Word论文中采用预设样式对所述元素进行标记。进一步的,所述处理模块用于:采用深度优先算法遍历所述标引流程树的每一节点;读取所述执行该节点上配置的标引规则文件的路径,根据所述路径获取所述标引规则文件,并执行所述标引规则文件。进一步的,所述装置还包括配置模块,用于:根据预设规则运算符获取所述标引规则文件,其中所述预设规则运算符包括操作运算符和标引策略;其中,所述操作运算符包括逻辑运算运算符、序列运算符、及循环运算符中的至少一项,所述标引策略包括正则表达式策略、机器学习策略、样式策略、及特殊策略中的至少一项。本专利技术的第三方面是提供一种Word论文的标引设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。本专利技术的第四方面是提供一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行时实现如第一方面所述的方法。本专利技术提供的Word论文的标引方法、装置、设备及存储介质,通过获取标引流程管理文件,标引流程管理文件包括标引流程树;然后遍历标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素,并根据元素对Word论文进行标引。本专利技术的方法通过在标引流程树的节点上配置标引规则文件,可以方便快捷的编写标引规则,提高标引规则编写的效率,进而可根据标引流程树实现Word论文的自动标引,提高Word论文的标引效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的Word论文的标引方法流程图;图2为本专利技术实施例提供的标引规则文件的示意图;图3为本专利技术实施例提供的标引流程管理文件的示意图;图4为本专利技术实施例提供的Word论文的标引装置的结构图;图5为本专利技术实施例提供的Word论文的标引设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的Word论文的标引方法流程图。本实施例供了一种Word论文的标引方法,该方法具体步骤如下:S101、获取标引流程管理文件,所述标引流程管理文件包括标引流程树。在本实施例中,可以预先配置标引流程管理文件,标引流程管理文件可以为XML文件,在标引流程管理文件中定义标引流程树,标引流程树上包括多个节点,每一节点上配置有标引规则文件,标引规则文件中预先设定标引所采用的规则和算法。也即标引流程树约定了需要执行哪些标引规则文件。当然对于不同类别的Word论文可以配置不同的标引流程管理文件,并进行存储。本实施例中在需要对Word论文进行标引时首先获取标引流程管理文件并进行加载。S102、遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素。在本实施例中,通过遍历标引流程树上的每一节点,当遍历到某一节点时,则执行该节点上配置的标引规则文件的算法,根据该算法查找Word论文中需要标记的元素,其中需要标记的元素为检索所需要的标识,例如类号、标题词、叙词、关键词、人名、地名等。此外,本实施例中对于标引流程树的遍历可以采用深度优先算法,当然也可采用广度优先算法或其他算法,此处不再赘述。S103、根据所述元素对所述Word论文进行标引。在本实施例中,在查找到Word论文中需要标引的元素后,可将Word论文与该些元素进行关联,可采用现有技术对其进行控制和本文档来自技高网...

【技术保护点】
1.一种Word论文的标引方法,其特征在于,包括:/n获取标引流程管理文件,所述标引流程管理文件包括标引流程树;/n遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;/n根据所述元素对所述Word论文进行标引。/n

【技术特征摘要】
1.一种Word论文的标引方法,其特征在于,包括:
获取标引流程管理文件,所述标引流程管理文件包括标引流程树;
遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;
根据所述元素对所述Word论文进行标引。


2.根据权利要求1所述的方法,其特征在于,所述根据所述元素对所述Word论文进行标引后,还包括:
获取所述元素在所述Word论文中的位置,并在所述Word论文中采用预设样式对所述元素进行标记。


3.根据权利要求1所述的方法,其特征在于,所述遍历所述标引流程树的每一节点,包括:
采用深度优先算法遍历所述标引流程树的每一节点;
所述执行该节点上配置的标引规则文件的算法,包括:
读取所述执行该节点上配置的标引规则文件的路径,根据所述路径获取所述标引规则文件,并执行所述标引规则文件。


4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
根据预设规则运算符获取所述标引规则文件,其中所述预设规则运算符包括操作运算符和标引策略;
其中,所述操作运算符包括逻辑运算运算符、序列运算符、及循环运算符中的至少一项,所述标引策略包括正则表达式策略、机器学习策略、样式策略、及特殊策略中的至少一项。


5.一种Word论文的标引装置,其特征在于,包括:
获取模块,用于获取标引流程管理文件,所述标引流程管理文件包括标引流程树;
处理模块,用于遍历所述标引...

【专利技术属性】
技术研发人员:代芳严昌华陈巍
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1