【技术实现步骤摘要】
Word论文的标引方法、装置、设备及存储介质
本专利技术涉及通信
,尤其涉及一种Word论文的标引方法、装置、设备及存储介质。
技术介绍
Office是我们最常用的办公软件。目前图书、期刊、百科类图书等的出版、发行起始多是利用Word进行创作的。而XML(eXtensibleMarkupLanguage)文件即可扩展标记语言,它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它是各种应用程序之间进行数据传输最常用的工具。随着网络技术的发展,XML技术已经应用到了数字出版相关领域,随之,Word文档到XML文档的转换,也成为迫切的需求。现有技术中,需要在Word论文执行标引完成后输出结构化的XML文档,而在标引时通常采用人工判定、手工标引,或者采用通配符查找、简单样式匹配等。由于Word论文具有各自特定的形态和格式,现有技术标引准确率不高、灵活性较差、且效率低下。
技术实现思路
本专利技术提供一种Word论文的标引方法、装置、设备及存储介质,以实现Word论文 ...
【技术保护点】
1.一种Word论文的标引方法,其特征在于,包括:/n获取标引流程管理文件,所述标引流程管理文件包括标引流程树;/n遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;/n根据所述元素对所述Word论文进行标引。/n
【技术特征摘要】
1.一种Word论文的标引方法,其特征在于,包括:
获取标引流程管理文件,所述标引流程管理文件包括标引流程树;
遍历所述标引流程树的每一节点,并执行该节点上配置的标引规则文件的算法,查找Word论文中需要标引的元素;
根据所述元素对所述Word论文进行标引。
2.根据权利要求1所述的方法,其特征在于,所述根据所述元素对所述Word论文进行标引后,还包括:
获取所述元素在所述Word论文中的位置,并在所述Word论文中采用预设样式对所述元素进行标记。
3.根据权利要求1所述的方法,其特征在于,所述遍历所述标引流程树的每一节点,包括:
采用深度优先算法遍历所述标引流程树的每一节点;
所述执行该节点上配置的标引规则文件的算法,包括:
读取所述执行该节点上配置的标引规则文件的路径,根据所述路径获取所述标引规则文件,并执行所述标引规则文件。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
根据预设规则运算符获取所述标引规则文件,其中所述预设规则运算符包括操作运算符和标引策略;
其中,所述操作运算符包括逻辑运算运算符、序列运算符、及循环运算符中的至少一项,所述标引策略包括正则表达式策略、机器学习策略、样式策略、及特殊策略中的至少一项。
5.一种Word论文的标引装置,其特征在于,包括:
获取模块,用于获取标引流程管理文件,所述标引流程管理文件包括标引流程树;
处理模块,用于遍历所述标引...
【专利技术属性】
技术研发人员:代芳,严昌华,陈巍,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。