文本转换方法、装置及可读存储介质制造方法及图纸

技术编号:24854682 阅读:22 留言:0更新日期:2020-07-10 19:08
本发明专利技术提供了一种文本转换方法、装置及可读存储介质,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。

【技术实现步骤摘要】
文本转换方法、装置及可读存储介质
本专利技术涉及计算机技术,尤其涉及一种文本转换方法、装置及可读存储介质。
技术介绍
可扩展标记语言(ExtensibleMarkupLanguage,简称XML),它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。随着网络技术的发展,XML技术逐步应用到数字出版相关领域,特别是针对于基于word文本的文本转换和出版。科技论文一般也是基于word文本进行撰写的,与其他类型的word文本不同的是,科技论文是由正文部分以及参考文献部分构成的,在对科技论文转换时,需要针对论文的不同部分分别进行转换。但是,在现有技术中,仅能对正文部分进行自动转换,而针对于参考文献部分则需要人工标注的方式进行文本转换,这使得对于科技论文的文本转换效率低,严重影响了其出版效率。
技术实现思路
针对上述提及的现有在现有技术中,针对于科技论文的参考文献部分仅能采用人工标注的方式进行文本转换,从而导致转换效率低,进而造成科技论文的出版效率低的问题,本专利技术提供了一种文本转换方法、装置及可读存储介质。一方面,本专利技术提供了一种文本转换方法,包括:获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。在其中一种可选的实施方式中,所述正则表达式组包括第一正则表达式和第二正则表达式;相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以确定参考文献中的与每个类型的正则表达式相应的元素信息,包括:利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。在其中一种可选的实施方式中,所述获取待转换的参考文献文本之前,还包括:根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,包括:按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。在其中一种可选的实施方式中,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。另一方面,本专利技术提供了一种文本转换装置,包括:通信模块,用于获取待转换的参考文献文本;元素提取模块,用于利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;输出模块,用于根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。在其中一种可选的实施方式中,所述正则表达式组包括第一正则表达式和第二正则表达式;所述元素提取模块,具体用于:利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。在其中一种可选的实施方式中,该文本转换装置还包括:架构模块;所述架构模块具体用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;所述元素提取模块具体用于:按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。在其中一种可选的实施方式中,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。再一方面,本专利技术提供了一种文本转换装置,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行如前任一项所述的方法。最后一方面,本专利技术提供了一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行如前任一项所述的方法。本专利技术提供了一种文本转换方法、装置及可读存储介质,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。附图说明通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。图1为本专利技术基于的网络架构示意图;图2为本专利技术实施例一提供的一种文本转换方法的流程示意图;图3为本专利技术实施例二提供的一种文本转换方法的流程示意图;图4为本专利技术实施例三提供的一种文本转换装置的结构示意图;图5为本专利技术实施例四提供的一种文本转换装置的硬件结构示意图。此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。可扩展标记语言(ExtensibleMarkupLanguage,简称XML),它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。随着网络技术的发展,XML技术逐步应用到数字出版相关领域,特别是针对于基于word文本的文本转换和出版。科技论文一般也是基于word文本进行撰写的,与其他类型的word文本不同的是,科技论文是由正文部分以及参考文献部分构成的,在对科技论文转换时,需要针对论文的不同部分分别进行转换。但是,在现有技术中,仅能对正文部分进行自动转换,而针对于参考文献部分则需要人工标注的方式进行文本转换,这使得对于科技论文的文本转换效率低,严重影响了其出版效率。针对上述提及的现有在现有技术中,针对于科技论文的参考文献部分仅能采用人工标注的方式进行文本转换,从而导致转换效率低,进而造成科技论文的出版效率低的问题,本专利技术提供了一种文本转换方法、装置及可读存储介质。需要说明的是,本申请提供的文本转换方本文档来自技高网...

【技术保护点】
1.一种文本转换方法,其特征在于,包括:/n获取待转换的参考文献文本;/n利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;/n根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。/n

【技术特征摘要】
1.一种文本转换方法,其特征在于,包括:
获取待转换的参考文献文本;
利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;
根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。


2.根据权利要求1所述的文本转换方法,其特征在于,所述正则表达式组包括第一正则表达式和第二正则表达式;
相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以确定参考文献中的与每个类型的正则表达式相应的元素信息,包括:
利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;
利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。


3.根据权利要求1所述的文本转换方法,其特征在于,所述获取待转换的参考文献文本之前,还包括:
根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;
相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,包括:
按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。


4.根据权利要求1-3任一项所述的文本转换方法,其特征在于,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。


5.一种文本转换装置,其特征在于,包括:
通信模块,用于获取待转换的参考文献文本;
元素提取模块,用于利用...

【专利技术属性】
技术研发人员:殷延伟殷梦丹陈巍
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1