一种基于机器识别的word文档转换方法、装置及存储介质制造方法及图纸

技术编号:37987522 阅读:35 留言:0更新日期:2023-06-30 10:02
本发明专利技术公开了一种基于机器识别的word文档转换方法、装置及存储介质,本发明专利技术在进行文档转换时,对格式转换后的文档进行了样式修正处理,如此,可保留原word文档中的文本样式;同时,利用机器识别技术,来对样式修正后的各个文本段落进行代码种类识别,以基于各个文本段落的代码种类,来进行编程语言标识;由此,本发明专利技术在文档转换时,可保留原文本中的文本样式,且能够准确识别出文档中的代码块文本,以及所属的编程语言,由此,使得用户不用重复的复制粘贴、重新编写代码以及重新设置文本样式,可实现各类技术文章的快速发布,适用于在文档转换领域的广泛应用与推广。换领域的广泛应用与推广。换领域的广泛应用与推广。

【技术实现步骤摘要】
一种基于机器识别的word文档转换方法、装置及存储介质


[0001]本专利技术属于数据处理
,具体涉及一种基于机器识别的word文档转换方法、装置及存储介质。

技术介绍

[0002]二十一世纪以来,随着互联网的快速发展,技术论坛、博客、社区等应用也逐渐流行起来,前述应用为人们提供了沟通交流的平台,促进了不同人群之间的相互学习;同时,为保证人们在前述应用上的快速发文,各类特色编辑器也随之出现;但是,现有的编辑器却不能很好的支持或者是不支持本地word文档的快速导入发文,其存在以下不足:目前市面上的编辑器仅仅能够转换基本的段落、表格、图片等格式,而且转换出来时,文本样式会大幅度丢失,只能保证内容完整,而不能保证文本样式完整;同时,Word文档中存在代码块时,导入时无法识别,会变为普通文本;基于此,如何提供一种能够将已有的word文档,快速、高还原度地转换成发布文档的转换方法,已成为一个亟待解决的问题。

技术实现思路

[0003]本专利技术的目的是提供一种基于机器识别的word文档转换方法、装置及存储介质,用以解决现有技术在进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器识别的word文档转换方法,其特征在于,包括:获取目标word文档,并将所述目标word文档转换为html文档;对所述html文档进行样式修正处理,得到样式修正后的html文档;对所述样式修正后的html文档内的字符串进行段落划分处理,得到预转换文档;从所述预转换文档中的各个文本段落中,筛选出代码文本段落,并将所述代码文本段落输入至代码识别模型中进行代码种类识别处理,得到所述代码文本段落对应的代码种类;基于所述代码文本段落对应的代码种类,对所述预转换文档中的代码文本段落进行编程语言标识处理,以在编程语言标识处理完成后,得到所述目标word文档对应的html转换文档。2.根据权利要求1所述的方法,其特征在于,对所述html文档进行样式修正处理,得到样式修正后的html文档,包括:对所述html文档进行标签过滤处理,以滤除所述html文档中的无用标签,得到预处理后的html文档;对所述预处理后的html文档中的各个标签进行标签替换处理,以在标签替换处理后,得到标签替换文档,其中,所述标签替换文档中各个标签的名称以及属性,与所述目标word文档中各个标签的名称以及属性相同;对所述标签替换文档中的各个第一指定标签进行从属归类处理,以将所述标签替换文档中具有同一从属关系的第一指定标签构建为有序列表或无序列表,并在从属归类处理后,得到标签从属归类文档;从所述标签从属归类文档中筛选出第二指定标签,并将所述第二指定标签对应的标签内容上传至云管理平台,以得到所述第二指定标签对应标签内容的访问地址,其中,所述第二指定标签包括图片标签;将所述第二指定标签中的SRC内容替换为所述第二指定标签对应标签内容的访问地址,以在SRC内容替换完毕后,得到所述样式修正后的html文档。3.根据权利要求2所述的方法,其特征在于,对所述预处理后的html文档中的各个标签进行标签替换处理,以在标签替换处理后,得到标签替换文档,包括:从所述预处理后的html文档中筛选出第一目标标签和第二目标标签,其中,所述第一目标标签包括p标签,所述第二目标标签包括font标签、ins标签、i标签以及del标签;将所述第一目标标签的name属性内容更改为第一标签名;以及将所述第二目标标签的name属性内容更改为第二标签名,并在所述第二目标标签中添加标签标识字符,以在标签标识字符添加完毕后,得到所述标签替换文档。4.根据权利要求2所述的方法,其特征在于,对所述标签替换文档中的各个第一指定标签进行从属归类处理,以将所述标签替换文档中具有同一从属关系的第一指定标签构建为有序列表或无序列表,并在从属归类处理后,得到标签从属归类文档,包括:对于所述标签替换文档中的各个第一指定标签,获取各个第一指定标签的样式属性,其中,任一第一指定标签的样式属性包括该任一第一指定标签的所属序列、所属序列的层级以及所属序列的层级的顺序;基于各个第一指定标签的样式属性,对各个第一指定标签进行从属划分处理,以将属
于同一序列以及同一层级的第一指定标签划分为一类,得到若干标签类;对于若干标签类中的任一标签类,按照所述任一标签类中各个第一指定标签对应所属序列的层级的顺序,对所述任一标签类中的各个第一指定标签进行排序,得到排序标签类,并在将所有标签类中的各个标签均排序完毕后,得到若干排序标签类;对各个排序标签类进行样式识别,得到各个排序标签类所属的列表样式,其中,所述列表样式包括有序列表和无序列表;基于各个排序标签类所属的列表样式,为各个排序标签类添加样式标识标签,以在样式标识标签添加完毕后,构建出若干有序列表和无序列表,并...

【专利技术属性】
技术研发人员:陈德勇李元海
申请(专利权)人:北京无忧创想信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1