System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种word转数据库字段的通用方法技术_技高网

一种word转数据库字段的通用方法技术

技术编号:41128390 阅读:2 留言:0更新日期:2024-04-30 17:56
本发明专利技术公开了一种WORD转数据库字段的通用方法,包括如下步骤:步骤一,使用Aspose技术将WORD格式的文件转为HTML格式;步骤二,识别步骤一转为的HTML格式文件所标记的标题和内容,并对标题做层级区分;步骤三,基于步骤二所区分的层级解析文件得到以下字段:序号、目录层级、内容带标签、内容不带标签;步骤四,从上倒下循环将步骤三分析得到的字段再次解析分类,按文档的写作格式分类;步骤五,基于步骤四解析分类的内容建立存储数据库字段模板库;步骤六,根据步骤五建立的模板库解析WORD内容并存入数据库。本发明专利技术的WORD转数据库字段的通用方法,通过步骤一至步骤六的设置,便可有效的实现转换WORD格式的文件解析后存入数据库内。

【技术实现步骤摘要】

本专利技术涉及一种数据处理领域,更具体的说是涉及一种word转数据库字段的通用方法


技术介绍

1、目前全球企业系统越来越大,数据的总容量大约是每三年就要翻两番,这种情况下,数据存放可能分布越广,可能会出现同一个系统的数据被放到了不同的数据库中,或者由于要做系统升级换不同的数据库,要做不同数据库之间的数据移植,这时对于应用系统不同的数据库的访问的方法和方式完全不一样,造成了大量的升级工作量和工时。现有大多数系统和数据库应用绑定太紧密,造成系统上许多的不便利。

2、而目前的数据处理软件使用的较多为word软件进行文字数据处理,然而由于word软件所处理的文件数据格式与数据库的文件数据格式不同,而在需要将经过word软件所处理的文件数据输入到数据库内时候,就只能够通过人工输入的方式,如此大大的增加了数据的存放成本。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的在于提供一种将word转数据库字段的通用方法,便可有效的实现方便word软件所处理的文件数据转换存储至数据库内了。

2、为实现上述目的,本专利技术提供了如下技术方案:一种word转数据库字段的通用方法,其特征在于:包括如下步骤:

3、步骤一,使用aspose技术将word格式的文件转为html格式;

4、步骤二,识别步骤一转为的html格式文件所标记的标题和内容,并对标题做层级区分;

5、步骤三,基于步骤二所区分的层级解析文件得到以下字段:序号、目录层级、内容带标签、内容不带标签,之后把内容分类开,标记什么是标题,什么是正文,标题是几级标题,并按从上到下的顺序编好顺序;

6、步骤四,从上倒下循环将步骤三分析得到的字段再次解析分类,按文档的写作格式分类;

7、步骤五,基于步骤四解析分类的内容建立存储数据库字段模板库;

8、步骤六,根据步骤五建立的模板库解析word内容并存入数据库。

9、作为本专利技术的进一步改进,步骤二中的做层级区分的后的内容标签包括<h>、<p>、<img>、<table>,具体分为:

10、一级标题:<h1>或<p>样式为黑体且居中;

11、二级标题:<h2>或标签样式为黑体或标签样式为字体>15d;

12、三级标题:<h3>;

13、四级标题:<h4>。

14、作为本专利技术的进一步改进,所述步骤四中按文档的写作格式分类的具体步骤如下:

15、定义标题数量变量“i”=0用来标识存放到第几个标题;

16、定义结构体列表”列表2“用来存放所有的标题加内容;

17、定义内容容器”容器“用来存放内容。

18、作为本专利技术的进一步改进,所述步骤四中从上倒下循环将步骤三分析得到的字段再次解析分类的具体步骤如下:

19、在识别到“标题层级”>0时;

20、从“列表2”中得到第“i”个对象如果不存在就创建定义临时变量为“node”;设置“node”的标题层级和标题;

21、并从“列表2”中得到第“i”-1个对象“nodeup”;

22、判断“nodeup”不为空就设置内容为“容器”并清空容器;

23、记录“i”数量;

24、“容器”追加内容;

25、最后得到“列表2”最后一个对象设置“容器”内容。

26、作为本专利技术的进一步改进,所述步骤五中建立的字段模板库定义如下:

27、字段说明、本字段包含内容、识别结束标志位、此字段是否必需,字段是否多级存储,字段对应的表名,来代表不同的模板,每个模板对应的是数据库的表。作为本专利技术的进一步改进,所述步骤六中解析word内容并存入数据库的具体步骤如下:

28、步骤六一,循环步骤五中的字段模板库中的【字段模板列表】;

29、步骤六二,最后按识别结束,按照模板对应的表名存储数据。

30、作为本专利技术的进一步改进,所述步骤六一中循环步骤五中的字段模板库中的【字段模板列表】,具体如下:

31、【字段对象】;

32、循环步骤四中解析获得的【列表2】;

33、判断标题不包含【字段对象】,【本字段包含内容】时表示不存在此字段内容跳出循环,否则,按层级读取并结构化,直到读取到1级标题包含【字段对象】;【识别结束标志位】,记录下术语和定义在【列表2】的位置跳出循环;

34、然后删除【列表2】中【字段对象】,【本字段包含内容】的部分。

35、本专利技术的有益效果,通过步骤一的设置,便可有效的将word格式的文件转换为html格式,便可通过步骤二的设置,便可对步骤一转换的html格式的文件,然后通过标题进行层级区分,之后通过步骤三的设置,便可有效的实现解析文件得到字段,再通过步骤四的设置,便可有效的实现将字段再次解析分类,按文档的写作格式分类,之后通过步骤五和步骤六的设置,便可简单有效的建立字段模板库,之后通过建立的模板库转换解析word内容后存入数据库内。

本文档来自技高网...

【技术保护点】

1.一种WORD转数据库字段的通用方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的WORD转数据库字段的通用方法,其特征在于:所述步骤二中的做层级区分的后的内容标签包括<h>、<p>、<img>、<table>,具体分为:

3.根据权利要求2所述的WORD转数据库字段的通用方法,其特征在于:所述步骤四中按文档的写作格式分类的具体步骤如下:

4.根据权利要求3所述的WORD转数据库字段的通用方法,其特征在于:所述步骤四中从上倒下循环将步骤三分析得到的字段再次解析分类的具体步骤如下:在识别到“标题层级”>0时;

5.根据权利要求4所述的WORD转数据库字段的通用方法,其特征在于:所述步骤五中建立的字段模板库定义如下:

6.根据权利要求5所述的WORD转数据库字段的通用方法,其特征在于:所述步骤六中解析WORD内容并存入数据库的具体步骤如下:

7.根据权利要求6所述的WORD转数据库字段的通用方法,其特征在于:所述步骤六一中循环步骤五中的字段模板库中的【字段模板列表】,具体如下:

...

【技术特征摘要】

1.一种word转数据库字段的通用方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的word转数据库字段的通用方法,其特征在于:所述步骤二中的做层级区分的后的内容标签包括<h>、<p>、<img>、<table>,具体分为:

3.根据权利要求2所述的word转数据库字段的通用方法,其特征在于:所述步骤四中按文档的写作格式分类的具体步骤如下:

4.根据权利要求3所述的word转数据库字段的通用方法,其特征在于:所述步骤...

【专利技术属性】
技术研发人员:林斌傅潇杭徐高清陈良辅陈启钰丁凯钱小虎董跃徐亦萍
申请(专利权)人:浙江金汇数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1