System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种html表格转换为markdown文本的方法、系统及介质技术方案_技高网

一种html表格转换为markdown文本的方法、系统及介质技术方案

技术编号:41228454 阅读:3 留言:0更新日期:2024-05-09 23:45
本发明专利技术提供了一种html表格转换为markdown文本的方法、系统及介质,方法包括:获取html页面中表格类型的标签,以得到表格标签序列;对表格标签序列进行补全;对补全后的表格标签序列进行遍历;当遍历到的标签为合并单元格时,拷贝该标签的内容作为新标签的内容,将新标签插入表格标签序列中;当遍历完成后,依次读取表格标签序列中所有标签的内容,构建markdown文本。该方法针对html页面中表格存在的单元格合并、表格内标签缺失的问题,将html页面中表格转换为较为完整的、数据格式对称、数据内容不易丢失的markdown文本,提高了html页面中表格的识别精度,避免了html页面中表格传统识别方法存在的数据内容、数据结构丢失的问题。

【技术实现步骤摘要】

本专利技术属于计算机,具体涉及一种html表格转换为markdown文本的方法、系统及介质


技术介绍

1、目前的大语言模型只能识别字符文本,所以对于需要用大语言模型识别html页面中表格的场景,如ai bot数据源解析,则需要准确地获取html页面中表格的数据内容以及数据结构。但是目前直接识别html页面中表格的方法存在识别精度不够、数据内容以及数据结构丢失等问题。


技术实现思路

1、针对现有技术中的缺陷,本专利技术提供一种html表格转换为markdown文本的方法、系统及介质,识别精度高,避免了数据内容以及数据结构的丢失。

2、第一方面,一种html表格转换为markdown文本的方法,包括:

3、获取html页面中表格类型的标签,以得到表格标签序列;

4、对表格标签序列进行补全;

5、对补全后的表格标签序列进行遍历;

6、当遍历到的标签为合并单元格时,拷贝该标签的内容作为新标签的内容,将新标签插入表格标签序列中;

7、当遍历完成后,依次读取表格标签序列中所有标签的内容,构建markdown文本。

8、进一步地,对表格标签序列进行补全具体包括:

9、依次提取表格标签序列中的标签,对提取到的标签进行补全。

10、进一步地,对提取到的标签进行补全具体包括:

11、当栈为空时,将提取到的标签入栈;

12、当栈不为空,且提取到的标签与栈顶标签为一对时,栈顶标签出栈;

13、当栈不为空,且提取到的标签与栈顶标签存在层级关系时,则提取到的标签入栈;

14、当栈不为空,且提取到的标签与栈顶标签为同级关系时,创建栈顶标签的结束标签,将结束标签插入表格标签序列中,作为提取到的标签的上一个标签,栈顶标签出栈,提取到的标签入栈。

15、进一步地,对补全后的表格标签序列进行遍历具体包括:

16、对补全后的表格标签序列按行进行遍历。

17、进一步地,当遍历到的标签为合并单元格时,拷贝该标签的内容作为新标签的内容,将新标签插入表格标签序列中具体包括:

18、当遍历表格的第一行时,创建空的列表,列表包含n个元素,n为表格的列数;

19、执行合并单元格处理步骤。

20、进一步地,在遍历表格的第一行之后,还包括:

21、当遍历表格的第j行时,读取列表;

22、当列表不为空时,根据列表中不为空的元素的内容创建新标签,将新标签插入表格标签序列中表征表格的第j行第i列的位置处;

23、执行合并单元格处理步骤。

24、进一步地,合并单元格处理步骤具体包括:

25、当合并单元格的类型为行合并时,拷贝遍历到的标签的内容作为新标签的内容,将新标签插入表格标签序列中,作为遍历到的标签的下一对标签;

26、当合并单元格的类型为列合并时,获取遍历到的标签在表格中的列数i,将遍历到的标签的内容拷贝到列表中第i-1个元素中。

27、第二方面,一种html表格转换为markdown文本的系统,包括:

28、采集单元:用于获取html页面中表格类型的标签,以得到表格标签序列;

29、补全单元:用于对表格标签序列进行补全;

30、单元格合并处理单元:用于对补全后的表格标签序列进行遍历;当遍历到的标签为合并单元格时,拷贝该标签的内容作为新标签的内容,将新标签插入表格标签序列中;

31、文本创建单元:用于当遍历完成后,依次读取表格标签序列中所有标签的内容,构建markdown文本。

32、第三方面,一种html表格转换为markdown文本的系统,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,其中,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行第一方面的方法。

33、第四方面,一种计算机可读存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行第一方面的方法。

34、由上述技术方案可知,本专利技术提供的html表格转换为markdown文本的方法、系统及介质,针对html页面中表格存在的单元格合并、表格内标签缺失的问题,将html页面中表格转换为较为完整的、数据格式对称、数据内容不易丢失的markdown文本,提高了html页面中表格的识别精度,避免了html页面中表格传统识别方法存在的数据内容、数据结构丢失的问题。且markdown文本对于大语言模型而言更好理解,更有利于准确的回答用户提问。

本文档来自技高网...

【技术保护点】

1.一种html表格转换为markdown文本的方法,其特征在于,包括:

2.根据权利要求1所述html表格转换为markdown文本的方法,其特征在于,所述对表格标签序列进行补全具体包括:

3.根据权利要求2所述html表格转换为markdown文本的方法,其特征在于,所述对提取到的标签进行补全具体包括:

4.根据权利要求1所述html表格转换为markdown文本的方法,其特征在于,所述对补全后的表格标签序列进行遍历具体包括:

5.根据权利要求4所述html表格转换为markdown文本的方法,其特征在于,所述当遍历到的标签为合并单元格时,拷贝该标签的内容作为新标签的内容,将新标签插入所述表格标签序列中具体包括:

6.根据权利要求5所述html表格转换为markdown文本的方法,其特征在于,在遍历表格的第一行之后,还包括:

7.根据权利要求5或6所述html表格转换为markdown文本的方法,其特征在于,所述合并单元格处理步骤具体包括:

8.一种html表格转换为markdown文本的系统,其特征在于,包括:

9.一种html表格转换为markdown文本的系统,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种html表格转换为markdown文本的方法,其特征在于,包括:

2.根据权利要求1所述html表格转换为markdown文本的方法,其特征在于,所述对表格标签序列进行补全具体包括:

3.根据权利要求2所述html表格转换为markdown文本的方法,其特征在于,所述对提取到的标签进行补全具体包括:

4.根据权利要求1所述html表格转换为markdown文本的方法,其特征在于,所述对补全后的表格标签序列进行遍历具体包括:

5.根据权利要求4所述html表格转换为markdown文本的方法,其特征在于,所述当遍历到的标签为合并单元格时,拷贝该标签的内容作为新标签的内容,将新标签插入所述表格标签序列中具体包括:

6.根据权利要求5所述html表格转换为markdown文本的方法,其特征...

【专利技术属性】
技术研发人员:叶晃棋
申请(专利权)人:深圳市和讯华谷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1