【技术实现步骤摘要】
技术介绍
技术实现思路
【技术保护点】
1.一种大语言模型驱动的低成本公报数据抽取方法,其特征在于,通过对应的模块对数据进行抽取,所述抽取方法包括以下步骤:
2.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述网页正文获取模块采用全自动化的爬虫工具来获取动态加载的全部网页信息,并且采用基于文本密度的网页正文抽取算法获取公报正文的内容,仅需要输入公报的网址即可启动运行。
3.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述报告信息解析模块具有图片识别功能和附件文档内容提取功能,图片识别功能采用了在本地常规电脑设备上可用的轻量级AI
...【技术特征摘要】
1.一种大语言模型驱动的低成本公报数据抽取方法,其特征在于,通过对应的模块对数据进行抽取,所述抽取方法包括以下步骤:
2.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述网页正文获取模块采用全自动化的爬虫工具来获取动态加载的全部网页信息,并且采用基于文本密度的网页正文抽取算法获取公报正文的内容,仅需要输入公报的网址即可启动运行。
3.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述报告信息解析模块具有图片识别功能和附件文档内容提取功能,图片识别功能采用了在本地常规电脑设备上可用的轻量级ai模型,可以获取表格图片里每个单元格的文字以及单元格位置信息。
4.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述指标数据提取模块向大语言模型api输...
【专利技术属性】
技术研发人员:伍三威,
申请(专利权)人:深圳小鹰网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。