一种基于大语言模型技术的创业类商业计划数据采集系统技术方案

技术编号:39244348 阅读:8 留言:0更新日期:2023-10-30 11:56
本发明专利技术公开了一种基于大语言模型技术的创业类商业计划数据采集系统,属于数据采集技术领域。本发明专利技术系统包括文档数据采集模块、线下数据采集模块、信息提炼模块以及存储模块;所述文档数据采集模块用于将从项目团队的用户移动终端里的各种格式的文档收集并传输到预装有大语言模型的工作站中;所述线下数据采集模块用于在线下场景中使用带有数据传输功能的拍照设备和录音设备采集的图片和音频整合成文档;所述信息提取模块用于将采集的信息提炼成用户需要的结构化信息;所述存储模块用于将采集到的文档数据、线下采集的图片和音频以及提取的结构化信息存储起来。以及提取的结构化信息存储起来。以及提取的结构化信息存储起来。

【技术实现步骤摘要】
一种基于大语言模型技术的创业类商业计划数据采集系统


[0001]本专利技术涉及数据采集
,具体为一种基于大语言模型技术的创业类商业计划数据采集系统。

技术介绍

[0002]随着近年来各种新一代技术的井喷式发展,诸多各行各业高科技公司如雨后春笋般出现,但是公司的发展不同于技术的研发,需要解决市场化的诸多问题,不同阶段需要的资源也各不相同,需要专业化的创业辅导支持。
[0003]然而,目前的创业辅导工作的创业信息记录多依赖于辅导老师的手动分类与记录,存在较多错误与疏漏的情况,目前较低的数字化水平限制了目前创业辅导的数量与质量。
[0004]创业辅导数据采集工具目前大多是传统的纸质表格记录配合office软件来做简要的数据记录,数据源主要来自于线下辅导时填写的表格与创业项目提供的pdf或pptx格式商业计划书;但是由于创业项目早期商业计划书不成熟且需要多次改动,大量的有效信息实际产生于辅导的对话中,并且商业计划书结构迥异,难以结构化采集数据;虽然填写在以excel为代表的表格中可以初步结构化数据,但是由于创业辅导老师无法在辅导时填写,辅导后填写会丢失大量信息,此外表格难以适配所有的商业计划书,部分关键信息仅可填在备注中,使得记录的数据丢失结构化特征。

技术实现思路

[0005]本专利技术的目的在于提供一种基于大语言模型技术的创业类商业计划数据采集系统,以解决上述
技术介绍
中提出的问题。
[0006]为了解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种基于大语言模型技术的创业类商业计划数据采集系统,该系统包括文档数据采集模块、线下数据采集模块、信息提炼模块以及存储模块;
[0008]所述文档数据采集模块用于将项目团队中用户移动终端的所有格式的文档收集并传输到预装有大语言模型的工作站中;所述所有格式的文档包括doc/docx、ppt/pptx和pdf;线下数据采集模块用于在线下场景中使用带有数据传输功能的拍照设备和录音设备采集的图片和音频整合成文档;信息提取模块用于将采集的信息提炼成用户需要的结构化信息;存储模块用于将采集到的文档数据、线下采集的图片和音频以及提取的结构化信息存储起来;
[0009]文档数据采集模块的输出端与线下数据采集模块的输入端相连接;线下数据采集模块的输出端与信息提炼模块的输入端相连接;信息提炼模块的输出端与存储模块的输入端相连接。
[0010]进一步的,文档数据采集模块包括Word文档单元、演示文稿单元、PDF单元以及图片单元;
[0011]Word文档单元用于提取后缀名为“.doc”和“.docx”的文档中的文字与图片,并将图片传输至图片单元,由图片单元进行识别文字信息,将所有的文字信息生成对应的编码和字符串存储到MySQL中,所述MySQL是一种开源的关系型数据库管理系统;
[0012]演示文稿单元用于提取后缀名为“.ppt”和“.pptx”的文档中的所有文本框里的文字与图片,并将图片传输至图片单元,由图片单元进行识别文字信息,将所有的文字信息生成对应的文档页编码和字符串存储到MySQL中;
[0013]PDF单元用于提取后缀名为“.pdf”的文档中的文字与图片,并将图片传输至图片单元,由图片单元进行识别文字信息,将所有的文字信息生成对应的编码和字符串存储到MySQL中;
[0014]图片单元用于接收来自Word文档单元、演示文稿单元和PDF单元的图片,并进行文字识别,识别完成后,根据图片的地址将文本数据传输至相应的单元,其中图片的命名为图片所处文档的地址,即根据图片的地址将文本数据传输至相应的文档中。
[0015]进一步的,图片单元包括:
[0016]将彩色图像转换为灰度图像,使用下列公式将每个像素的RGB值转换为灰度值:Gray=(0.3R+0.59G+0.11B);其中R、G、B分别代表彩色图像中像素的红色、绿色、蓝色分量的值,Gray代表输出的灰度图像的像素值;
[0017]利用高斯模糊去除灰度图像中的噪声,需要通过高斯函数计算每个像素与其相邻像素之间的权重,高斯函数的公式为:
[0018][0019]其中x和y代表的是当前像素与中心像素的相对位置,中心像素为参考点,它的坐标为(0,0);σ代表高斯函数的标准差;
[0020]使用高斯函数对每个像素的相邻像素进行加权平均,具体公式如下:
[0021][0022]其中,B(i,j)表示位于第i行、第j列的像素经过高斯模糊处理后的值,A(i+x,j+y)表示相邻像素的灰度值,G(x,y)表示高斯函数,N表示每个像素的相邻像素的数量;
[0023]对于每个像素(i,j),将其相邻像素的灰度值进行平均处理,具体公式如下:
[0024][0025]其中,C(i,j)表示灰度值平均处理后的像素值,B(i+x,j+y)表示经过高斯模糊处理后的像素值,N表示相邻像素的总数量;
[0026]将经过高斯模糊处理与灰度值平均处理的图像进行二值化,二值化的阈值设置为127,即当像素灰度值大于等于127时将其转化为白色,小于127时将其转化为黑色。
[0027]进一步的,图片单元的文字识别包括:
[0028]使用CRAFT文本检测算法,获得图片中各文本框的左上角点坐标(x,y),和文本框长度h和宽度w;接着用Tesseract算法提取文本框中的文字,计算文本框中每行文字数量的
最大值W
max
,并统计图片中所有文字的数量W
N
,计算图中文本框中心点的平均距离W
D
,公式如下:
[0029][0030]其中n为图片中文本框数量,p和q为文本框的编号,指图中任意2个文本框,(x
p
,y
p
)代表p文本框的左上角点坐标,(x
q
,y
q
)代表q文本框的左上角点坐标;
[0031]如果满足W
N
<24且则该输入的图片视为噪声图片,直接删除,不再输出结果,否则输出Tesseract算法提取的文字并删除换行符,得到图片模块的输出结果字符串。
[0032]进一步的,线下数据采集模块包括图片采集单元、语音采集单元、传输单元和文档化单元;
[0033]图片采集单元用于采集线下场景的图片,图片以采集的时间命名送入传输单元,图片格式统一为png;所述语音采集单元用于采集线下场景的音频,音频以采集的时间命名送入传输单元,音频格式统一为wav,音频每m分钟存为一个文件,m为正整数;
[0034]传输单元包括蓝牙和WIFI两部分,用于传输图片采集单元和语音采集单元的数据;文档化单元用于将音频和图片转化为文档数据采集模块可以识别的文档,输出格式为docx。
[0035]进一步的,传输单元的蓝牙传输包括:
[0036]拍照和录音设备和预装有大语言模型的工作站唯一匹配,在蓝牙接收距离内首先比对连续音频文件夹文件名清单,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型技术的创业类商业计划数据采集系统,其特征在于:该系统包括文档数据采集模块、线下数据采集模块、信息提炼模块以及存储模块;所述文档数据采集模块用于将项目团队中用户移动终端的所有格式的文档收集并传输到预装有大语言模型的工作站中;所述线下数据采集模块用于在线下场景中使用带有数据传输功能的拍照设备和录音设备采集的图片和音频整合成文档;所述信息提取模块用于将采集的信息提炼成用户需要的结构化信息;所述存储模块用于将采集到的文档数据、线下采集的图片和音频以及提取的结构化信息存储起来;所述文档数据采集模块的输出端与所述线下数据采集模块的输入端相连接;所述线下数据采集模块的输出端与所述信息提炼模块的输入端相连接;所述信息提炼模块的输出端与所述存储模块的输入端相连接。2.根据权利要求1所述的一种基于大语言模型技术的创业类商业计划数据采集系统,其特征在于:所述文档数据采集模块包括Word文档单元、演示文稿单元、PDF单元以及图片单元;所述Word文档单元用于提取后缀名为“.doc”和“.docx”的文档中的文字与图片,并将图片传输至图片单元,由图片单元进行识别文字信息,将所有的文字信息生成对应的编码和字符串存储到MySQL中,所述MySQL是一种开源的关系型数据库管理系统;所述演示文稿单元用于提取后缀名为“.ppt”和“.pptx”的文档中的所有文本框里的文字与图片,并将图片传输至图片单元,由图片单元进行识别文字信息,将所有的文字信息生成对应的文档页编码和字符串存储到MySQL中;所述PDF单元用于提取后缀名为“.pdf”的文档中的文字与图片,并将图片传输至图片单元,由图片单元进行识别文字信息,将所有的文字信息生成对应的编码和字符串存储到MySQL中;所述图片单元用于接收来自Word文档单元、演示文稿单元和PDF单元的图片,并进行文字识别,识别完成后,根据图片的地址将文本数据传输至相应的单元。3.根据权利要求2所述的一种基于大语言模型技术的创业类商业计划数据采集系统,其特征在于:所述图片单元的预处理包括:将彩色图像转换为灰度图像,使用下列公式将每个像素的RGB值转换为灰度值:Gray=(0.3R+0.59G+0.11B);其中R、G、B分别代表彩色图像中像素的红色、绿色、蓝色分量的值,Gray代表输出的灰度图像的像素值;利用高斯模糊去除灰度图像中的噪声,需要通过高斯函数计算每个像素与其相邻像素之间的权重,高斯函数的公式为:其中x和y代表的是当前像素与中心像素的相对位置,中心像素为参考点,它的坐标为(0,0);σ代表高斯函数的标准差;使用高斯函数对每个像素的相邻像素进行加权平均,具体公式如下:
其中,B(i,j)表示位于第i行、第j列的像素经过高斯模糊处理后的值,A(i+x,j+y)表示相邻像素的灰度值,G(x,y)表示高斯函数,N表示每个像素的相邻像素的数量;对于每个像素(i,j),将其相邻像素的灰度值进行平均处理,具体公式如下:其中,C(i,j)表示灰度值平均处理后的像素值,B(i+x,j+y)表示经过高斯模糊处理后的像素值,N表示相邻像素的总数量;将经过高斯模糊处理与灰度值平均处理的图像进行二值化,二值化的阈值设置为127,即当像素灰度值大于等于127时将其转化为白色,小于127时将其转化为黑色。4.根据权利要求3所述的一种基于大语言模型技术的创业类商业计划数据采集系统,其特征在于:所述图片单元的文字识别包括:使用CRAFT文本检测算法,获得图片中各文本框的左上角点坐标(x,y),和文本框长度h和宽度w;接着用Tesseract算法提取文本框中的文字,计算文本框中每行文字数量的最大值W
max
,并统计图片中所有文字的数量W
N
,计算图中文本框中心点的平均距离W
D
,公式如下:其中n为图片中文本框数量,p和q为文本框的编号,指图中...

【专利技术属性】
技术研发人员:叶小云林惠君廖应川魏富彬李谦
申请(专利权)人:北京清创汇智科技发展有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1