一种基于大语言模型技术的创业类商业计划数据采集系统技术方案

技术编号：39244348 阅读：8 留言：0更新日期：2023-10-30 11:56

本发明专利技术公开了一种基于大语言模型技术的创业类商业计划数据采集系统，属于数据采集技术领域。本发明专利技术系统包括文档数据采集模块、线下数据采集模块、信息提炼模块以及存储模块；所述文档数据采集模块用于将从项目团队的用户移动终端里的各种格式的文档收集并传输到预装有大语言模型的工作站中；所述线下数据采集模块用于在线下场景中使用带有数据传输功能的拍照设备和录音设备采集的图片和音频整合成文档；所述信息提取模块用于将采集的信息提炼成用户需要的结构化信息；所述存储模块用于将采集到的文档数据、线下采集的图片和音频以及提取的结构化信息存储起来。以及提取的结构化信息存储起来。以及提取的结构化信息存储起来。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大语言模型技术的创业类商业计划数据采集系统

[0001]本专利技术涉及数据采集
，具体为一种基于大语言模型技术的创业类商业计划数据采集系统。

技术介绍

[0002]随着近年来各种新一代技术的井喷式发展，诸多各行各业高科技公司如雨后春笋般出现，但是公司的发展不同于技术的研发，需要解决市场化的诸多问题，不同阶段需要的资源也各不相同，需要专业化的创业辅导支持。
[0003]然而，目前的创业辅导工作的创业信息记录多依赖于辅导老师的手动分类与记录，存在较多错误与疏漏的情况，目前较低的数字化水平限制了目前创业辅导的数量与质量。
[0004]创业辅导数据采集工具目前大多是传统的纸质表格记录配合office软件来做简要的数据记录，数据源主要来自于线下辅导时填写的表格与创业项目提供的pdf或pptx格式商业计划书；但是由于创业项目早期商业计划书不成熟且需要多次改动，大量的有效信息实际产生于辅导的对话中，并且商业计划书结构迥异，难以结构化采集数据；虽然填写在以excel为代表的表格中可以初步结构化数据，但是由于创业辅导老师无法在辅导时填写，辅导后填写会丢失大量信息，此外表格难以适配所有的商业计划书，部分关键信息仅可填在备注中，使得记录的数据丢失结构化特征。

技术实现思路

[0005]本专利技术的目的在于提供一种基于大语言模型技术的创业类商业计划数据采集系统，以解决上述
技术介绍
中提出的问题。
[0006]为了解决上述技术问题，本专利技术提供如下技术方案：
[0007]一种基于大...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型技术的创业类商业计划数据采集系统，其特征在于：该系统包括文档数据采集模块、线下数据采集模块、信息提炼模块以及存储模块；所述文档数据采集模块用于将项目团队中用户移动终端的所有格式的文档收集并传输到预装有大语言模型的工作站中；所述线下数据采集模块用于在线下场景中使用带有数据传输功能的拍照设备和录音设备采集的图片和音频整合成文档；所述信息提取模块用于将采集的信息提炼成用户需要的结构化信息；所述存储模块用于将采集到的文档数据、线下采集的图片和音频以及提取的结构化信息存储起来；所述文档数据采集模块的输出端与所述线下数据采集模块的输入端相连接；所述线下数据采集模块的输出端与所述信息提炼模块的输入端相连接；所述信息提炼模块的输出端与所述存储模块的输入端相连接。2.根据权利要求1所述的一种基于大语言模型技术的创业类商业计划数据采集系统，其特征在于：所述文档数据采集模块包括Word文档单元、演示文稿单元、PDF单元以及图片单元；所述Word文档单元用于提取后缀名为“.doc”和“.docx”的文档中的文字与图片，并将图片传输至图片单元，由图片单元进行识别文字信息，将所有的文字信息生成对应的编码和字符串存储到MySQL中,所述MySQL是一种开源的关系型数据库管理系统；所述演示文稿单元用于提取后缀名为“.ppt”和“.pptx”的文档中的所有文本框里的文字与图片，并将图片传输至图片单元，由图片单元进行识别文字信息，将所有的文字信息生成对应的文档页编码和字符串存储到MySQL中；所述PDF单元用于提取后缀名为“.pdf”的文档中的文字与图片，并将图片传输至图片单元，由图片单元进行识别文字信息，将所有的文字信息生成对应的编码和字符串存储到MySQL中；所述图片单元用于接收来自Word文档单元、演示文稿单元和PDF单元的图片，并进行文字识别，识别完成后，根据图片的地址将文本数据传输至相应的单元。3.根据权利要求2所述的一种基于大语言模型技术的创业类商业计划数据采集系统，其特征在于：所述图片单元的预处理包括：将彩色图像转换为灰度图像，使用下列公式将每个像素的RGB值转换为灰度值：Gray＝(0.3R+0.59G+0.11B)；其中R、G、B分别代表彩色图像中像素的红色、绿色、蓝色分量的值，Gray代表输出的灰度图像的像素值；利用高斯模糊去除灰度图像中的噪声，需要通过高斯函数计算每个像素与其相邻像素之间的权重，高斯函数的公式为：其中x和y代表的是当前像素与中心像素的相对位置，中心像素为参考点，它的坐标为(0,0)；σ代表高斯函数的标准差；使用高斯函数对每个像素的相邻像素进行加权平均，具体公式如下：
其中，B(i,j)表示位于第i行、第j列的像素经过高斯模糊处理后的值，A(i+x,j+y)表示相邻像素的灰度值，G(x,y)表示高斯函数,N表示每个像素的相邻像素的数量；对于每个像素(i,j)，将其相邻像素的灰度值进行平均处理，具体公式如下：其中，C(i,j)表示灰度值平均处理后的像素值，B(i+x,j+y)表示经过高斯模糊处理后的像素值，N表示相邻像素的总数量；将经过高斯模糊处理与灰度值平均处理的图像进行二值化，二值化的阈值设置为127，即当像素灰度值大于等于127时将其转化为白色，小于127时将其转化为黑色。4.根据权利要求3所述的一种基于大语言模型技术的创业类商业计划数据采集系统，其特征在于：所述图片单元的文字识别包括：使用CRAFT文本检测算法，获得图片中各文本框的左上角点坐标(x,y)，和文本框长度h和宽度w；接着用Tesseract算法提取文本框中的文字，计算文本框中每行文字数量的最大值W
max
，并统计图片中所有文字的数量W
N
，计算图中文本框中心点的平均距离W
D
，公式如下：其中n为图片中文本框数量，p和q为文本框的编号，指图中...

【专利技术属性】
技术研发人员：叶小云，林惠君，廖应川，魏富彬，李谦，
申请(专利权)人：北京清创汇智科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人