一种从公告提取股权激励计划数据的方法及系统技术方案

技术编号：40609257 阅读：3 留言：0更新日期：2024-03-12 22:16

本发明专利技术涉及数据处理技术领域，公开了一种从公告提取股权激励计划数据的方法及系统，包括以下具体步骤：爬取待检索公司的公告数据；对爬取的公告数据进行粗过滤：筛选出包括关键词的公告数据；对包括关键词的公告数据进行细加工，筛选出包括股权激励特征词的公告数据；从细加工后的公告数据根据朴素贝叶斯算法分类出股权激励草案公告；按页提取分类得到的股权激励草案公告的内容，提取出股权激励草案相关的文字和文字所在的坐标，将坐标排序，拼接文字得到有序的文字内容；对有序的文字内容进行拆句、向量化，得到股权激励计划数据。本发明专利技术解决了现有技术不适用于股权激励计划，效率低的问题，且具有及时性高，迭代速度快的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，更具体的，涉及一种从公告提取股权激励计划数据的方法及系统。

技术介绍

1、目前国内上市企业想要实施股权激励计划，首先需要发出公告向员工和市场说明实施股权激励计划的具体方案，比如将要拿出多少股份对多少员工进行激励，以达到什么样的激励效果。而企业在制定股权激励方案的时候，往往很难知道拿出多少股份、激励多少员工才能达到期望的激励效果。这个时候企业就会想要参考同类型其它已经实施过股权激励企业的数据。

2、然而企业发布的公告往往是以口述话的语言描述，想要从中提取关键、有效数据是比较复杂的。目前现有的实现方案大都是以人工一行一行的阅读公告，并通过粘贴、复制的方式将需要的指标提取出来。通过人工提取的方式效率低、耗时久，及时性很难保证，并且很难进行大规模、大批量的处理。因此本专利技术主要通过机械化的手段，通过自动化的方式将公告中的指标提取出来。

3、现有技术有一种公告文本关键信息提取方法，包括如下步骤：将公告文本转换为html文件，所述html文件中包含div控件，每个div控件对应代表一行文字；根据div控件的描述样式提取文字信息和表格信息，且在提取的过程中将相邻的语义关联的行合并为段落，与相邻行不存在语义关联的行独立成为段落，得到结构化文本；建立包含关键词的关键信息表单；通过特征工程获取关键信息，并该关键信息写入所述关键信息表单中，完成公告文本的关键信息提取。

4、然而现有技术存在不适用于股权激励计划，效率低的问题，因此如何专利技术一种适用于股权激励计划，效率高的从公告提取股权激励

技术实现思路

1、本专利技术为了解决现有技术不适用于股权激励计划，效率低的问题，提供了一种从公告提取股权激励计划数据的方法及系统，其具有及时性高，迭代速度快的特点。

2、为实现上述本专利技术目的，采用的技术方案如下：

3、一种从公告提取股权激励计划数据的方法，包括以下具体步骤：

4、通过爬虫技术，爬取待检索公司的公告数据；

5、对爬取的公告数据进行粗过滤：定义特征词数据池，迭代遍历特征词数据池，筛选出包括关键词的公告数据；

6、对包括关键词的公告数据进行细加工；构建股权激励分词库，对包括关键词的公告数据中的标题数据进行分词，筛选出包括股权激励特征词的公告数据；

7、从细加工后的公告数据根据朴素贝叶斯算法分类出股权激励草案公告；

8、按页提取分类得到的股权激励草案公告的内容，提取出股权激励草案相关的文字和文字所在的坐标，将坐标排序，拼接文字得到有序的文字内容；

9、对有序的文字内容进行拆句、向量化，得到股权激励计划数据。

10、更进一步的，所述的通过爬虫技术，爬取待检索公司的公告数据，具体步骤为：通过爬虫技术从巨潮网及待检索公司官网下爬取出所有的公告数据，并将其存入到关系型数据库公告数据表中；爬取下来的公告数据包含每条公告对应的股票代码、公告标题、公告日期、公告对应的文件地址。

11、更进一步的，所述的迭代遍历特征词数据池，筛选出包括关键词的公告数据，具体为：迭代遍历特征词数据池，判断公告数据中公告标题是否包含特征词，包含则将公告标题对应的公告数据保存到关系型数据库的股权激励公告数据表中。

12、更进一步的，所述的股权激励分词库包括特征词“股权激励、限制性股票、一类限制性股票、二类限制性股票、股票期权、草案、第一类限制性股票、第二类限制性股票、上市公司名称”。

13、更进一步的，所述的从细加工后的公告数据根据朴素贝叶斯算法分类出股权激励草案公告，具体步骤为：

14、获取训练用公告数据，将训练用公告数据作为训练集，对公告打标签、分词、计算获取到公告标题为某个类别的概率p(w|c)、某个类别出现的概率p(c)、公告标题出现的概率p(w)的值；

15、从细加工后的公告数据根据朴素贝叶斯算法分类出股权激励草案公告：

16、p(c|w)＝p(w|c)＊p(c)/p(w)

17、其中，w表示标题分词后的特征词，c表示公告对应的类别，分别为股权激励草案和非股权激励草案；(w|c)表示的是在某个类别下特征词出现的概率；若p(激励草案|w)>p(非激励草案|w)，则认为该公告为激励草案公告，反之则不是；p(c)表示某个类别出现的概率；p(w)表示公告标题出现的概率；在分类的过程中，若出现在训练集中未出现过的特征词，则通过拉普拉斯平滑系数对朴素贝叶斯算法进行平滑。

18、更进一步的，所述的按页提取出股权激励草案公告的内容，提取出股权激励草案相关的文字和文字所在的坐标，具体步骤为：

19、将分类得到的股权激励草案公告对应的文件下载到服务器中；

20、下载文件；使用解析工具从下载下来的文件中按页提取出公告的内容；内容括文字和文字在文件中的坐标，格式为文字a(x，y)；x和y分别表示横坐标和纵坐标，原点为文件页面的一角；通过排序算法将坐标排序，然后拼接文字得到文件中有序的文字内容。

21、更进一步的，所述的对有序的文字内容进行拆句、向量化，具体步骤为：

22、构建有限状态自动机，逐字读取文本内容，若读到的字不包含在以上标点符号中则添加到集合中，若在以上标点符号中，则认为集合中的所有字为一个句子，存储句子、清空集合，读取下一个字；循环直到文本读取完成，从而完成对有序的文字内容按照标点符号拆句；

23、将拆句后的文本输入文本嵌入模型，通过通过模型训练得到文本对应的向量，并将得到的向量存储在向量数据库。

24、更进一步的，所述的向量数据库为faiss、milvus、weaviate向量数据库任一种。

25、更进一步的，得到股权激励计划数据后，还进一步从股权激励公告提取了有效指标，其具体步骤为：

26、按照指标期望，将指标分类为数值型、枚举型：其中，数值型对应的为授予总股数、解锁价格的浮点数，枚举类型为会计计算方式具有特定值的指标；

27、根据指标类型构建检索关键字；对于数值类型的指标，构建问询式的句式检索关键字；对于枚举类型的指标，构建关键字检索条件组，关键字为枚举值；

28、根据检索关键字，在向量数据库进行检索：

29、对于数值类的指标，检索后获取到前若干个检索结果，分别对每一个检索结果进行内容提取；内容提取为每一个指标预设正则表达式，通过正则表达式提取文本中的数值；提取出若干个数值后，获取出现次数最多的数值为该指标的结果；若若干个数值都不相同或都为空，则标记该指标提取失败，将结果为空；

30、对于枚举值类的指标，则根据关键字检索条件组的值去向量数据库中进行循环检索，若检索出来的结果与枚举值的相似度高于设定的阈值，则将枚举值设置为该指标结果。

31、一种提取股权激励计划数据的系统，包括爬虫模块、粗过滤模块、细加工模块、分类模块、本文档来自技高网...

【技术保护点】

1.一种从公告提取股权激励计划数据的方法，其特征在于：包括以下具体步骤：

2.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征在于：所述的通过爬虫技术，爬取待检索公司的公告数据，具体步骤为：通过爬虫技术从巨潮网及待检索公司官网下爬取出所有的公告数据，并将其存入到关系型数据库公告数据表中；爬取下来的公告数据包含每条公告对应的股票代码、公告标题、公告日期、公告对应的文件地址。

3.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征在于：所述的迭代遍历特征词数据池，筛选出包括关键词的公告数据，具体为：迭代遍历特征词数据池，判断公告数据中公告标题是否包含特征词，包含则将公告标题对应的公告数据保存到关系型数据库的股权激励公告数据表中。

4.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征在于：所述的股权激励分词库包括特征词“股权激励、限制性股票、一类限制性股票、二类限制性股票、股票期权、草案、第一类限制性股票、第二类限制性股票、上市公司名称”。

5.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征

6.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征在于：所述的按页提取出股权激励草案公告的内容，提取出股权激励草案相关的文字和文字所在的坐标，具体步骤为：

7.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征在于：所述的对有序的文字内容进行拆句、向量化，具体步骤为：

8.根据权利要求7所述的从公告提取股权激励计划数据的方法，其特征在于：所述的向量数据库为Faiss、Milvus、Weaviate向量数据库任一种。

9.根据权利要求1所述的从公告提取股权激励计划数据的方法，其特征在于：得到股权激励计划数据后，还进一步从股权激励公告提取了有效指标，其具体步骤为：

10.一种提取股权激励计划数据的系统，其特征在于：包括爬虫模块、粗过滤模块、细加工模块、分类模块、提取拼接模块、向量化模块；

...

【技术特征摘要】

1.一种从公告提取股权激励计划数据的方法，其特征在于：包括以下具体步骤：

...

【专利技术属性】
技术研发人员：黄智，安若，孙崇，黄锐，寿梦雪，
申请(专利权)人：杭州信公小安信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人