一种证券资讯自动抓取及语义分析方法技术

技术编号：40795905 阅读：4 留言：0更新日期：2024-03-28 19:23

本发明专利技术涉及一种证券资讯自动抓取及语义分析方法，包括以下步骤：步骤S1、用户使用自己的金融数据微调Bert模型；步骤S2、指定需要爬取的内容；步骤S3、爬取完毕后，将数据存储到本地；步骤S4、选择需要分析的内容；步骤S5、进行资讯分析；步骤S6、分析完毕，返回分析结果。其采用了爬虫和Bert预训练模型的形式，以少量金融相关信息作为训练数据，训练出了一种准确度较高的金融资讯情感分析模型。通过这种方式，可以更快速、更高效地提取和分析用户在互联网上对市场的情绪反应，从而更好地指导投资决策和风险控制。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网，尤其是涉及一种证券资讯自动抓取及语义分析方法。

技术介绍

1、在当今互联网高速发展的时代，互联网金融已经成为了一种常态。越来越多的用户在互联网上分享自己对市场的看法和观点，这形成了一片庞大的信息海洋。在这片信息海洋中不乏一些用户的情绪反应，如何快速、高效地提取和分析这些情绪，这对于互联网金融领域来说是一个痛点并且已经成为了当前互联网金融领域亟需解决的问题。

2、现有的技术中，市面上已经有一些情感分析模型，但是它们采用的模型计算方式并不通用，必须以大量的金融相关资讯来进行模型训练。这种训练过程不仅耗时耗力，而且最终的结果也并不尽如人意。

技术实现思路

1、针对现有技术存在的不足，本专利技术的目的是提供一种证券资讯自动抓取及语义分析方法，其采用了爬虫和bert预训练模型的形式，以少量金融相关信息作为训练数据，训练出了一种准确度较高的金融资讯情感分析模型。通过这种方式，可以更快速、更高效地提取和分析用户在互联网上对市场的情绪反应，从而更好地指导投资决策和风险控制。

2、本专利技术的上述专利技术目的是通过以下技术方案得以实现的：

3、一种证券资讯自动抓取及语义分析方法，包括以下步骤：

4、步骤s1、用户使用自己的金融数据微调bert模型；

5、步骤s2、指定需要爬取的内容；

6、步骤s3、爬取完毕后，将数据存储到本地；

7、步骤s4、选择需要分析的内容；

8、步骤s5、进行资讯分析；

9、步骤s6、分析完毕，返回分析结果。

10、本专利技术在一较佳示例中可以进一步配置为：在此方法中，使用vue+nodejs+python技术，采用前后端分离架构，其中，nodejs作为中间层负责处理用户输入，将输入处理后传给python程序处理；

11、python与nodejs之间采用rpc方式通讯，采用分布式的方式提升程序的吞吐量，加快加大分析数据的能力；

12、爬虫使用scrapy+csv的抓取模式，抓取后自动备份一个csv文件，便于使用者二次处理；

13、在爬取结束后，用户可以手动选择分析哪些数据。

14、本专利技术在一较佳示例中可以进一步配置为：在步骤s1中，微调bert模型的详细步骤如下：

15、(1)、准备数据集：将数据集分成训练集、验证集和测试集，并对它们进行预处理；

16、(2)、加载预训练的bert模型：可以使用预训练的bert模型，也可以使用在其他任务上微调过的bert模型，然后将其应用于当前任务；

17、(3)、构建微调模型：通过添加一个或多个层来创建新的神经网络模型，该模型包含预训练的bert模型和一个输出层，以便将bert模型输出映射到任务特定的标签；

18、(4)、训练模型：在训练集上使用反向传播算法来更新微调模型的权重和偏差；

19、(5)、调整模型：通过调整模型架构、超参数或正则化方法来进一步改进模型性能；

20、(6)、测试模型：在测试集上评估微调模型的性能，计算各种评估指标，如准确性、精确度、召回率和f1值；

21、(7)、保存微调结果：将微调结果保存下来，以备后续使用。

22、本专利技术在一较佳示例中可以进一步配置为：在步骤(1)中，数据集可以从网络上或其他来源收集适当的数据集，预处理的步骤包括tokenize、标记化和截断方式，将文本数据转换成bert模型需要的格式。

23、本专利技术在一较佳示例中可以进一步配置为：在步骤(3)中，对于情感分类任务，在bert模型之上添加一个全连接层，最终输出正面、中性或负面情感类别。

24、本专利技术在一较佳示例中可以进一步配置为：在步骤(4中)，使用随机梯度下降(sgd)优化算法来最小化模型的损失函数，并在验证集上监控模型的性能。

25、综上所述，本专利技术包括以下至少一种有益技术效果：

26、使用传统的nlp分析方法，需要非常多的标记数据来训练模型。并且由于传统方法通常需要手动选择和标记每个数据点，因此这样的过程需要大量的时间和劳动力，对于初创企业来说是一个巨大的负担。同时，由于传统方法不使用预训练的模型，模型的准确度也可能不如bert模型微调的模式。

27、相比之下，本专利技术公开了一种证券资讯自动抓取及语义分析方法，其使用bert预训练模型微调的模式可以极大地降低数据获取和标注的成本。预训练模型已经在大量无标记数据上进行了训练，可以在微调期间利用这些已经学到的知识来提高模型的准确度，从而减少需要标记的数据量。这对于初创企业来说非常有益，因为他们通常拥有有限的资源，无法承担大量数据收集和标注的费用。

28、因此，本专利技术采用了爬虫+bert模型的方式，可以以较小的成本来获取和分析大量数据，帮助初创企业快速成长。

本文档来自技高网...

【技术保护点】

1.一种证券资讯自动抓取及语义分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在此方法中，使用vue+nodejs+python技术，采用前后端分离架构，其中，nodejs作为中间层负责处理用户输入，将输入处理后传给python程序处理；

3.根据权利要求1所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在步骤S1中，微调Bert模型的详细步骤如下：

4.根据权利要求3所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在步骤(1)中，数据集可以从网络上或其他来源收集适当的数据集，预处理的步骤包括tokenize、标记化和截断方式，将文本数据转换成Bert模型需要的格式。

5.根据权利要求3所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在步骤(3)中，对于情感分类任务，在Bert模型之上添加一个全连接层，最终输出正面、中性或负面情感类别。

6.根据权利要求3所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在步骤(4中)，使用随机梯度下降(

...

【技术特征摘要】

1.一种证券资讯自动抓取及语义分析方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在步骤s1中，微调bert模型的详细步骤如下：

4.根据权利要求3所述的一种证券资讯自动抓取及语义分析方法，其特征在于，在...

【专利技术属性】
技术研发人员：戴国峰，李诚，苏科伟，李强，
申请(专利权)人：上海电子信息职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人