基于LDA和ANN的企业文本数据挖掘方法和系统技术方案

技术编号:40909724 阅读:15 留言:0更新日期:2024-04-18 14:38
本发明专利技术提供一种基于LDA和ANN的企业年报文本数据挖掘方法、系统、存储介质和电子设备,涉及企业大数据分析领域。本发明专利技术中,首先对待分析的企业年报文本数据进行数据清洗,清洗过程至少包括利用正则表达式提取目标文本以获取优化之后的文本;其次通过LDA主题模型识别主题构建相应的文本向量;再次将获取的LDA文档‑主题多项式分布作为ANN模型的输入变量,基于预先选取的反映主题重要性的评估指标,并运用该模型评估输入变量相对于评估指标的重要性;最后根据ANN模型多次训练结果的标准误差,确定各项文本主题的最终排序。充分挖掘了企业自身自产的数据要素价值,更好辅助企业利益相关者评估企业发展潜力和优化投资决策。

【技术实现步骤摘要】

本专利技术涉及企业大数据分析领域,具体涉及一种基于lda和ann的企业文本数据挖掘方法、系统、存储介质和电子设备。


技术介绍

1、根据《数据资产管理实践白皮书(5.0版)》中的定义,数据资产是指企业通过采集、存储与分析所形成的海量信息型的资源,且未来能够给企业带来经济价值。企业年报是一种具有严格规范性和逻辑结构的文本,其中大量结构化和非结构化的文本数据披露了丰富信息。通过深入分析企业年报,可以充分挖掘企业自身自产的数据要素价值,更好辅助企业利益相关者评估企业发展潜力和优化投资决策。

2、上述文本的信息量大且逐年增加,先前技术通常采用人工阅读和标注的方式进行重复且技术含量低的企业文本分析工作,准确度难以保证。随着文本数据的积累和机器学习的发展,基于lda的主题模型被广泛用于文本分析,但其在企业年报文本数据挖掘中的应用局限于文本主题分析、语调分析、词频分析等文本内容分析,需要进一步挖掘文本主题中蕴含的经济含义,以量化年报文本的数据要素价值。


技术实现思路

1、(一)解决的技术问题</p>

2、针对本文档来自技高网...

【技术保护点】

1.一种基于LDA和ANN的企业文本数据挖掘方法,其特征在于,包括:

2.如权利要求1所述的企业文本数据挖掘方法,其特征在于,所述利用正则表达式提取目标文本,包括:

3.如权利要求1所述的企业文本数据挖掘方法,其特征在于,预先采用吉布斯抽样算法对所述LDA主题模型的中间参数进行求解,包括:

4.如权利要求1所述的企业文本数据挖掘方法,其特征在于,在执行所述获取相应的LDA主题分布概率、LDA文档-主题多项式分布以及LDA主题-词多项式分布之前,还对所述优化文本加入停用词、并进行中文分词,以降低文本噪音。

5.如权利要求1所述的企业文本数据挖...

【技术特征摘要】

1.一种基于lda和ann的企业文本数据挖掘方法,其特征在于,包括:

2.如权利要求1所述的企业文本数据挖掘方法,其特征在于,所述利用正则表达式提取目标文本,包括:

3.如权利要求1所述的企业文本数据挖掘方法,其特征在于,预先采用吉布斯抽样算法对所述lda主题模型的中间参数进行求解,包括:

4.如权利要求1所述的企业文本数据挖掘方法,其特征在于,在执行所述获取相应的lda主题分布概率、lda文档-主题多项式分布以及lda主题-词多项式分布之前,还对所述优化文本加入停用词、并进行中文分词,以降低文本噪音。

5.如权利要求1所述的企业文本数据挖掘方法,其特征在于,采用手肘法选择所述困惑度的拐点作为最佳的主题数量。

6.如权利要求1所...

【专利技术属性】
技术研发人员:李阳侯若岚胡文慧
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1