【技术实现步骤摘要】
本专利技术涉及企业大数据分析领域,具体涉及一种基于lda和ann的企业文本数据挖掘方法、系统、存储介质和电子设备。
技术介绍
1、根据《数据资产管理实践白皮书(5.0版)》中的定义,数据资产是指企业通过采集、存储与分析所形成的海量信息型的资源,且未来能够给企业带来经济价值。企业年报是一种具有严格规范性和逻辑结构的文本,其中大量结构化和非结构化的文本数据披露了丰富信息。通过深入分析企业年报,可以充分挖掘企业自身自产的数据要素价值,更好辅助企业利益相关者评估企业发展潜力和优化投资决策。
2、上述文本的信息量大且逐年增加,先前技术通常采用人工阅读和标注的方式进行重复且技术含量低的企业文本分析工作,准确度难以保证。随着文本数据的积累和机器学习的发展,基于lda的主题模型被广泛用于文本分析,但其在企业年报文本数据挖掘中的应用局限于文本主题分析、语调分析、词频分析等文本内容分析,需要进一步挖掘文本主题中蕴含的经济含义,以量化年报文本的数据要素价值。
技术实现思路
1、(一)解决的技术问题<
...【技术保护点】
1.一种基于LDA和ANN的企业文本数据挖掘方法,其特征在于,包括:
2.如权利要求1所述的企业文本数据挖掘方法,其特征在于,所述利用正则表达式提取目标文本,包括:
3.如权利要求1所述的企业文本数据挖掘方法,其特征在于,预先采用吉布斯抽样算法对所述LDA主题模型的中间参数进行求解,包括:
4.如权利要求1所述的企业文本数据挖掘方法,其特征在于,在执行所述获取相应的LDA主题分布概率、LDA文档-主题多项式分布以及LDA主题-词多项式分布之前,还对所述优化文本加入停用词、并进行中文分词,以降低文本噪音。
5.如权利要求1
...【技术特征摘要】
1.一种基于lda和ann的企业文本数据挖掘方法,其特征在于,包括:
2.如权利要求1所述的企业文本数据挖掘方法,其特征在于,所述利用正则表达式提取目标文本,包括:
3.如权利要求1所述的企业文本数据挖掘方法,其特征在于,预先采用吉布斯抽样算法对所述lda主题模型的中间参数进行求解,包括:
4.如权利要求1所述的企业文本数据挖掘方法,其特征在于,在执行所述获取相应的lda主题分布概率、lda文档-主题多项式分布以及lda主题-词多项式分布之前,还对所述优化文本加入停用词、并进行中文分词,以降低文本噪音。
5.如权利要求1所述的企业文本数据挖掘方法,其特征在于,采用手肘法选择所述困惑度的拐点作为最佳的主题数量。
6.如权利要求1所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。