System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种动力电池文本主题挖掘方法技术_技高网

一种动力电池文本主题挖掘方法技术

技术编号:40361652 阅读:5 留言:0更新日期:2024-02-09 14:48
本发明专利技术公开了一种动力电池文本主题挖掘方法,包括:获取目标动力电池文本,并对目标动力电池文本进行预处理,将预处理之后的目标动力电池文本转换为词袋模型,得到目标动力电池文本对应的特征词频矩阵;以目标动力电池文本对应的特征词频矩阵作为LDA主题模型的输入,对LDA主题模型进行初始化,得到初始主题结果;以初始主题结果为基础,采用邻域粗糙算法优化主题数目,获取最优主题数目所对应的文本挖掘结果。本发明专利技术结合LDA主题模型与邻域粗糙算法寻找最优主题数,能良好地克服不完备信息缺陷,能应对海量文档数据的应用场景,提供快速高效的主题推荐方案,能克服困惑度指标在多主题数情形下造成模型过拟合的问题,模型整体具备鲁棒性。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种动力电池文本主题挖掘方法


技术介绍

1、动力电池作为新能源汽车的核心部件,若对其做简单粗放型处理势必造成环境的重大污染,阻碍汽车行业的绿色低碳发展。由于动力电池是朝阳产业,行业的发展需要政策的顶层设计与推动,而对行业政策的准确把握与主题挖掘将促进地方政府对行业发展现状及未来政策制定趋向的理解。本专利技术将以动力电池行业过去所颁布的大量政策文本为对象,试图从政策维度上分析政策,把握政策关键要点和重点领域、找出政策需求与发展趋势。

2、由于政策文本内容的庞大与复杂,对细节信息的抽取能力是必要的。主题挖掘可以自动化提取大量文本中的主题信息,识别并归类不同的主题,从而快速了解动力电池行业政策的核心内容,理解政策的复杂性与多样性,避免人工分析所带来的信息过载与信息遗漏缺陷。因此,本专利技术将采用自然语言处理技术实现自动化文本挖掘。


技术实现思路

1、本专利技术的目的在于提供一种动力电池文本主题挖掘方法,解决了现有技术中存在的问题。

2、本专利技术通过下述技术方案实现:

3、一种动力电池文本主题挖掘方法,包括:

4、获取目标动力电池文本,并对目标动力电池文本进行预处理,得到预处理之后的目标动力电池文本;

5、将预处理之后的目标动力电池文本转换为词袋模型,得到目标动力电池文本对应的特征词频矩阵;

6、以目标动力电池文本对应的特征词频矩阵作为lda主题模型的输入,对lda主题模型进行初始化,得到初始主题结果;

7、以所述初始主题结果为基础,采用邻域粗糙算法优化主题数目,以获取最优主题数目所对应的文本挖掘结果。

8、在一种可能的实施方式中,获取目标动力电池文本,包括:

9、获取预设的数据采集时间段或者获取人机交互输入的数据采集时间段;

10、以动力电池为关键词,在指定数据源中进行检索,获取动力电池相关文本;

11、以数据采集时间段为筛选条件,从动力电池相关文本获取目标动力电池文本。

12、在一种可能的实施方式中,对目标动力电池文本进行预处理,得到预处理之后的目标动力电池文本,包括:

13、对目标动力电池文本进行分词操作以及去除停用词操作,得到预处理之后的目标动力电池文本。

14、在一种可能的实施方式中,将预处理之后的目标动力电池文本转换为词袋模型,得到目标动力电池文本对应的特征词频矩阵,包括:

15、将预处理之后的目标动力电池文本输入python开源的gensim库中,以将预处理之后的目标动力电池文本转换为词袋模型,得到目标动力电池文本对应的特征词频矩阵。

16、在一种可能的实施方式中,以目标动力电池文本对应的特征词频矩阵作为lda主题模型的输入,对lda主题模型进行初始化,得到初始主题结果,包括:

17、获取初始化主题个数为k;其中,k=mwords/n,mwords表示所有文本中的词总数,n表示目标动力电池文本总数;

18、以初始化主题个数k为基础,以目标动力电池文本对应的特征词频矩阵作为lda主题模型的输入,获取初始主题结果。

19、在一种可能的实施方式中,以所述初始主题结果为基础,采用邻域粗糙算法优化主题数目,以获取最优主题数目所对应的文本挖掘结果,包括:

20、初始化约简集合为空集,并以所述初始主题结果为基础,构建邻域决策模型<u,c∪d>,其中,u表示论域,u={x1,x2,…,xn},x1,x2,…,xn表示初始主题结果中的n个主题样本,c∪d表示u的属性集,c表示条件属性集,d表示决策属性集;

21、以邻域决策模型<u,c∪d>为基础,获取属性集c∪d中每个属性的正域,并根据属性的正域,获取每个属性的重要度;

22、取出重要度最大的目标属性,判断目标属性的重要度是否大于预设目标,若是,则将目标属性加入至约简集合中,并返回获取属性重要度的步骤,否则输出约简集合;

23、以输出的约简集合为基础,获取最优主题数目所对应的文本挖掘结果。

24、在一种可能的实施方式中,以邻域决策模型<u,c∪d>为基础,获取属性集c∪d的属性正域,并根据属性正域,获取每个属性的重要度,包括:

25、以条件属性集c中剩余属性构建属性子集b;

26、确定主题样本xi在属性子集b上的邻域,并根据所述邻域获取决策属性集d关于属性子集b的属性正域;

27、根据所述属性正域,获取属性子集b中每个属性的属性依赖度,并根据所述属性依赖度,获取每个属性的属性重要度。

28、在一种可能的实施方式中,确定主题样本xi在属性子集b上的邻域,包括:

29、根据属性子集b,获取主题样本xi与其他主题样本xj之间的距离为;

30、

31、其中,δ(*)表示距离函数,m表示属性子集b中的总属性维度,p设置为常数,表示主题样本xi对应的第k个属性,表示其他主题样本xj对应的第k个属性,k=1,2,...,m;

32、根据主题样本xi与其他主题样本xj之间的距离,获取主题样本xi在属性子集b上的邻域为:

33、δb(xi)={xj∈u|δb(xi,xj)≤δ}

34、其中,δb(xi)表示主题样本xi在属性子集b上的邻域,δ表示邻域半径值。

35、在一种可能的实施方式中,根据所述邻域获取决策属性集d关于属性子集b的属性正域为:

36、

37、

38、其中,posb(d)表示决策属性集d关于属性子集b的属性正域,x={x1,x2,x3,…,xr}∈u/d为u被d划分出来的等价类,xi属于x,nb(xi)表示主题文本xi在属性子集b上的下近似,xi表示第i篇文本,xj表示文本中的第j个主题样本。

39、在一种可能的实施方式中,根据所述属性正域,获取属性子集b中每个属性的属性依赖度,并根据所述属性依赖度,获取每个属性的属性重要度,包括:

40、根据决策属性集d关于属性子集b的属性正域posb(d),获取决策属性集d对属性子集b的属性依赖度为:

41、

42、其中,γb(d)表示决策属性集d对属性子集b的属性依赖度;

43、根据决策属性集d对属性子集b的属性依赖度γb(d),每个属性的属性重要度为:

44、sig(a,b,d)=γb(d)-γb-a(d)

45、其中,γb-a(d)表示属性子集b去除属性a之后,决策属性集d对属性子集b的属性依赖度;sig(a,b,d)表示属性a的属性重要度。

46、本专利技术提供的一种动力电池文本主题挖掘方法,结合lda主题模型与邻域粗糙算法寻找最优主题数,能良好地克服不完备信息缺陷,能应对海量文档数据的应用场景,提供快速高效的主题推荐方案,能克服困惑度指本文档来自技高网...

【技术保护点】

1.一种动力电池文本主题挖掘方法,其特征在于,包括:

2.根据权利要求1所述的动力电池文本主题挖掘方法,其特征在于,获取目标动力电池文本,包括:

3.根据权利要求2所述的动力电池文本主题挖掘方法,其特征在于,对目标动力电池文本进行预处理,得到预处理之后的目标动力电池文本,包括:

4.根据权利要求3所述的动力电池文本主题挖掘方法,其特征在于,将预处理之后的目标动力电池文本转换为词袋模型,得到目标动力电池文本对应的特征词频矩阵,包括:

5.根据权利要求4所述的动力电池文本主题挖掘方法,其特征在于,以目标动力电池文本对应的特征词频矩阵作为LDA主题模型的输入,对LDA主题模型进行初始化,得到初始主题结果,包括:

6.根据权利要求5所述的动力电池文本主题挖掘方法,其特征在于,以所述初始主题结果为基础,采用邻域粗糙算法优化主题数目,以获取最优主题数目所对应的文本挖掘结果,包括:

7.根据权利要求6所述的动力电池文本主题挖掘方法,其特征在于,以邻域决策模型<U,C∪D>为基础,获取属性集C∪D的属性正域,并根据属性正域,获取每个属性的重要度,包括:

8.根据权利要求7所述的动力电池文本主题挖掘方法,其特征在于,确定主题样本xi在属性子集B上的邻域,包括:

9.根据权利要求8所述的动力电池文本主题挖掘方法,其特征在于,根据所述邻域获取决策属性集D关于属性子集B的属性正域为:

10.根据权利要求9所述的动力电池文本主题挖掘方法,其特征在于,根据所述属性正域,获取属性子集B中每个属性的属性依赖度,并根据所述属性依赖度,获取每个属性的属性重要度,包括:

...

【技术特征摘要】

1.一种动力电池文本主题挖掘方法,其特征在于,包括:

2.根据权利要求1所述的动力电池文本主题挖掘方法,其特征在于,获取目标动力电池文本,包括:

3.根据权利要求2所述的动力电池文本主题挖掘方法,其特征在于,对目标动力电池文本进行预处理,得到预处理之后的目标动力电池文本,包括:

4.根据权利要求3所述的动力电池文本主题挖掘方法,其特征在于,将预处理之后的目标动力电池文本转换为词袋模型,得到目标动力电池文本对应的特征词频矩阵,包括:

5.根据权利要求4所述的动力电池文本主题挖掘方法,其特征在于,以目标动力电池文本对应的特征词频矩阵作为lda主题模型的输入,对lda主题模型进行初始化,得到初始主题结果,包括:

6.根据权利要求5所述的动力电池文本主题挖掘方法,其特征在于,以...

【专利技术属性】
技术研发人员:何林王万铭宋桦茂沈瀛张业超
申请(专利权)人:四川三江数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1