System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于文本中心的主题挖掘方法、系统、设备及介质技术方案_技高网

一种基于文本中心的主题挖掘方法、系统、设备及介质技术方案

技术编号:40588263 阅读:4 留言:0更新日期:2024-03-12 21:48
本发明专利技术公开了一种基于文本中心的主题挖掘方法、系统、设备及介质。该方法通过获取待识别的目标文本,以及预设的比对文本和通用文本;对目标文本和比对文本进行分词处理,得到第一分词结果和第二分词结果;根据第二分词结果,对第一分词结果进行关键词提取处理,得到第一关键信息表;根据第一关键信息表中的关键词字段,对通用文本进行词频统计处理,得到临时词频统计表;根据临时词频统计表,对第一关键信息表进行中心处理,得到中心词表;根据中心词表,对目标文本进行主题挖掘处理,得到目标文本的文本主题。该法可以有效提高文本主题挖掘的全面性和准确度,有效节约梳理输入数据的时间,减少工作量。本发明专利技术涉及自然语言处理技术领域。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其是基于文本中心的主题挖掘方法、系统、设备及介质


技术介绍

1、近年来,随着社会的日益发展,文本数据的数据量愈发庞大,人们对文本数据的主题挖掘的关注度越来越高。

2、目前,传统的文本主题挖掘方式需要预先建立较为完备的主题和主题的相关词库,输出结果严重依赖前期输入数据的完整性和准确性,但该种方式并不能全面挖掘文本中的信息,主题挖掘的全面性和准确度偏低,同时,技术人员在梳理前期输入数据所需的时间较多,工作量较大。

3、因此,现有技术存在的问题还亟需解决和优化。


技术实现思路

1、本专利技术的目的在于至少一定程度上解决相关技术中存在的技术问题之一。

2、为此,本专利技术实施例的第一个目的在于提供一种基于文本中心的主题挖掘方法,该方法可以有效提高文本主题挖掘的全面性和准确度,有效节约梳理输入数据的时间,减少工作量。

3、本申请实施例的第二个目的在于提供一种基于文本中心的主题挖掘系统。

4、为了达到上述技术目的,本申请实施例所采取的技术方案包括:

5、第一方面,本申请实施例提供了一种基于文本中心的主题挖掘方法,包括:

6、获取待识别的目标文本,以及预设的比对文本和通用文本,所述目标文本包括多个目标词语,所述比对文本包括多个比对词语;

7、对所述目标文本进行第一分词处理,得到第一分词结果,以及对所述比对文本进行第二分词处理,得到第二分词结果;

8、根据所述第二分词结果,对所述第一分词结果进行关键词提取处理,得到第一关键信息表,所述第一关键信息表包括关键词字段,所述关键词字段为目标比例大于等于文本比例的目标词语,所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值,所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值;

9、根据所述第一关键信息表中的关键词字段,对所述通用文本进行词频统计处理,得到临时词频统计表,所述临时词频统计表包括临时词字段和临时词词频字段,所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词,以及与所述目标临时词相邻的临近临时词,所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频;

10、根据所述临时词频统计表,对所述第一关键信息表进行中心处理,得到中心词表;

11、根据所述中心词表,对所述目标文本进行主题挖掘处理,得到所述目标文本的文本主题。

12、另外,根据本申请上述实施例的基于文本中心的主题挖掘方法,还可以具有以下附加的技术特征:

13、进一步地,在本申请的一个实施例中,所述根据所述第二分词结果,对所述第一分词结果进行关键词提取处理,得到第一关键信息表,包括:

14、根据预设的第一比例阈值,对所述第一分词结果进行第一统计筛选处理,得到第一词频序列;

15、对所述第二分词结果进行第二词频统计处理,得到第二词频序列;

16、根据所述第一词频序列和第二词频序列,得到所述目标比例,以及,根据所述目标文本的文本数和所述比对文本的文本数,得到所述文本比例;

17、根据所述目标比例和所述文本比例,对所述第一分词结果进行筛选处理,得到所述第一关键信息表。

18、进一步地,在本申请的一个实施例中,所述根据所述目标比例和所述文本比例,对所述第一分词结果进行筛选处理,得到所述第一关键信息表这一步骤之后,还包括:

19、获取预设的白名单,所述白名单用于记录数字类型的词语和字母类型的词语;

20、根据所述白名单,对所述第一关键信息表进行剔除处理,得到剔除后的第一关键信息表。

21、进一步地,在本申请的一个实施例中,所述根据所述第一关键信息表中的关键词字段,对所述通用文本进行词频统计处理,得到临时词频统计表,包括:

22、获取第一相邻阈值;

23、根据所述第一相邻阈值和所述第一关键信息表中的关键词字段,得到临时词字段;

24、对所述临时词字段进行筛选统计处理,得到所述临时词频统计表。

25、进一步地,在本申请的一个实施例中,所述第一关键信息表还包括关键词词频字段,所述关键词词频字段为所述目标词语出现在所述目标文本或者所述比对文本中的词频,所述根据所述临时词频统计表,对所述第一关键信息表进行中心处理,得到中心词表,包括:

26、根据所述关键词词频字段和所述关键词字段,确定所述关键词字段中的当前目标词语和与所述当前目标词语对应的第一关键词词频,以及,根据所述当前目标词语、所述临时词字段和所述临时词词频字段,确定与所述当前目标词语对应的第一临时词,以及所述第一临时词的第一临时词词频;

27、根据所述第一临时词词频比例和所述第一关键词词频之间的比值,对所述文本比例进行比较处理,得到比较结果;

28、若所述比较结果为所述第一临时词词频和所述第一关键词词频之间的比值大于所述文本比例,则将所述第一临时词作为所述当前目标词语的中心词,以及将所述当前目标词语作为所述中心词的相关词,或者,若所述比较结果为所述第一临时词词频和所述第一关键词词频之间的比值小于等于所述文本比例,则将所述当前目标词语作为中心词;

29、返回根据所述关键词词频字段和所述关键词字段,确定所述关键词字段中的当前目标词语和与所述当前目标词语对应的第一关键词词频,以及,根据所述当前目标词语、所述临时词字段和所述临时词词频字段,确定与所述当前目标词语对应的第一临时词,以及所述第一临时词的第一临时词词频这一步骤,直至确定出所有与所述关键词字段中的目标词语对应的中心词;

30、根据所述中心词和所述相关词,生成所述中心词表。

31、进一步地,在本申请的一个实施例中,所述根据所述中心词表,对所述目标文本进行主题挖掘处理,得到所述目标文本的文本主题,包括:

32、根据所述中心词表的中心词和相关词,对所述目标文本进行清洗重排处理,得到清洗词组,所述清洗词组包括多个清洗短句,每个所述清洗短句中的清洗词语以所述中心词为中心,根据所述清洗词语在所述目标文本的词序排列;

33、对所述清洗词组中的各个清洗短句进行局部主题挖掘处理,得到各个所述清洗短句的短句主题;

34、对所有所述短句主题进行整体主题挖掘处理,得到所述目标文本的文本主题。

35、进一步地,在本申请的一个实施例中,所述基于文本中心的主题挖掘方法,还包括:

36、对所述中心词表中的相关词进行同义词合并处理,得到合并后的中心词表;

37、对所述合并后的中心词表进行正则化处理,得到与所述合并后的中心词表对应正则表达式;

38、根据所述正则表达式对所述目标文本进行正则匹配处理,得到所述目标文本的正则匹配结果。

39、第二方面,本申请实施例提供了一种基于文本中心的主题挖掘系统,包括:

...

【技术保护点】

1.一种基于文本中心的主题挖掘方法,其特征在于,包括:

2.根据权利要求1所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述第二分词结果,对所述第一分词结果进行关键词提取处理,得到第一关键信息表,包括:

3.根据权利要求2所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述目标比例和所述文本比例,对所述第一分词结果进行筛选处理,得到所述第一关键信息表这一步骤之后,还包括:

4.根据权利要求1所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述第一关键信息表中的关键词字段,对所述通用文本进行词频统计处理,得到临时词频统计表,包括:

5.根据权利要求1所述的基于文本中心的主题挖掘方法,其特征在于,所述第一关键信息表还包括关键词词频字段,所述关键词词频字段为所述目标词语出现在所述目标文本或者所述比对文本中的词频,所述根据所述临时词频统计表,对所述第一关键信息表进行中心处理,得到中心词表,包括:

6.根据权利要求5所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述中心词表,对所述目标文本进行主题挖掘处理,得到所述目标文本的文本主题,包括:

7.根据权利要求6所述的基于文本中心的主题挖掘方法,其特征在于,所述基于文本中心的主题挖掘方法,还包括:

8.一种基于文本中心的主题挖掘系统,其特征在于,包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于文本中心的主题挖掘方法,其特征在于,包括:

2.根据权利要求1所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述第二分词结果,对所述第一分词结果进行关键词提取处理,得到第一关键信息表,包括:

3.根据权利要求2所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述目标比例和所述文本比例,对所述第一分词结果进行筛选处理,得到所述第一关键信息表这一步骤之后,还包括:

4.根据权利要求1所述的基于文本中心的主题挖掘方法,其特征在于,所述根据所述第一关键信息表中的关键词字段,对所述通用文本进行词频统计处理,得到临时词频统计表,包括:

5.根据权利要求1所述的基于文本中心的主题挖掘方法,其特征在于,所述第一关键信息表还包括关键词词频字段,所述关键词词频...

【专利技术属性】
技术研发人员:文林付俊杰施冰胡鹏迪周迁荣梁明坚邓勇陈俊辉李振文张露
申请(专利权)人:东风日产数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1