一种文本新词发现分析方法、系统、装置和介质制造方法及图纸

技术编号:41155672 阅读:18 留言:0更新日期:2024-04-30 18:20
本发明专利技术公开了一种文本新词发现分析方法、系统、装置和介质,包括获取各行业的文本数据,得到原始新词数据集;基于文本内容的行业类别字段进行筛选,得到行业文档集;基于原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集;基于行业文档集和第一候选新词集,通过预先训练好的主题模型确定原始新词数据集相对应的主题关键词预测概率,并根据主题关键词预测概率对第一候选新词集进行更新确定第二候选新词集;基于原始新词数据集和第二候选新词集进行聚类处理,确定目标候选新词集。本申请能够获得具有较高行业区别度的新词,在确保准确率和效率提高的同时,为特定行业下的新词发现提供更加高效准确的解决方案。

【技术实现步骤摘要】

本申请涉及一种机器学习和自然语言处理,尤其涉及一种文本新词发现分析方法、系统、装置和介质


技术介绍

1、在当今信息时代,随着大数据的快速增长和信息爆炸式的扩展,各行业都面临着处理海量文本信息的挑战。为了更好地理解和利用这些信息,文本新词发现成为了一项关键的任务。然而,现有的文本新词发现技术在应对不同行业、领域的差异时存在一些挑战。

2、传统的文本新词发现方法往往无法充分考虑不同行业之间的专业术语和文化差异,导致在特定行业中发现的新词可能不够准确或有一定局限性。因此,有必要提出一种文本新词发现分析方法、系统、装置和介质,以更好地适应各个行业的需求。


技术实现思路

1、本申请的目的在于提供一种文本新词发现分析方法、系统、装置和介质,以至少解决相关技术中传统的文本新词发现方法往往无法充分考虑不同行业之间的专业术语和文化差异,导致在特定行业中发现的新词不够准确的问题。

2、本申请第一方面提供一种文本新词发现分析方法,所述方法包括:

3、获取各行业的文本数据,对所述文本数据进行结构本文档来自技高网...

【技术保护点】

1.一种文本新词发现分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:

3.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述确定所述初始候选新词之后,还包括:

4.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:

5.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述拼接新词和预设先决条件,确定初始候选新...

【技术特征摘要】

1.一种文本新词发现分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:

3.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述确定所述初始候选新词之后,还包括:

4.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:

5.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述拼接新词和预设先决条件,确定初始候选新词,包括:

6.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述初始候选新词和所述关键词集,确定所述第一候选新词集,包括:

7.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述主题模型包括第一主题模型和第二主题模型;所述基于...

【专利技术属性】
技术研发人员:张文广邢添威张书浆丁照源王彪于俊高
申请(专利权)人:银江技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1