【技术实现步骤摘要】
本申请涉及一种机器学习和自然语言处理,尤其涉及一种文本新词发现分析方法、系统、装置和介质。
技术介绍
1、在当今信息时代,随着大数据的快速增长和信息爆炸式的扩展,各行业都面临着处理海量文本信息的挑战。为了更好地理解和利用这些信息,文本新词发现成为了一项关键的任务。然而,现有的文本新词发现技术在应对不同行业、领域的差异时存在一些挑战。
2、传统的文本新词发现方法往往无法充分考虑不同行业之间的专业术语和文化差异,导致在特定行业中发现的新词可能不够准确或有一定局限性。因此,有必要提出一种文本新词发现分析方法、系统、装置和介质,以更好地适应各个行业的需求。
技术实现思路
1、本申请的目的在于提供一种文本新词发现分析方法、系统、装置和介质,以至少解决相关技术中传统的文本新词发现方法往往无法充分考虑不同行业之间的专业术语和文化差异,导致在特定行业中发现的新词不够准确的问题。
2、本申请第一方面提供一种文本新词发现分析方法,所述方法包括:
3、获取各行业的文本数据,对
...【技术保护点】
1.一种文本新词发现分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:
3.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述确定所述初始候选新词之后,还包括:
4.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:
5.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述拼接新词和预设先决
...【技术特征摘要】
1.一种文本新词发现分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:
3.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述确定所述初始候选新词之后,还包括:
4.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:
5.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述拼接新词和预设先决条件,确定初始候选新词,包括:
6.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述初始候选新词和所述关键词集,确定所述第一候选新词集,包括:
7.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述主题模型包括第一主题模型和第二主题模型;所述基于...
【专利技术属性】
技术研发人员:张文广,邢添威,张书浆,丁照源,王彪,于俊高,
申请(专利权)人:银江技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。