一种新词筛选方法、装置和电子设备制造方法及图纸

技术编号:39842941 阅读:15 留言:0更新日期:2023-12-29 16:33
本公开提供一种新词筛选方法、装置和电子设备,涉及数据处理技术领域,用于解决如何在文本处理和信息挖掘领域中快速和有效地识别新词的问题。该方法包括:获取待分析文本;对待分析文本进行文本处理,确定至少一个文本片段;根据文本片段的总数和每个文本片段的总数,确定每个文本片段的统计参数;在统计参数满足预设条件,且满足预设条件的文本片段中包含的字符为弱词的情况下,确定满足预设条件的文本片段中包含的字符为新词;其中,弱词包括目标领域中已使用的不是名词的词。目标领域中已使用的不是名词的词。目标领域中已使用的不是名词的词。

【技术实现步骤摘要】
一种新词筛选方法、装置和电子设备


[0001]本公开涉及数据处理
,尤其涉及一种新词筛选方法、装置和电子设备。

技术介绍

[0002]词汇,又称语汇,是一种语言里所有的(或特定范围的)词和固定短语的总和。随着环境的变化,时间的变化,词汇也在不断的变化,如网络新词、生产运营过程催生的新词,还可以是某一行业或某一领域的新词,而如何在文本处理和信息挖掘领域中快速和有效地识别新词也成为了一个亟待解决的问题。

技术实现思路

[0003]为了解决上述技术问题,本公开提供了一种新词筛选方法、装置和电子设备。
[0004]本公开的技术方案如下:
[0005]第一方面,本公开提供一种新词筛选方法,包括:获取待分析文本;对待分析文本进行文本处理,确定至少一个文本片段;根据文本片段的总数和每个文本片段的总数,确定每个文本片段的统计参数;其中,统计参数至少包括文本片段的出现频率、文本片段的出现频率和文本片段中包含的每个字符的出现频率确定的凝结率,文本片段在待分析文本中左侧相邻的文本片段的出现频率和文本片段的总数确定的左熵,文本片段本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种新词筛选方法,其特征在于,包括:获取待分析文本;对所述待分析文本进行文本处理,确定至少一个文本片段;根据所述文本片段的总数和每个所述文本片段的总数,确定每个所述文本片段的统计参数;其中,所述统计参数至少包括所述文本片段的出现频率、所述文本片段的出现频率和所述文本片段中包含的每个字符的出现频率确定的凝结率,所述文本片段在所述待分析文本中左侧相邻的文本片段的出现频率和所述文本片段的总数确定的左熵,所述文本片段在所述待分析文本中右侧相邻的文本片段的出现频率和所述文本片段的总数确定的右熵;在所述统计参数满足预设条件,且满足所述预设条件的文本片段中包含的字符为弱词的情况下,确定满足所述预设条件的文本片段中包含的字符为新词;其中,所述弱词包括目标领域中已使用的不是名词的词。2.根据权利1所述的新词筛选方法,其特征在于,所述对所述待分析文本进行文本处理,确定至少一个文本片段,包括:按照第一切分长度,以滑动窗口的方式对所述待分析文本进行文本分割,确定至少一个第一分割文本;其中,所述第一切分长度小于或等于最大切分长度;按照第二切分长度,以滑动窗口的方式对所述待分析文本进行文本分割,确定至少一个第二分割文本;其中,所述第二切分长度小于或等于所述第一切分长度;使用预设分词工具对所述待分析文本进行分词切割,确定至少一个第一切割文本;控制所述预设分词工具按照强词列表对所述待分析文本进行分词切割,确定至少一个第二切割文本;其中,所述强词列表中包含至少一个强词,所述强词包括所述目标领域中已使用的名词;控制所述预设分词工具按照弱词列表对所述待分析文本进行分词切割,确定至少一个第三切割文本;其中,所述弱词列表包括至少一个弱词;根据所述第一分割文本、所述第二分割文本、所述第一切割文本、所述第二切割文本和所述第三切割文本,生成至少一个文本片段;其中,所述文本片段包括所述第一分割文本、所述第二分割文本、所述第一切割文本、所述第二切割文本和所述第三切割文本中的任一项。3.根据权利2所述的新词筛选方法,其特征在于,所述根据所述第一分割文本、所述第二分割文本、所述第一切割文本、所述第二切割文本和所述第三切割文本,生成至少一个文本片段,包括:对所述第一分割文本、所述第二分割文本、所述第一切割文本、所述第二切割文本和所述第三切割文本进行汇总,生成至少一个文本片段。4.根据权利1所述的新词筛选方法,其特征在于,所述方法还包括:在所述统计参数满足预设条件,且满足所述预设条件的文本片段中包含的词不是弱词的情况下,将所述文本片段输入至预先配置的文本分类模型中,确定第一转移概率和第二转移概率;根据所述...

【专利技术属性】
技术研发人员:车进黄山山王宝云袁丽杨梅
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1