一种行业新词发现方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24497911 阅读:31 留言:0更新日期:2020-06-13 03:47
本申请提出一种行业新词发现方法、装置、存储介质及电子设备。首先,加载行业词库和停用词库到分词模型中,将待检索文本作为分词模型的输入,以得到分词结果,依据左右互信息熵算法对分词结果进行分析,以获得结果集合,分词模型依据行业词库和停用词库筛选出来的目标词,均为与行业相关的,且具有业务意义的词汇,避免得到无意义或不相关的新词或短语,排除干扰,保证了目标词相对于行业的准确性和有效性,更便于工作人员对目标词进行进一步分析。

An industry new word discovery method, device, storage medium and electronic equipment

【技术实现步骤摘要】
一种行业新词发现方法、装置、存储介质及电子设备
本申请涉及自然语言处理领域,具体而言,涉及一种行业新词发现方法、装置、存储介质及电子设备。
技术介绍
随着国民经济的快速发展,犯罪的手段和方法都发生了显著的变化,以电信诈骗为代表的新型诈骗案更是呈逐年上升的水平;随着互联网技术和网络文化的发展,这些案件的特征也呈现多样化和的趋势,特别是警情和案情的描述中经常会出现新的网络用语和流行词汇,对这些新词汇的挖掘和发现,能有效了解近期案件的发生情况和特征信息,对案件的预防和侦破都有很大的帮助。因此,从最近发生的警情文本或简要案情文本信息中,发现能代表案件典型特征的新词或短语就非常关键。通过精准的新词或短语的挖掘和发现,就可以准确的表征近期警情/案件的语义特征和规律,进而及时做好对相关案件的预防措施,为案件的侦破提供更多线索。现有技术常常会得到无意义或不相关的新词或短语,这对案情并没有帮助,反而可能干扰对案情的判断。
技术实现思路
本申请的目的在于提供一种行业新词发现方法、装置、存储介质及电子设备,以解决上述问题。r>为了实现上述目的本文档来自技高网...

【技术保护点】
1.一种行业新词发现方法,其特征在于,所述方法包括:/n加载行业词库和停用词库到分词模型中,其中,所述行业词库包括基本词汇和行业词汇,所述停用词库包括停用词汇、习惯语词汇以及无业务意义的词汇;/n将待检索文本作为所述分词模型的输入,以得到分词结果,其中,所述分词结果包括所述待检索文本中的单词和/或短语;/n依据左右互信息熵算法对所述分词结果进行分析,以获得结果集合,其中,所述结果集合包含所述待检索文本中的目标词,所述目标词的信息熵大于或等于信息熵阈值。/n

【技术特征摘要】
1.一种行业新词发现方法,其特征在于,所述方法包括:
加载行业词库和停用词库到分词模型中,其中,所述行业词库包括基本词汇和行业词汇,所述停用词库包括停用词汇、习惯语词汇以及无业务意义的词汇;
将待检索文本作为所述分词模型的输入,以得到分词结果,其中,所述分词结果包括所述待检索文本中的单词和/或短语;
依据左右互信息熵算法对所述分词结果进行分析,以获得结果集合,其中,所述结果集合包含所述待检索文本中的目标词,所述目标词的信息熵大于或等于信息熵阈值。


2.如权利要求1所述的行业新词发现方法,其特征在于,在依据左右互信息熵算法对所述分词结果进行分析之前,所述方法还包括:
对所述分词结果进行筛选,以使所述分词结果中的单词或短语出现的次数大于或等于预设频次。


3.如权利要求1所述的行业新词发现方法,其特征在于,在将待检索文本作为所述分词模型的输入,以得到分词结果之后,所述方法包括:
将所述分词结果作为第一过滤模型的输入,以得到过滤后的分词结果,其中,所述第一过滤模型用于过滤不满足时间条件、地点条件、词性条件以及场景条件的单词或短语。


4.如权利要求1所述的行业新词发现方法,其特征在于,在获得结果集合之后,所述方法还包括:
将所述结果集合作为第二过滤模型的输入,以得到过滤后的结果集合,其中,所述第二过滤模型用于过滤重复词汇或具有包含关系的词汇。


5.如权利要求1所述的行业新词发现方法,其特征在于,在加载行业词库和停用词库到分词模型中之前,所述方法还包括:
依据行业文本...

【专利技术属性】
技术研发人员:李亮蔺文萃罗利利李文
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1