新词挖掘方法、装置计算机设备和存储介质制造方法及图纸

技术编号:20866717 阅读:15 留言:0更新日期:2019-04-17 09:23
本发明专利技术涉及一种新词挖掘方法、装置、计算机设备和存储介质,其中方法包括以下步骤:获取待进行新词挖掘的文本信息;按照预先设置的过滤方法对文本信息进行过滤处理,生成多个文本语句;将多个文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;将每一个候选词语输入到预先训练的分类器中,进行词语分类判别;根据词语分类判别的结果选择符合要求的新词。该新词挖掘方法采用了Nagao算法生成候选词语,并采预先训练的分类器对候选词语进行检测和判别,能去除准确率低的词语,从而提高了新词生成的准确率。

【技术实现步骤摘要】
新词挖掘方法、装置计算机设备和存储介质
本专利技术涉及信息挖掘
,特别是涉及一种新词挖掘方法、装置、计算机设备和存储介质。
技术介绍
新词挖掘,就是从已知的语料中去提取一些词或字,组成新的词汇,从而形成精准的总结文本信息,例如标签化、方便统计、构造索引、特征化长文本等都是通过新词挖掘产生的。新词挖掘算法是在新词挖掘中常用的技术,主要应用于搜索切词词库、知识图谱、文本分类和标签推荐引擎等场景。但是,目前常用的新词挖掘算法存在参数难以确定,从而造成生成的新词准确率低。
技术实现思路
基于此,有必要针对目前的新词挖掘算法存在参数难以确定,从而造成生成的新词准确率低的问题,提供一种新词挖掘方法、装置、计算机设备以及存储介质。一种新词挖掘方法,包括以下步骤:获取待进行新词挖掘的文本信息;按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;将每一个所述候选词语输入到预先训练的分类器中,进行新词分类判别;根据所述新词分类判别的结果选择符合要求的新词。在其中一个实施例中,按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句的步骤中,包括:删除所述文本信息中的特殊符号,得到处理后的文本信息;对处理后的文本信息中的字符进行分析,当某一字符出现的次数大于预设次数时,删除该字符,并对剩余的字符进行归一化处理,得到最终的文本信息;根据所述最终的文本信息生成多个所述文本语句。在其中一个实施例中,将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语的步骤中,包括:列举出每一个所述文本语句的后缀,当所述后缀长度大于预设数值时,从所述对应的所述文本语句的后缀中选取预设数据加一个字符,得到正向字符串;将每一个所述文本语句中的字符进行反转,列举出反转后的每一个所述文本语句的后缀,当分转后的所述后缀长度大于所述预设数值时,从对应的反转后的所述文本语句的后缀中选取预设数据加一个字符,得到反向字符串;对各所述正向字符串和各所述反向字符串进行排序;按照排序顺序计算各所述正向字符串的频率和各所述反向字符串的频率;计算出各所述正向字符串的左右熵值和各所述反向字符串的左右熵值;计算出各所述正向字符串的内部凝合度和各所述反向字符串的凝合度;分别计算各所述正向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述正向字符串的阈值;分别计算各所述反向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述反向字符串的阈值;分别将各所述正向字符串的阈值和各所述反向字符串的阈值与预设的阈值进行比较,选择阈值小于预设的阈值的正向字符串和反向字符串生成多个候选词语。在其中一个实施例中,将每一个所述候选词语输入到预先训练的分类器中的步骤之前,还包括:根据多个所述候选词语和公共词库中的词语选择训练数据;采用预先配置的算法对所述训练数据进行学习训练,得到预先训练的分类器。将其中一个实施例中,根据多个所述候选词语和公共词库中的词语选择训练数据的步骤之前,还包括:从所述公共词库中获取词语;将公共词库中的词语的进行标记,记为正样本;对每一个所述候选词语进行分析标记,筛选出正样本和负样本;将所有正样本组成正样本集,所有负样本组成负样本集。在其中一个实施例中,根据多个所述候选词语和公共词库中的词语选择训练数据的步骤中,还包括:从所述正样本集和所述负样本集选择相等数量的词语,得到所述训练数据。在其中一个实施例中,所述预先配置的算法包括神经网络算法或逻辑回归算法。一种新词挖掘装置,包括:文本信息获取模块,用于获取待进行新词挖掘的文本信息;文本语句生成模块,用于按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;候选词语生成模块,用于将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;新词分类判别确定模块,用于将每一个所述候选词语输入到预先训练的分类器中,进行新词分类判别;新词确定模块,用于根据所述新词分类判别的结果选择符合要求的新词。一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的新词挖掘方法。一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的新词挖掘方法。上述的新词挖掘方法、装置、计算机设备和存储介质,首先获取待进行新词挖掘的文本信息,对文本信息进行过滤处理,生成多个文本语句,然后将多个文本语句输入到Nagao算法,生成多个候选词语,再将候选词语输入到预先训练的分类器中,预先训练的分类器对词语分类判别,根据词语分类判别的结果就可以选择出符合要求的新词;该新词挖掘方法采用了Nagao算法生成候选词语,并采预先训练的分类器对候选词语进行检测和判别,能去除准确率低的词语,从而提高了新词生成的准确率。附图说明图1为本专利技术的新词挖掘方法在一实施例中的流程示意图;图2为本专利技术的新词挖掘方法在另一实施例中的流程示意图;图3为本专利技术的新词挖掘方法在其中一实施例中的流程示意图;图4为本专利技术实施例中频率、左右熵、凝合度正态分布图;图5为本专利技术的新词挖掘装置在其中一实施例中的结构示意图;图6为本专利技术的计算机设备在其中一实施例中的结构示意图。具体实施方式下面将结合较佳实施例及附图对本专利技术的内容作进一步详细描述。显然,下文所描述的实施例仅用于解释本专利技术,而非对本专利技术的限定。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。【相关说明部分】需要说明的是,本专利技术实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。本专利技术实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请提供的新词挖掘方法可运用于终端中,终端可以是个人计算机、笔记本电脑等。终端中可以新词挖掘对应的应用程序,当将需要进行新词挖掘的文本输入到应用程序中时,终端本文档来自技高网...

【技术保护点】
1.一种新词挖掘方法,其特征在于,包括以下步骤:获取待进行新词挖掘的文本信息;按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;将每一个所述候选词语输入到预先训练的分类器中,进行词语分类判别;根据所述词语分类判别的结果选择符合要求的新词。

【技术特征摘要】
1.一种新词挖掘方法,其特征在于,包括以下步骤:获取待进行新词挖掘的文本信息;按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句;将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语;将每一个所述候选词语输入到预先训练的分类器中,进行词语分类判别;根据所述词语分类判别的结果选择符合要求的新词。2.根据权利要求1所述的新词挖掘方法,其特征在于,按照预先设置的过滤方法对所述文本信息进行过滤处理,生成多个文本语句的步骤中,包括:删除所述文本信息中的特殊符号,得到处理后的文本信息;对处理后的文本信息中的字符进行分析,当某一字符出现的次数大于预设次数时,删除该字符,并对剩余的字符进行归一化处理,得到最终的文本信息;根据所述最终的文本信息生成多个所述文本语句。3.根据权利要求2所述的新词挖掘方法,其特征在于,将多个所述文本语句输入到预先设置的Nagao算法模型中,生成多个候选词语的步骤中,包括:列举出每一个所述文本语句的后缀,当所述后缀长度大于预设数值时,从所述对应的所述文本语句的后缀中选取预设数据加一个字符,得到正向字符串;将每一个所述文本语句中的字符进行反转,列举出反转后的每一个所述文本语句的后缀,当分转后的所述后缀长度大于所述预设数值时,从对应的反转后的所述文本语句的后缀中选取预设数据加一个字符,得到反向字符串;对各所述正向字符串和各所述反向字符串进行排序;按照排序顺序计算各所述正向字符串的频率和各所述反向字符串的频率;计算出各所述正向字符串的左右熵值和各所述反向字符串的左右熵值;计算出各所述正向字符串的内部凝合度和各所述反向字符串的凝合度;分别计算各所述正向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述正向字符串的阈值;分别计算各所述反向字符串的频率、左右熵值和凝合度的平均值和方差,计算各所述反向字符串的阈值;分别将各所述正向字符串的阈值和各所述反向字符...

【专利技术属性】
技术研发人员:谢春发
申请(专利权)人:广州荔支网络技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1