一种新词识别方法及相关装置制造方法及图纸

技术编号:36600640 阅读:16 留言:0更新日期:2023-02-04 18:14
本申请公开了一种新词识别方法,涉及词汇挖掘技术领域,该方法包括:采用N

【技术实现步骤摘要】
一种新词识别方法及相关装置


[0001]本申请涉及词汇挖掘
,特别涉及一种新词识别方法;还涉及一种新词识别装置、设备以及计算机可读存储介质。

技术介绍

[0002]新词是指未记录在词库中的词汇,第一次出现在系统中的词汇。第二次及后续出现,不再称之为新词。随着互联网的发展以及各种应用软件的广泛使用,网络上不断有新词出现。面对不断涌现的新词,各类应用软件需要能够从语料中及时发现识别新词。
[0003]然而现有的新词识别方案仅仅从语料的主语、谓语、宾语等语法中寻找候选词作为新词,这样导致候选词不仅数量低、类型少,而且准确率不高。由于新词识别的准确性不高,系统发现的大量新词需要人工介入进行二次识别与区分。另外,现有的新词识别方案不具备自我学习能力,无论经过多少批次的语料,系统的新词识别能力基本不变。
[0004]有鉴于此,如何解决上述技术缺陷已成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]本申请的目的是提供一种新词识别方法,能够提高新词识别的准确率,提升决策效率。本申请的另一个目的是提供一种新词识别装置、设备以及计算机可读存储介质,均具有上述技术效果。
[0006]为解决上述技术问题,本申请提供了一种新词识别方法,包括:
[0007]采用N

gram的方式对语料进行分词,得到多个字节片段;
[0008]从各所述字节片段中筛选出候选词;
[0009]计算所述候选词为新词的概率;
[0010]根据所述概率判断所述候选词是否为新词。
[0011]可选的,所述从各所述字节片段中筛选出候选词包括:
[0012]计算所述字节片段的特征值;
[0013]将所述特征值与对应的特征阈值进行比较;
[0014]根据比较结果确定候选词。
[0015]可选的,所述计算所述字节片段的特征值包括:
[0016]计算所述字节片段的最小左邻接熵、最小右邻接熵、左右邻接熵比值、互信息阈值以及最小词频。
[0017]可选的,所述根据比较结果确定候选词包括:
[0018]若所述特征值大于对应的所述特征阈值,则所述字节片段为候选词。
[0019]可选的,所述计算所述候选词为新词的概率包括:
[0020]将所述候选词与词库进行比对;
[0021]若所述词库已存在所述候选词,则将所述候选词及所述候选词的特征值加入正样本池;
[0022]若所述词库不存在所述候选词,则将所述候选词及所述候选词的特征值加入负样本池;
[0023]根据所述正样本池与所述负样本池,得到概率计算模型;
[0024]通过所述概率计算模型计算所述候选词为新词的概率。
[0025]可选的,还包括:
[0026]根据所述正样本池与所述负样本池,得到最优特征阈值;
[0027]将所述特征阈值替换为所述最优特征阈值。
[0028]可选的,所述根据所述概率判断所述候选词是否为新词包括:
[0029]若所述概率达到第一预设阈值,则确定所述候选词为新词;
[0030]若所述概率达到第二预设阈值,未达到所述第一预设阈值,则启动人工决策,由人工判断所述候选词是否为新词。
[0031]为解决上述技术问题,本申请还提供了一种新词识别装置,包括:
[0032]分词模块,用于采用N

gram的方式对语料进行分词,得到多个字节片段;
[0033]筛选模块,用于从各所述字节片段中筛选出候选词;
[0034]计算模块,用于计算所述候选词为新词的概率;
[0035]判断模块,用于根据所述概率判断所述候选词是否为新词。
[0036]为解决上述技术问题,本申请还提供了一种新词识别设备,包括:
[0037]存储器,用于存储计算机程序;
[0038]处理器,用于执行所述计算机程序时实现如上任一项所述的新词识别方法的步骤。
[0039]为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的新词识别方法的步骤。
[0040]本申请所提供的新词识别方法,包括:采用N

gram的方式对语料进行分词,得到多个字节片段;从各所述字节片段中筛选出候选词;计算所述候选词为新词的概率;根据所述概率判断所述候选词是否为新词。
[0041]可见,本申请所提供的新词识别方法,采用N

gram的方式对语料进行分词,可以摆脱对词库的依赖,得到数量较多、类型较多的字节片段,能够有效提升新词识别的准确性。另外,本申请在分词得到字节片段后,从字节片段中筛选出候选词,并计算候选词为新词的概率,进而基于此概率判断候选词是否需为新词,可以极大的提升决策效率,尽可能的减少人工决策。
[0042]本申请所提供的新词识别装置、设备以及计算机可读存储介质均具有上述技术效果。
附图说明
[0043]为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本申请实施例所提供的一种新词识别方法的流程示意图;
[0045]图2为本申请实施例所提供的一种新词识别流程示意图;
[0046]图3为本申请实施例所提供的一种新词识别装置的示意图;
[0047]图4为本申请实施例所提供的一种新词识别设备的示意图。
具体实施方式
[0048]本申请的核心是提供一种新词识别方法,能够提高新词识别的准确率,提升决策效率。本申请的另一个核心是提供一种新词识别装置、设备以及计算机可读存储介质,均具有上述技术效果。
[0049]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0050]请参考图1,图1为本申请实施例所提供的一种新词识别方法的流程示意图,参考图1所示,该方法包括:
[0051]S101:采用N

gram的方式对语料进行分词,得到多个字节片段;
[0052]本实施例采用N

gram的方式进行分词。该方式对于分词形成的每一个字节片段进行频度统计,并按照设定的阈值n进行过滤,形成关键字节片段列表。关键字节片段列表也就是语料的向量特征空间,关键字节片段列表中的每一种字节片段就是一个特征向量维度。
[0053]采用N
‑<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新词识别方法,其特征在于,包括:采用N

gram的方式对语料进行分词,得到多个字节片段;从各所述字节片段中筛选出候选词;计算所述候选词为新词的概率;根据所述概率判断所述候选词是否为新词。2.根据权利要求1所述的新词识别方法,其特征在于,所述从各所述字节片段中筛选出候选词包括:计算所述字节片段的特征值;将所述特征值与对应的特征阈值进行比较;根据比较结果确定候选词。3.根据权利要求2所述的新词识别方法,其特征在于,所述计算所述字节片段的特征值包括:计算所述字节片段的最小左邻接熵、最小右邻接熵、左右邻接熵比值、互信息阈值以及最小词频。4.根据权利要求2所述的新词识别方法,其特征在于,所述根据比较结果确定候选词包括:若所述特征值大于对应的所述特征阈值,则所述字节片段为候选词。5.根据权利要求1所述的新词识别方法,其特征在于,所述计算所述候选词为新词的概率包括:将所述候选词与词库进行比对;若所述词库已存在所述候选词,则将所述候选词及所述候选词的特征值加入正样本池;若所述词库不存在所述候选词,则将所述候选词及所述候选词的特征值加入负样本池;根据所述正样本池与所述负样本池,得到概率计算模型;通过所述概率计算模...

【专利技术属性】
技术研发人员:易锋金佳锋
申请(专利权)人:政采云有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1