一种新词识别方法及相关装置制造方法及图纸

技术编号：36600640 阅读：16 留言：0更新日期：2023-02-04 18:14

本申请公开了一种新词识别方法，涉及词汇挖掘技术领域，该方法包括：采用N

全部详细技术资料下载

【技术实现步骤摘要】
一种新词识别方法及相关装置

[0001]本申请涉及词汇挖掘
，特别涉及一种新词识别方法；还涉及一种新词识别装置、设备以及计算机可读存储介质。

技术介绍

[0002]新词是指未记录在词库中的词汇，第一次出现在系统中的词汇。第二次及后续出现，不再称之为新词。随着互联网的发展以及各种应用软件的广泛使用，网络上不断有新词出现。面对不断涌现的新词，各类应用软件需要能够从语料中及时发现识别新词。
[0003]然而现有的新词识别方案仅仅从语料的主语、谓语、宾语等语法中寻找候选词作为新词，这样导致候选词不仅数量低、类型少，而且准确率不高。由于新词识别的准确性不高，系统发现的大量新词需要人工介入进行二次识别与区分。另外，现有的新词识别方案不具备自我学习能力，无论经过多少批次的语料，系统的新词识别能力基本不变。
[0004]有鉴于此，如何解决上述技术缺陷已成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]本申请的目的是提供一种新词识别方法，能够提高新词识别的准确率，提升决策效率。本申请的另一个目的是提供一种新词识别装置、设备以及计算机可读存储介质，均具有上述技术效果。
[0006]为解决上述技术问题，本申请提供了一种新词识别方法，包括：
[0007]采用N
‑
gram的方式对语料进行分词，得到多个字节片段；
[0008]从各所述字节片段中筛选出候选词；
[0009]计算所述候选词为新词的概率；
[0010]根据所述概率判断所述...

【技术保护点】

【技术特征摘要】
1.一种新词识别方法，其特征在于，包括：采用N
‑
gram的方式对语料进行分词，得到多个字节片段；从各所述字节片段中筛选出候选词；计算所述候选词为新词的概率；根据所述概率判断所述候选词是否为新词。2.根据权利要求1所述的新词识别方法，其特征在于，所述从各所述字节片段中筛选出候选词包括：计算所述字节片段的特征值；将所述特征值与对应的特征阈值进行比较；根据比较结果确定候选词。3.根据权利要求2所述的新词识别方法，其特征在于，所述计算所述字节片段的特征值包括：计算所述字节片段的最小左邻接熵、最小右邻接熵、左右邻接熵比值、互信息阈值以及最小词频。4.根据权利要求2所述的新词识别方法，其特征在于，所述根据比较结果确定候选词包括：若所述特征值大于对应的所述特征阈值，则所述字节片段为候选词。5.根据权利要求1所述的新词识别方法，其特征在于，所述计算所述候选词为新词的概率包括：将所述候选词与词库进行比对；若所述词库已存在所述候选词，则将所述候选词及所述候选词的特征值加入正样本池；若所述词库不存在所述候选词，则将所述候选词及所述候选词的特征值加入负样本池；根据所述正样本池与所述负样本池，得到概率计算模型；通过所述概率计算模...

【专利技术属性】
技术研发人员：易锋，金佳锋，
申请(专利权)人：政采云有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人