一种新词发现方法和装置制造方法及图纸

技术编号：28037323 阅读：37 留言：0更新日期：2021-04-09 23:19

本发明专利技术公开了一种新词发现方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：基于词库对待分割字符串进行分词处理；对分词处理后的结果进行BIO标注；使用BIO标注后的结果进行无监督训练，用以获取命名实体识别模型；使用所述命名实体识别模型，预测待预测字符串的BIO标注；根据所述待预测字符串的BIO标注合成词语；对比合成的词语与所述待预测字符串的分词处理结果，用以获取新词。该实施方式避免了获取训练样本时大量打标的问题，基于发现的新词提高了分词处理的准确性以及发现新词的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种新词发现方法和装置
本专利技术涉及计算机
，尤其涉及一种新词发现方法和装置。
技术介绍
随着各行各业的蓬勃发展，越来越多的新词被创造、使用，为保证各领域中自认语言处理时分词结果的准确性，发现新词成为了研究的重点，尤其是在电商领域，随着大量品牌词、产品词、属性词的涌现，准确地识别词汇是商品搜索、个性化推荐的关键所在。目前，常用的新词发现方法有两种：基于规则的新词发现方法；基于统计的新词发现方法。其中，基于统计的新词发现方法，则包括有监督和无监督两种类型。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：有监督需要详细标注的语料库，而获取详细标注的语料库往往是很困的；在分词处理过程中，非常依赖现有的词库，而现有的词库对新词的收录有限，使得分词处理时的准确率不足，进而导致了新词发现的准确性。
技术实现思路
有鉴于此，本专利技术实施例提供一种新词发现方法和装置，不仅能够基于现有的词库发现新词，还能不断提高发现新词的质量及效率。为实现上述目的，根据本专利技术的第一方...

【技术保护点】
1.一种新词发现方法，其特征在于，包括：/n基于词库对待分割字符串进行分词处理；/n对分词处理后的结果进行BIO标注；/n使用BIO标注后的结果进行无监督训练，用以获取命名实体识别模型；/n使用所述命名实体识别模型，预测待预测字符串的BIO标注；/n根据所述待预测字符串的BIO标注合成词语；/n对比合成的词语与所述待预测字符串的分词处理结果，用以获取新词。/n

【技术特征摘要】
1.一种新词发现方法，其特征在于，包括：
基于词库对待分割字符串进行分词处理；
对分词处理后的结果进行BIO标注；
使用BIO标注后的结果进行无监督训练，用以获取命名实体识别模型；
使用所述命名实体识别模型，预测待预测字符串的BIO标注；
根据所述待预测字符串的BIO标注合成词语；
对比合成的词语与所述待预测字符串的分词处理结果，用以获取新词。

2.根据权利要求1所述的新词发现方法，其特征在于，还包括：
对所述待分割字符串进行无监督预训练，用以生成词向量；
使用所述词向量及BIO标注后的结果进行无监督训练，用以获取所述命名实体识别模型。

3.根据权利要求1所述的新词发现方法，其特征在于，还包括：
根据下述的一项或多项，对所获取的新词进行筛选：新词的频率、新词的内部凝固程度、新词的信息熵。

4.根据权利要求3所述的新词发现方法，其特征在于，还包括：
将筛选后的新词添加至所述词库。

5.根据权利要求1所述的新词发现方法，其特征在于，使用MaskedLM方法或GoogleBERT模型，对所述待分割字符串进行无监督...

【专利技术属性】
技术研发人员：张美娜，仲济源，邵佳帅，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人