一种新词发现方法和装置制造方法及图纸

技术编号:28037323 阅读:37 留言:0更新日期:2021-04-09 23:19
本发明专利技术公开了一种新词发现方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于词库对待分割字符串进行分词处理;对分词处理后的结果进行BIO标注;使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;使用所述命名实体识别模型,预测待预测字符串的BIO标注;根据所述待预测字符串的BIO标注合成词语;对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。该实施方式避免了获取训练样本时大量打标的问题,基于发现的新词提高了分词处理的准确性以及发现新词的效率。

【技术实现步骤摘要】
一种新词发现方法和装置
本专利技术涉及计算机
,尤其涉及一种新词发现方法和装置。
技术介绍
随着各行各业的蓬勃发展,越来越多的新词被创造、使用,为保证各领域中自认语言处理时分词结果的准确性,发现新词成为了研究的重点,尤其是在电商领域,随着大量品牌词、产品词、属性词的涌现,准确地识别词汇是商品搜索、个性化推荐的关键所在。目前,常用的新词发现方法有两种:基于规则的新词发现方法;基于统计的新词发现方法。其中,基于统计的新词发现方法,则包括有监督和无监督两种类型。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:有监督需要详细标注的语料库,而获取详细标注的语料库往往是很困的;在分词处理过程中,非常依赖现有的词库,而现有的词库对新词的收录有限,使得分词处理时的准确率不足,进而导致了新词发现的准确性。
技术实现思路
有鉴于此,本专利技术实施例提供一种新词发现方法和装置,不仅能够基于现有的词库发现新词,还能不断提高发现新词的质量及效率。为实现上述目的,根据本专利技术的第一方面,提供了一种新词发本文档来自技高网...

【技术保护点】
1.一种新词发现方法,其特征在于,包括:/n基于词库对待分割字符串进行分词处理;/n对分词处理后的结果进行BIO标注;/n使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;/n使用所述命名实体识别模型,预测待预测字符串的BIO标注;/n根据所述待预测字符串的BIO标注合成词语;/n对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。/n

【技术特征摘要】
1.一种新词发现方法,其特征在于,包括:
基于词库对待分割字符串进行分词处理;
对分词处理后的结果进行BIO标注;
使用BIO标注后的结果进行无监督训练,用以获取命名实体识别模型;
使用所述命名实体识别模型,预测待预测字符串的BIO标注;
根据所述待预测字符串的BIO标注合成词语;
对比合成的词语与所述待预测字符串的分词处理结果,用以获取新词。


2.根据权利要求1所述的新词发现方法,其特征在于,还包括:
对所述待分割字符串进行无监督预训练,用以生成词向量;
使用所述词向量及BIO标注后的结果进行无监督训练,用以获取所述命名实体识别模型。


3.根据权利要求1所述的新词发现方法,其特征在于,还包括:
根据下述的一项或多项,对所获取的新词进行筛选:新词的频率、新词的内部凝固程度、新词的信息熵。


4.根据权利要求3所述的新词发现方法,其特征在于,还包括:
将筛选后的新词添加至所述词库。


5.根据权利要求1所述的新词发现方法,其特征在于,使用MaskedLM方法或GoogleBERT模型,对所述待分割字符串进行无监督...

【专利技术属性】
技术研发人员:张美娜仲济源邵佳帅
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1