一种新词的确定方法及装置制造方法及图纸

技术编号:25346050 阅读:32 留言:0更新日期:2020-08-21 17:05
本发明专利技术公开了一种新词的确定方法,其基于深度神经网络确定新词,包括如下步骤:a:基于N‑Gram算法以及待鉴定文本生成多个原始候选词;b:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;c:基于深度神经网络将多个向量化候选词输出成标记为{y

【技术实现步骤摘要】
一种新词的确定方法及装置
本专利技术属于计算机技术应用领域,具体地,涉及一种新词的确定方法及装置。
技术介绍
随着社会的不断进步,互联网在人们日常生活中的普及,人与人之间的沟通也不仅仅局限于面对面,而更多的是通过网络来实现有效的沟通,在这样的一个多元化快节奏发展的现代化社会中,每时每刻都在发生着大大小小的事情,而新词的产生是现代化发展所衍生的产物,其将人们带入到更为有效、有趣的沟通中,例如近些年来所出现的新词“囧态”、“葛优瘫”、“鸽了”、“老司机”等等,而这些新词所描绘的意义、场景往往会随着沟通中的人们的广泛应用而逐渐被广为接受。然而,作为一些第三方平台或系统,往往需要更加贴合于用户的使用习惯以及兴趣爱好,这样才能更好的为用户提供优质服务,而随着互联网的飞速发展,现在的新词更是层出不穷,甚至对于第三方平台或系统,往往会因为无法识别一些新词而给用户带来一些困扰及影响,而如何更好的与现代社会的新词出现接轨成为了目前一些商家亟待解决的技术问题,如何大量、精准的获取到近期出现的新词更是目前最为重要的技术问题。新词的发现一般是从自由度和本文档来自技高网...

【技术保护点】
1.一种新词的确定方法,其基于深度神经网络确定新词,其特征在于,包括如下步骤:/na:基于N-Gram算法以及待鉴定文本生成多个原始候选词;/nb:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;/nc:基于深度神经网络将多个向量化候选词输出成标记为{y

【技术特征摘要】
1.一种新词的确定方法,其基于深度神经网络确定新词,其特征在于,包括如下步骤:
a:基于N-Gram算法以及待鉴定文本生成多个原始候选词;
b:基于BERT模型对多个所述原始候选词进行训练,并确定多个向量化候选词;
c:基于深度神经网络将多个向量化候选词输出成标记为{y1,y2}的神经元,其中,
当y1为1,y2为0时,确定与所述向量化候选词相对应地原始候选词为词语,当y1为0,y2为1时,确定与所述向量化候选词相对应地原始候选词不为词语;
d:将一个或多个确定为词语的一个或多个原始候选词在数据库中进行匹配,若不存在于数据库中,则确定一个或多个所述原始候选词为新词。


2.根据权利要求1所述的确定方法,其特征在于,在所述步骤a中,通过如下方式将文本内容确定为所述待鉴定文本:
字节流;
字符流;或者
词流。


3.根据权利要求1所述的确定方法,其特征在于,在所述步骤a中,基于所述N-Gram算法生成所述原始候选词通过如下方式确定:
a1:将待鉴定文本进行大小为N的滑动窗口操作,形成长度为N的字符串,每个字符串称为gram,其中,1〈N〈M,所述M为所述原始候选词的字符串个数;
a2:将长度为N所形成的所有字符串确定为原始候选词。


4.根据权利要求1所述的确定方法,其特征在于,在所述步骤b中,通过大量的文本并基于字、字的语义信息、字的位置信息确定BERT模型。


5.根据权利要求1所述的确定方法,其特征在于,在所述步骤b中,所述向量化候选词为768维的向量。


6.根据权利要求1所述的确定方法,其特征在于,在所述步骤c中,通过如下方式确定深度神经网络模型:将正例特征向量相对应的词语以及负例特征向量相对应的非词语按照相同比例的...

【专利技术属性】
技术研发人员:刘凡平沈振雷陈慧
申请(专利权)人:上海二三四五网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1