基于BERT技术的表情输入法及其装置制造方法及图纸

技术编号:22754740 阅读:35 留言:0更新日期:2019-12-07 03:49
基于BERT技术的表情输入法,包括:S1:预训练语料特征BERT模型;S2:预训练分类器模型,将多种预设定的表情进行分类,并根据特征预训练所述表情的分类;S3:当接收到用户输入的语料信息,以字词为单位进行包括分语、停用词在内的语料文字处理,并设置成语料特征BERT模型所需的输入数据格式;S4:输入至语料特征BERT模型进行特征提取,获得对应的特征向量v

Expression input method and its device based on Bert Technology

Expression input method based on Bert technology, including: S1: pre training corpus feature Bert model; S2: pre training classifier model, which classifies a variety of pre-set expressions, and pre trains the expression classification according to the features; S3: when receiving the corpus information input by the user, the corpus text processing including segmentation and stop words is carried out with words as the unit, and idioms are set S4: input data format required by the material feature Bert model; S4: input to the corpus feature Bert model for feature extraction to obtain the corresponding feature vector V

【技术实现步骤摘要】
基于BERT技术的表情输入法及其装置
本专利技术涉及一种表情动图输入算法,尤其涉及基于BERT技术的表情动图输入法及其装置。
技术介绍
输入法是根据用户输入的信息进行关键字模糊匹配,猜想用户想要的输入意图,动态弹出包括Gif等在内的表情窗口,让用户进行点击操作,发送相应的Gif等动画表情到当前所在的应用,发送给接收方。现有的表情输入法一般基于情感分类技术和深度学习技术来谈的。比如,猜想用户想要的输入意图就需要用到基于情感分类技术,如何使猜想更精准就可能用到深度学习技术。以下简单谈一下相关的技术的介绍。一、情感分类技术(一)基于字典的方法利用构建的文本情感字典,并对情感词典进行极性和强度标注,进而进行文本情感分类,如图1所示,基于词典的文本情感分析过程。(二)基于机器学习的方法有监督的机器学习方法:在机器学习方法中朴素贝叶斯NB(NaiveBayes)和支持向量机SVM(SupportVectorMa-chine)是常用的监督学习算法,但是有研究指出,NB和SVM单独使用时分别会面临独立条件假设和核本文档来自技高网...

【技术保护点】
1.一种基于BERT技术的表情输入法,其特征在于,包括:/nS1:预训练语料特征BERT模型,将用户所要表达的字/词进行特征表达的特征提取训练;/nS2:预训练分类器模型,将多种预设定的表情进行分类,并根据特征预训练所述表情的分类;/nS3:当接收到用户输入的语料信息,以字/词为单位进行包括分语、停用词在内的语料文字处理,并设置成语料特征BERT模型所需的输入数据格式;/nS4:输入至语料特征BERT模型进行特征提取,获得对应的特征向量v

【技术特征摘要】
1.一种基于BERT技术的表情输入法,其特征在于,包括:
S1:预训练语料特征BERT模型,将用户所要表达的字/词进行特征表达的特征提取训练;
S2:预训练分类器模型,将多种预设定的表情进行分类,并根据特征预训练所述表情的分类;
S3:当接收到用户输入的语料信息,以字/词为单位进行包括分语、停用词在内的语料文字处理,并设置成语料特征BERT模型所需的输入数据格式;
S4:输入至语料特征BERT模型进行特征提取,获得对应的特征向量v1,v2,...,vk,其中k为所有语料分词后得到的总词数;
S5:将特征向量v1,v2,...,vk输入至预训练好的分类器模型,并利用SoftMax函数将特征向量的类别概率归一化,从情感分类中找到最终所属的表情;
S6:通过用户使用历史表情利用User-CF或者ltem-CF展示用户所需表情相对应的图片、动画在内表情展示信息。


2.如权利要求1所述的表情输入法,其特征在于,所述S3中的所述预训练好的语料特征BERT模型为一种BERT模型,对一个句子x=x1,x2,......,xn,句子中的每一个字或词使用tokenembedding、segmentembedding、positionembedding三个表示相加产生,并使用MaskedLanguageModel和NextSentencePrediction为优化目标,对字至少三种表示进行优化。


3.如权利要求1所述的表情输入法,其特征在于,S3中设置成语料特征BERT模型所需的输入数据格式进一步包括:
使用WordPiece嵌入和多个token的词汇表,用##表示分词,
使用学习的positionalembeddings,支持的序列长度最多为512个token,每个序列的第一个token始终是特殊分类嵌入,对应于该token的最终隐藏状态被用作分类任务的聚合序列表示,对于非分类任务,将忽略此向量;
句子对被打包成一个序列:以两种方式区分句子,首先,用[SEP]在内特殊标记将它们分开,其次,添加一个learnedsentenceA嵌入到第一个句子的每个token中,一个sentenceB嵌入到第二个句子的每个token中,
对于单个句子输入,只使用sentenceA嵌入。


4.如权利要求1所述的表情输入法,其特征在于,将多种预设定的表情进行分类进一步包括:
分类器模块可采用CBOW、LSTM在内的算法进行分类,在此表情的类别是根据用户情感的表达结果去预先进行分类且后续可设置为可扩展。


5.如权利要求1所述的表情输入法,其特征在于,所述分类器模型为LSTM神经网络模型,将特征向量v1,v2,...,vk输入至预训练好的分类器模型进一步包括:
获取特征向量v1,v2,...,vk,其做为LSTM神经网络模型的输入序列;所述LSTM神经网络模型包括多个LSTM层,每个LSTM层由多个block连接而成,这些block包含一个或者多个循环连接记忆单元,还包含其他的三个单元:输入门(Inputgate)、输出门(0utputgate)和遗忘门(Forgetgate),遗忘门通过∫g和∫h来调整是“遗忘”还是“记住”当前所输入的数据;
通过所述LSTM神经网络模型的参数通过向前传播和/或反向传播对所述输入序列计算得出输出Y,
通过输出Y,获得该多种预设定的表情分类中最对应的表情分类信息。


6.如权利要求1所述的所述的表情输入法,其特征在于,S6进一步包括:
根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群,采用计算“K-NearestNeighboor”的算法;然后,基于这K个邻居的历史偏好信息,为当前用户进行推荐。


7.如权利要求6所述的所述的表情输入法,其特征在于,还包括:
用户相关或相近用户群,该用户群有表情a,表情b,...,表情n每个表情具有若干N个表情标签,表情a具有标签(taga):taga1、taga2、taga3…tagaN,则raga中的关键字通过BERT模型得到其相应的特征向量:
v(taga1)=[v11,v12,...,v1m]
v(taga2)=[v21,v22,..,v2m]

v(taga3)==[v31,v32,...,v3m]

v(tagaN)=[N1,vN2,..,vNm]
对taga每个关键字向量加权求平均得...

【专利技术属性】
技术研发人员:周诚
申请(专利权)人:北京智慧章鱼科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1