一种学习字向量方法、系统、电子设备及存储介质技术方案

技术编号:29928049 阅读:21 留言:0更新日期:2021-09-04 18:51
本申请公开了一种学习字向量方法、系统、电子设备及存储介质,学习字向量方法包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;PM I获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PM I;字向量计算步骤:对所述PM I进行归一化后,根据归一化后的PM I与所述词语的词向量,加权计算获取字向量。本发明专利技术将词向量转化为字向量,然后用字向量进行文本表示,从而解决中文分词与预训练语言模型的分词标准不一致的问题。言模型的分词标准不一致的问题。言模型的分词标准不一致的问题。

【技术实现步骤摘要】
一种学习字向量方法、系统、电子设备及存储介质


[0001]本申请涉及深度学习
,尤其涉及一种学习字向量方法、系统、电子设备及存储介质。

技术介绍

[0002]近年来,预训练语言模型(Pre

trained Language Models,PLMs)的出现将自然语言处理(Neutral Language Processing,NLP)领域带入了新的纪元,现已成为NLP领域不可或缺的主流技术。PLMs的主要目的是学习出好的词嵌入(word embedding),将对词语粒度学习出好的向量表示,即词向量。在实际应用中,预训练语言模型属于上游任务,经常作为特定下游任务的输入,服务于下游任务,比如进行下游文本分类任务、情感分类任务以及命名实体识别任务等。预训练语言模型的优劣对下游任务的精度影响非常大,因此,如何训练出有效的PLMs成为NLP领域的研究热点。
[0003]当前,PLMs的研究主要基于英文,公开的训练数据集、训练好的预训练语言模型以英文居多,中文的研究还很少。即便有公开的训练好的预训练语言模型,在实际应用中还必然会遇到一个问题:应用场景下采用的中文分词算法与预训练语言模型采用的中文分词算法不匹配的问题,双方因分词标准不一致造成词典不一致,分出的词找不到词向量。基本上所有的基于预训练语言模型的NLP任务都面临这一问题,且迄今为止并未得到有效解决。

技术实现思路

[0004]本申请实施例提供了一种学习字向量方法、系统、电子设备及存储介质,以至少通过本专利技术解决了中文分词与预训练语言模型的分词标准不一致以及预训练词向量模型中的未登录词等问题。
[0005]本专利技术提供了学习字向量方法,包括:
[0006]字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;
[0007]PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PMI;
[0008]字向量计算步骤:对所述PMI进行归一化后,根据归一化后的PMI与所述词语的词向量,加权计算获取字向量。
[0009]上述的学习字向量方法,所述字典组建步骤包括:
[0010]词典生成步骤:读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;
[0011]字典生成步骤:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典。
[0012]上述的学习字向量方法,所述PMI获取步骤包括:
[0013]映射表组建步骤:根据所述字与所述词语的构词关系,组建字词映射表;
[0014]字频与共现频率统计步骤:统计所述字在所述词语中出现的所述字频以及所述字构成的词语在所述词典中的词语中出现的所述共现频率;
[0015]PMI计算步骤:通过对所述字频以及所述共现频率进行计算获取所述字的所述PMI。
[0016]上述的学习字向量方法,所述字向量计算步骤包括,遍历所述映射表,对所述PMI进行归一化后,根据归一化后的所述PMI与所述词语的所述词向量,加权计算获取所述字向量。
[0017]本专利技术还提供学习字向量系统,其中,适用于上述所述的学习字向量方法,所述学习字向量系统包括:
[0018]字典组建单元:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;
[0019]PMI获取单元:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PMI;
[0020]字向量计算单元:对所述PMI进行归一化后,根据归一化后的PMI与所述词语的词向量,加权计算获取字向量。
[0021]上述的学习字向量系统,所述字典组建单元包括:
[0022]词典生成模块:读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;
[0023]字典生成模块:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典。
[0024]上述的学习字向量系统,所述PMI获取单元包括:
[0025]映射表组建模块:根据所述字与所述词语的构词关系,组建字词映射表;
[0026]字频与共现频率统计模块:统计所述字在所述词语中出现的所述字频以及所述字构成的词语在所述词典中的词语中出现的所述共现频率;
[0027]PMI计算模块:通过对所述字频以及所述共现频率进行计算获取所述字的所述PMI。
[0028]上述的学习字向量系统,遍历所述映射表,对所述PMI进行归一化后,根据归一化后的所述PMI与所述词语的所述词向量,所述字向量计算单元加权计算获取所述字向量。
[0029]本专利技术还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的学习字向量方法。
[0030]本专利技术还提供一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现上述任一项所述的学习字向量方法。
[0031]相比于相关技术,本专利技术实现了将词向量转化为字向量,然后用字向量进行文本表示,有效解决中文分词与预训练语言模型的分词标准不一致的问题,即避免了预训练词向量模型中的未登录词问题,并且提高了自然语言处理能力。
[0032]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0033]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0034]图1是根据本申请实施例的学习字向量方法流程图;
[0035]图2是根据本申请实施例的学习字向量方法框架图;
[0036]图3是根据本申请实施例的学习字向量的装置框架图;
[0037]图4为本专利技术的学习字向量系统的结构示意图;
[0038]图5是根据本申请实施例的电子设备的框架图。
[0039]其中,附图标记为:
[0040]字典组建单元:51;
[0041]PMI获取单元:52;
[0042]字向量计算单元:53;
[0043]词典生成模块511;
[0044]字典生成模块:512;
[0045]映射表组建模块:521;
[0046]字频与共现频率统计模块:522;
[0047]PMI计算模块模块:523;
[0048]总线:80;
[0049]处理器:81;
[0050]存储器:82;
[0051]通信接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种学习字向量方法,其特征在于,包括:字典组建步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典;PMI获取步骤:统计所述字的字频以及共现频率后,根据所述字频以及所述共现频率计算所述字的PMI;字向量计算步骤:对所述PMI进行归一化后,根据归一化后的PMI与所述词语的词向量,加权计算获取字向量。2.根据权利要求1所述的学习字向量方法,其特征在于,所述字典组建步骤包括:词典生成步骤:读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;字典生成步骤:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典。3.根据权利要求2所述的学习字向量方法,其特征在于,所述PMI获取步骤包括:映射表组建步骤:根据所述字与所述词语的构词关系,组建字词映射表;字频与共现频率统计步骤:统计所述字在所述词语中出现的所述字频以及所述字构成的词语在所述词典中的词语中出现的所述共现频率;PMI计算步骤:通过对所述字频以及所述共现频率进行计算获取所述字的所述PMI。4.根据权利要求3所述的学习字向量方法,其特征在于,所述字向量计算步骤包括,遍历所述映射表,对所述PMI进行归一化后,根据归一化后的所述PMI与所述词语的所述词向量,加权计算获取所述字向量。5.一种学习字向量系统,其特征在于,适用于上述权利要求1至4中任一项所述的学习字向量方法,所述学习字向量系统包括:字典组建单元:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后,使用处理后的字组成字典...

【专利技术属性】
技术研发人员:梁吉光徐凯波
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1