一种学习字向量方法、系统、电子设备及存储介质技术方案

技术编号：29928049 阅读：31 留言：0更新日期：2021-09-04 18:51

本申请公开了一种学习字向量方法、系统、电子设备及存储介质，学习字向量方法包括：字典组建步骤：从预训练词向量模型中抽取词语，将所述词语切分成字，并对所述字进行处理后，使用处理后的字组成字典；PM I获取步骤：统计所述字的字频以及共现频率后，根据所述字频以及所述共现频率计算所述字的PM I；字向量计算步骤：对所述PM I进行归一化后，根据归一化后的PM I与所述词语的词向量，加权计算获取字向量。本发明专利技术将词向量转化为字向量，然后用字向量进行文本表示，从而解决中文分词与预训练语言模型的分词标准不一致的问题。言模型的分词标准不一致的问题。言模型的分词标准不一致的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种学习字向量方法、系统、电子设备及存储介质

[0001]本申请涉及深度学习
，尤其涉及一种学习字向量方法、系统、电子设备及存储介质。

技术介绍

[0002]近年来，预训练语言模型(Pre
‑
trained Language Models，PLMs)的出现将自然语言处理(Neutral Language Processing，NLP)领域带入了新的纪元，现已成为NLP领域不可或缺的主流技术。PLMs的主要目的是学习出好的词嵌入(word embedding)，将对词语粒度学习出好的向量表示，即词向量。在实际应用中，预训练语言模型属于上游任务，经常作为特定下游任务的输入，服务于下游任务，比如进行下游文本分类任务、情感分类任务以及命名实体识别任务等。预训练语言模型的优劣对下游任务的精度影响非常大，因此，如何训练出有效的PLMs成为NLP领域的研究热点。
[0003]当前，PLMs的研究主要基于英文，公开的训练数据集、训练好的预训练语言模型以英文居多，中文的研究还很少。即便有公开的训练好的预训练语言...

【技术保护点】

【技术特征摘要】
1.一种学习字向量方法，其特征在于，包括：字典组建步骤：从预训练词向量模型中抽取词语，将所述词语切分成字，并对所述字进行处理后，使用处理后的字组成字典；PMI获取步骤：统计所述字的字频以及共现频率后，根据所述字频以及所述共现频率计算所述字的PMI；字向量计算步骤：对所述PMI进行归一化后，根据归一化后的PMI与所述词语的词向量，加权计算获取字向量。2.根据权利要求1所述的学习字向量方法，其特征在于，所述字典组建步骤包括：词典生成步骤：读取所述预训练词向量模型后，从所述预训练词向量模型中抽取所有的所述词语，并使用所述词语组成词典；字典生成步骤：将所述词典中的所述词语切分为单独的所述字，对切分出的所述字进行存储以及去重处理后，使用处理后的所述字组成所述字典。3.根据权利要求2所述的学习字向量方法，其特征在于，所述PMI获取步骤包括：映射表组建步骤：根据所述字与所述词语的构词关系，组建字词映射表；字频与共现频率统计步骤：统计所述字在所述词语中出现的所述字频以及所述字构成的词语在所述词典中的词语中出现的所述共现频率；PMI计算步骤：通过对所述字频以及所述共现频率进行计算获取所述字的所述PMI。4.根据权利要求3所述的学习字向量方法，其特征在于，所述字向量计算步骤包括，遍历所述映射表，对所述PMI进行归一化后，根据归一化后的所述PMI与所述词语的所述词向量，加权计算获取所述字向量。5.一种学习字向量系统，其特征在于，适用于上述权利要求1至4中任一项所述的学习字向量方法，所述学习字向量系统包括：字典组建单元：从预训练词向量模型中抽取词语，将所述词语切分成字，并对所述字进行处理后，使用处理后的字组成字典...

【专利技术属性】
技术研发人员：梁吉光，徐凯波，
申请(专利权)人：北京明略软件系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人