文本处理方法、语言模型训练方法及电子设备技术

技术编号:37605631 阅读:26 留言:0更新日期:2023-05-18 11:57
本申请提供一种文本处理方法、语言模型训练方法及电子设备,该文本处理方法包括:获取待处理文本;对待处理文本进行分词,得到N个分词,N为大于1的整数;获取N个分词中每个分词的至少两个表示向量,至少两个表示向量包括词向量以及义素向量,分词的义素向量用于表示分词的义素;对N个分词中每个分词的至少两个表示向量进行合并,得到N个合并向量;根据N个合并向量,确定目标文本,以提高确定的目标文本的准确性。准确性。准确性。

【技术实现步骤摘要】
文本处理方法、语言模型训练方法及电子设备
5

[0001]本申请涉及数据处理
,尤其涉及到一种文本处理方法、语言模型训练方法及电子设备。

技术介绍

[0002]自然语言处理是以语言为对象,利用计算机技术来分析、理解和处理自然语言的过程,广泛应用于各领域,例如,可主要应用于但不限于机器翻译、舆情监测、文本摘要提取、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文识别等领域。例如,根据需求,通过自然语言处理算法对文本进行相关的处理,以得到需要的文本等。
[0003]在对文本进行处理过程中,可先获取文本中分词的特征向量,然后根据文本的分词的特征向量得到需要的文本,然而,上述方法中,获取的分词的特征向量常采用的是分词的词向量,容易导致得到的文本的准确性较差。

技术实现思路

[0004]本申请实施例提供一种文本处理方法、语言模型训练方法及电子设备,以解决现有确定文本的准确性较差的问题。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种文本处理方法,所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取待处理文本;对所述待处理文本进行分词,得到N个分词,N为大于1的整数;获取所述N个分词中每个分词的至少两个表示向量,所述至少两个表示向量包括词向量以及义素向量,所述分词的义素向量用于表示所述分词的义素;对所述N个分词中每个分词的至少两个表示向量进行合并,得到N个合并向量;根据所述N个合并向量,确定目标文本。2.根据权利要求1所述的方法,其特征在于,所述至少两个表示向量还包括位置向量。3.根据权利要求1所述的方法,其特征在于,所述根据所述N个合并向量,确定目标文本,包括:对所述N个合并向量进行编码,得到N个编码向量;对所述N个编码向量进行解码,得到M个解码向量,所述M为正整数;对所述M个解码向量进行线性转换,得到M个转换向量;对所述M个转换向量输入进行归一化处理,得到M个概率向量,所述概率向量用于表征词汇表中每个词的概率;根据所述M个概率向量,确定所述目标文本。4.根据权利要求3所述的方法,其特征在于,所述根据所述M个概率向量,确定所述目标文本,包括:基于所述M个概率向量确定M个分词,所述M个分词中一个分词为所述词汇表中一个概率向量中最大概率对应的词;基于所述M个分词中概率大于或等于预设概率阈值的词,生成所述目标文本。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述根据所述N个合并向量,确定目标文本之后,还包括:计算所述目标文本中目标分词的平均相似度,其中,所述目标分词的平均相似度为所述目标分词分别与其他分词之间的相似度的平均值,所述目标分词为所述目标文本中的任一分词,所述其他分词为所述目标文本中除所述目标分词之外的分词;将所述目标文本中平均相似度小于预设相似度阈值的分词删除,以更新所述目标文本。6.根据权利要求1所述的方法,其特征在于,所述对所述N个分词中每个分词的至少两个表示向量进行合并,得到N个合并向量,包括:对所述N个分词中每个分词的至少两个表示向量进行拼接或相加,得到所述N个合并向量。7.一种语言模型训练方法,其特征在于,所述方法包括:获取词典中的K条释义文本,K为大于1的整数;将所述K条释义文本输入初始语言模型,利用目标损失值进行训练得到目标语言模型;其中,所述初始语言模型用于对所述K条释义文本中每条释义文本分别进行分词,得到K个分词序列;获取所述K...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1