【技术实现步骤摘要】
基于人工智能的语义提取方法、装置、电子设备及介质
[0001]本专利技术涉及人工智能
,具体涉及一种基于人工智能的语义提取方法、装置、电子设备及介质。
技术介绍
[0002]目前在自然语言处理领域,无需大量的打标数据,基于预训练模型(bert、albert)就能快速搭建一个不错的base模型。但是要想提高模型的效果达到上线的目的,可操作空间也是很小的。因为预训练模型是基于海量的语料训练的,得到的句向量很难贴合先有的业务场景。
[0003]专利技术人在实现本专利技术的过程中发现,目前的预训练模型得到的句向量受到词频的影响很大,导致高频词编码的句向量距离更近,更集中在原点附近。这会导致即使一个高频词和一个低频词的语义是等价的,但词频的差异也会带来很大的距离偏差,从而词向量的距离就不能很好地代表语义相关性,从而导致对自然语言的处理效果较差。
技术实现思路
[0004]鉴于以上内容,有必要提出一种基于人工智能的语义提取方法、装置、电子设备及介质,能够准确的提取出文本的语义向量。
[0005]本专 ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的语义提取方法,其特征在于,所述方法包括:对初始文本集中的每个初始文本进行分词处理,得到多个分词;根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;根据多个所述标准句向量计算第一相似度和第二相似度;根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;使用所述语义提取模型提取待处理文本的语义向量。2.如权利要求1所述的基于人工智能的语义提取方法,其特征在于,所述根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本包括:计算所述初始文本中的多个分词的数量;循环遍历所述初始文本中的多个分词,在每次遍历中根据所述数量产生一个随机数;将每次循环当前位置的分词和所述随机数对应的位置的分词进行交换;在循环遍历的次数达到预设次数阈值时,得到所述第一增强文本。3.如权利要求1所述的基于人工智能的语义提取方法,其特征在于,所述根据多个所述标准句向量计算第一相似度和第二相似度包括:从所述初始文本集中获取多个文本对,其中,每个所述文本对包括第一初始文本和第二初始文本;计算所述第一初始文本对应的第一增强文本的标准句向量和第二增强文本的标准句向量之间的相似度,得到第一相似度;计算所述第一初始文本对应的第一增强文本的标准句向量和所述第二初始文本对应的第一增强文本的标准句向量之间的相似度,得到第二相似度;计算所述第一初始文本对应的第二增强文本的标准句向量和所述第二初始文本对应的第二增强文本的标准句向量之间的相似度,得到第二相似度。4.如权利要求1至3中任意一项所述的基于人工智能的语义提取方法,其特征在于,所述根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本包括:提取所述初始文本中每个分词的词嵌入向量;计算每个分词在所述初始文本集中的TF
‑
IDF;获取所述TF
‑
IDF中小于预设TF
‑
IDF阈值的第一目标TF
‑
IDF;将所述第一目标IF
‑
IDF对应分词的词嵌入向量进行置换处理;根据置换处理后的分词生成新的文本,作为所述第二增强文本。5.如权利要求4所述的基于人工智能的语义提取方法,其特征在于,所...
【专利技术属性】
技术研发人员:刘欢,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。