【技术实现步骤摘要】
基于人工智能的文本处理方法、装置及电子设备
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的文本处理方法、装置、电子设备及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,NatureLanguageProcessing)是人工智能的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。文本处理是自然语言处理的一个研究热点,具体通过有监督学习或无监督学习,将文本中包括的信息以向量形式来表示。由于有监督学习需要大量标注数据,难以收集,故在相关技术提供的方案中,通常是以无监督的方式构建语言模型,并通过语言模型将文本转换为文本向量。但是,相关技术提供的语言模型较为简单,导致得到的文本向量的准确性差,无法有效地表示文本中的信息。
技术实现思路
本专利技术实施例提供一种基于人工智能的文本处理方法、装置、电子设备及存储介质,能够提升转换出的文本向量的准确性和有效性。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的文本处理方法,包括:对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;提取所述目标文本中的关键词,并确定所述关键词的向量表示;根据所述关键词的向量表示,确定所述目标文本的文本关键向量; ...
【技术保护点】
1.一种基于人工智能的文本处理方法,其特征在于,包括:/n对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;/n提取所述目标文本中的关键词,并确定所述关键词的向量表示;/n根据所述关键词的向量表示,确定所述目标文本的文本关键向量;/n将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。/n
【技术特征摘要】
1.一种基于人工智能的文本处理方法,其特征在于,包括:
对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;
提取所述目标文本中的关键词,并确定所述关键词的向量表示;
根据所述关键词的向量表示,确定所述目标文本的文本关键向量;
将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。
2.根据权利要求1所述的文本处理方法,其特征在于,所述确定所述关键词的向量表示,包括:
根据从所述目标文本中提取出的关键词,构建共现网络图;
将所述共现网络图中的任意一个关键词作为起点关键词,并根据所述起点关键词在所述共现网络图中进行游走处理,直至游走得到的关键词序列满足游走停止条件;
根据所述关键词序列更新上下文预测模型的权重参数;
根据更新后的所述上下文预测模型的隐藏层的权重参数,确定所述关键词的向量表示。
3.根据权利要求2所述的文本处理方法,其特征在于,所述根据从所述目标文本中提取出的关键词,构建共现网络图,包括:
将从所述目标文本中提取出的关键词确定为节点;
对从所述目标文本中提取出的关键词进行第一次遍历处理,得到第一关键词,并
对所述第一关键词之外的关键词进行第二次遍历处理,得到第二关键词;
当所述第一关键词在所述目标文本的共现窗口包括所述第二关键词时,建立所述第一关键词对应节点与所述第二关键词对应节点之间的边;
根据所述第一关键词与所述第二关键词的共现次数,确定建立的所述边的权重;
其中,所述共现窗口包括至少两个关键词。
4.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述起点关键词在所述共现网络图中进行游走处理,包括:
当所述起点关键词在所述共现网络图中仅存在一个邻接的关键词时,将邻接的关键词确定为新的起点关键词,并
将所述新的起点关键词添加至关键词序列;
当所述起点关键词在所述共现网络图中存在至少两个邻接的关键词时,根据所述起点关键词与邻接的关键词之间的边的权重,确定游走概率,并
根据所述游走概率从至少两个所述邻接的关键词中,确定新的起点关键词,将所述新的起点关键词添加至所述关键词序列。
5.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述关键词序列更新上下文预测模型的权重参数,包括:
遍历所述关键词序列中的所述关键词,并将遍历到的所述关键词确定为样本输入词;
确定所述样本输入词在所述关键词序列中对应的上下文窗口,并将所述上下文窗口中除所述样本输入词外的关键词,确定为样本输出词;
通过所述上下文预测模型,对所述样本输入词进行预测处理,得到预测输出词;
根据所述样本输出词与所述预测输出词之间的差异,在所述上下文预测模型中进行反向传播,并在反向传播的过程中,更新所述上下文预测模型的权重参数。
6.根据权利要求2所述的文本处理方法,其特征在于,
所述根据所述关键词序列更新上下文预测模型的权重参数之前,还包括:
确定所述关键词序列中各所述关键词的独热编码;
所述根据更新后的所述上下文预测模型的隐藏层的权重参数,确定所述关键词的向量表示,包括:
在所述关键词的所述独热编码中,确定设定数值所在的维度;
确定更新后的所述上下文预测模型的隐藏层的权重矩阵;
将所述权重矩阵中与所述维度对应的权重参数,确定为所述关键词的向量表示。
7.根据权利要求1所述的文本处理方法,其特征在于,
所述提取所述目标文本中的关键词,包括:
对候选文本进行关键词抽取处理,得到所述候选文本对应的候选关键词;
将所述候选文本对应的候选关键词,添加至候选关键词集合;
将所述目标文本中与所述候选关键词集合匹配的词,确定为提取出的关键词;
所述根据所述关键词的向...
【专利技术属性】
技术研发人员:费志辉,李超,马连洋,衡阵,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。