基于人工智能的文本处理方法、装置及电子设备制造方法及图纸

技术编号:24576420 阅读:69 留言:0更新日期:2020-06-21 00:26
本发明专利技术提供了一种基于人工智能的文本处理方法、装置、电子设备及存储介质;方法包括:对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;提取所述目标文本中的关键词,并确定所述关键词的向量表示;根据所述关键词的向量表示,确定所述目标文本的文本关键向量;将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。通过本发明专利技术,能够提升得到的文本向量的准确性,并提升对目标文本进行相关处理的准确性。

Text processing method, device and electronic equipment based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的文本处理方法、装置及电子设备
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的文本处理方法、装置、电子设备及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,NatureLanguageProcessing)是人工智能的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。文本处理是自然语言处理的一个研究热点,具体通过有监督学习或无监督学习,将文本中包括的信息以向量形式来表示。由于有监督学习需要大量标注数据,难以收集,故在相关技术提供的方案中,通常是以无监督的方式构建语言模型,并通过语言模型将文本转换为文本向量。但是,相关技术提供的语言模型较为简单,导致得到的文本向量的准确性差,无法有效地表示文本中的信息。
技术实现思路
本专利技术实施例提供一种基于人工智能的文本处理方法、装置、电子设备及存储介质,能够提升转换出的文本向量的准确性和有效性。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的文本处理方法,包括:对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;提取所述目标文本中的关键词,并确定所述关键词的向量表示;根据所述关键词的向量表示,确定所述目标文本的文本关键向量;将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。本专利技术实施例提供一种基于人工智能的文本处理装置,包括:第一向量确定模块,用于对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;提取模块,用于提取所述目标文本中的关键词,并确定所述关键词的向量表示;第二向量确定模块,用于根据所述关键词的向量表示,确定所述目标文本的文本关键向量;融合模块,用于将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。本专利技术实施例提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的基于人工智能的文本处理方法。本专利技术实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本专利技术实施例提供的基于人工智能的文本处理方法。本专利技术实施例具有以下有益效果:本专利技术实施例通过确定用于表示深层语义信息的文本语义向量,确定用于表示浅层关键词信息的文本关键向量,并融合文本语义向量和文本关键向量,得到表示目标文本的文本向量,提升了得到的文本向量的准确性和有效性,当设备在各种场景中使用文本向量进行对目标文本的相关处理时,能够实现处理准确性的显著提升。附图说明图1是本专利技术实施例提供的基于人工智能的文本处理系统的一个可选的架构示意图;图2是本专利技术实施例提供的结合区块链的基于人工智能的文本处理系统的一个可选的架构示意图;图3是本专利技术实施例提供的电子设备的一个可选的架构示意图;图4是本专利技术实施例提供的基于人工智能的文本处理装置的一个可选的架构示意图;图5A是本专利技术实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图;图5B是本专利技术实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图;图5C是本专利技术实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图;图6是本专利技术实施例提供的序列到序列模型的一个可选的架构示意图;图7是本专利技术实施例提供的共现网络图的一个可选的示意图;图8是本专利技术实施例提供的确定文本关键向量的一个可选的示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本专利技术实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本专利技术实施例的目的,不是旨在限制本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)共现网络图:共现指共同出现,共现网络图即以共现的词为节点构成的图,共现网络图中的边表示对应的两个词之间的共现关系,例如两个词在某文章的一句话中共现。2)上下文预测模型:即Skip-Gram模型,一种基于无监督学习的语言模型,用于对给定的输入词进行预测,得到位于输入词上下文的输出词。3)独热(One-Hot)编码:使用N位状态寄存器来对N个状态进行编码,每个状态都对应独立的寄存器位,并且在任意时候,N位状态寄存器中只有一位有效,其中,N为大于0的整数,例如,存在男性和女性两种状态,则男性状态的独热编码可为[0,1],女性状态的独热编码可为[1,0]。4)嵌入(Embedding)处理:将文本映射为低维空间的向量,同时保留文本中的语义关系。5)序列到序列(seq2seq)模型:用于将一个文本序列转换为另一个文本序列。seq2seq模型通常由编码器和解码器构成,编码器用于将文本编码为能够映射出文本大致内容的固定长度的向量,解码器用于根据固定长度的向量,逐步映射出另一个文本。6)区块链(Blockchain):由区块(Block)形成的加密的、链式的交易的存储结构。7)区块链网络(BlockchainNetwork):通过共识的方式将新区块纳入区块链的一系列的节点的集合。本专利技术实施例提供一种基于人工智能的文本处理方法、装置、电子设备及存储介质,能够提升得到的文本向量的准确性和有效性,并提升根据文本向量进行对目标文本的相关处理的准确性。下面说明本专利技术实施例提供的电子设备的示例性应用,本专利技术实施例提供的电子设备可以是服务器,例如部署在云端的服务器,根据用户提交的目标文本,向用户提供远程的向量转换功能,以及基于得到的文本向量的更多功能,例如相似文本推荐功能或者标题确定功能等;也可以是终端设备,例如相似文本检索设备,通过比对两个文本对应的文本向量,判断两个文本是否相似;甚至可以是手持终端等设备。电子设备通过运行本文档来自技高网
...

【技术保护点】
1.一种基于人工智能的文本处理方法,其特征在于,包括:/n对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;/n提取所述目标文本中的关键词,并确定所述关键词的向量表示;/n根据所述关键词的向量表示,确定所述目标文本的文本关键向量;/n将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。/n

【技术特征摘要】
1.一种基于人工智能的文本处理方法,其特征在于,包括:
对目标文本进行语义表征处理,得到所述目标文本的文本语义向量;
提取所述目标文本中的关键词,并确定所述关键词的向量表示;
根据所述关键词的向量表示,确定所述目标文本的文本关键向量;
将所述文本语义向量和所述文本关键向量进行融合处理,得到用于表示所述目标文本的文本向量。


2.根据权利要求1所述的文本处理方法,其特征在于,所述确定所述关键词的向量表示,包括:
根据从所述目标文本中提取出的关键词,构建共现网络图;
将所述共现网络图中的任意一个关键词作为起点关键词,并根据所述起点关键词在所述共现网络图中进行游走处理,直至游走得到的关键词序列满足游走停止条件;
根据所述关键词序列更新上下文预测模型的权重参数;
根据更新后的所述上下文预测模型的隐藏层的权重参数,确定所述关键词的向量表示。


3.根据权利要求2所述的文本处理方法,其特征在于,所述根据从所述目标文本中提取出的关键词,构建共现网络图,包括:
将从所述目标文本中提取出的关键词确定为节点;
对从所述目标文本中提取出的关键词进行第一次遍历处理,得到第一关键词,并
对所述第一关键词之外的关键词进行第二次遍历处理,得到第二关键词;
当所述第一关键词在所述目标文本的共现窗口包括所述第二关键词时,建立所述第一关键词对应节点与所述第二关键词对应节点之间的边;
根据所述第一关键词与所述第二关键词的共现次数,确定建立的所述边的权重;
其中,所述共现窗口包括至少两个关键词。


4.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述起点关键词在所述共现网络图中进行游走处理,包括:
当所述起点关键词在所述共现网络图中仅存在一个邻接的关键词时,将邻接的关键词确定为新的起点关键词,并
将所述新的起点关键词添加至关键词序列;
当所述起点关键词在所述共现网络图中存在至少两个邻接的关键词时,根据所述起点关键词与邻接的关键词之间的边的权重,确定游走概率,并
根据所述游走概率从至少两个所述邻接的关键词中,确定新的起点关键词,将所述新的起点关键词添加至所述关键词序列。


5.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述关键词序列更新上下文预测模型的权重参数,包括:
遍历所述关键词序列中的所述关键词,并将遍历到的所述关键词确定为样本输入词;
确定所述样本输入词在所述关键词序列中对应的上下文窗口,并将所述上下文窗口中除所述样本输入词外的关键词,确定为样本输出词;
通过所述上下文预测模型,对所述样本输入词进行预测处理,得到预测输出词;
根据所述样本输出词与所述预测输出词之间的差异,在所述上下文预测模型中进行反向传播,并在反向传播的过程中,更新所述上下文预测模型的权重参数。


6.根据权利要求2所述的文本处理方法,其特征在于,
所述根据所述关键词序列更新上下文预测模型的权重参数之前,还包括:
确定所述关键词序列中各所述关键词的独热编码;
所述根据更新后的所述上下文预测模型的隐藏层的权重参数,确定所述关键词的向量表示,包括:
在所述关键词的所述独热编码中,确定设定数值所在的维度;
确定更新后的所述上下文预测模型的隐藏层的权重矩阵;
将所述权重矩阵中与所述维度对应的权重参数,确定为所述关键词的向量表示。


7.根据权利要求1所述的文本处理方法,其特征在于,
所述提取所述目标文本中的关键词,包括:
对候选文本进行关键词抽取处理,得到所述候选文本对应的候选关键词;
将所述候选文本对应的候选关键词,添加至候选关键词集合;
将所述目标文本中与所述候选关键词集合匹配的词,确定为提取出的关键词;
所述根据所述关键词的向...

【专利技术属性】
技术研发人员:费志辉李超马连洋衡阵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1