基于人工智能的文本处理方法、装置及电子设备制造方法及图纸

技术编号:26171149 阅读:45 留言:0更新日期:2020-10-31 13:42
本申请提供了一种基于人工智能的文本处理方法、装置、电子设备及计算机可读存储介质;方法包括:对文本中属于同一句子的多个词语进行特征提取处理,得到多个词语的特征表示,以作为句子的句子级信息;对文本中的多个句子进行特征提取处理,得到多个句子的特征表示,以作为文本级信息;从知识库中获取文本中属于同一句子的多个词语的设定特征表示,以作为句子的设定信息;针对文本中的每个词语,根据词语所在句子的句子级信息、文本级信息、以及词语所在句子的设定信息,更新词语的特征表示,并根据词语的更新后的特征表示进行类型预测处理,得到词语的预测类型。通过本申请,能够提升得到的预测类型的精度,进而能够提升问答服务的智能化程度。

【技术实现步骤摘要】
基于人工智能的文本处理方法、装置及电子设备
本申请涉及人工智能和自然语言处理技术,尤其涉及一种基于人工智能的文本处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。自然语言处理(NatureLanguageprocessing,NLP)是人工智能领域中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。在自然语言处理中,时常会涉及到文本中词语的类型预测,预测出的类型可应用于多种场景,例如可用于构建知识图谱,以基于知识图谱提供问答服务,例如智能客服、医生机器人等。在相关技术提供的方案中,通常是针对文本中的每个句子,对句子中的词语进行特征提取,根据得到的特征来预测词语的类型。但是,由于语言本身具有复杂性和歧义性,导致根据相关技术提供的方案进行类型预测时,得到的类型的精度低,进而影响了问答服务的智能化程度。...

【技术保护点】
1.一种基于人工智能的文本处理方法,其特征在于,包括:/n对文本中属于同一句子的多个词语进行特征提取处理,得到所述多个词语的特征表示,以作为所述句子的句子级信息;/n对所述文本中的多个句子进行特征提取处理,得到所述多个句子的特征表示,以作为文本级信息;/n从知识库中获取所述文本中属于同一句子的多个词语的设定特征表示,以作为所述句子的设定信息;/n针对所述文本中的每个词语,根据所述词语所在句子的句子级信息、所述文本级信息、以及所述词语所在句子的设定信息,更新所述词语的特征表示,并/n根据所述词语的更新后的特征表示进行类型预测处理,得到所述词语的预测类型。/n

【技术特征摘要】
1.一种基于人工智能的文本处理方法,其特征在于,包括:
对文本中属于同一句子的多个词语进行特征提取处理,得到所述多个词语的特征表示,以作为所述句子的句子级信息;
对所述文本中的多个句子进行特征提取处理,得到所述多个句子的特征表示,以作为文本级信息;
从知识库中获取所述文本中属于同一句子的多个词语的设定特征表示,以作为所述句子的设定信息;
针对所述文本中的每个词语,根据所述词语所在句子的句子级信息、所述文本级信息、以及所述词语所在句子的设定信息,更新所述词语的特征表示,并
根据所述词语的更新后的特征表示进行类型预测处理,得到所述词语的预测类型。


2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词语所在句子的句子级信息、所述文本级信息、以及所述词语所在句子的设定信息,更新所述词语的特征表示,包括:
对所述词语的特征表示、以及所述词语所在句子的句子级信息执行第一层级的关联操作,得到第一中间向量;
对所述第一中间向量及所述文本级信息执行第二层级的关联操作,得到第二中间向量;
将所述第一中间向量与所述第二中间向量进行拼接处理,得到拼接向量;
对所述拼接向量、以及所述词语所在句子的设定信息执行第三层级的关联操作,得到第三中间向量;
根据所述第一中间向量、所述第二中间向量及所述第三中间向量,更新所述词语的特征表示。


3.根据权利要求2所述的文本处理方法,其特征在于,
所述第一层级包括至少一次关联操作;
所述对所述词语的特征表示、以及所述词语所在句子的句子级信息执行第一层级的关联操作,得到第一中间向量,包括:
在所述第一层级的每次关联操作中,对查询向量及所述词语所在句子的句子级信息进行注意力编码,得到注意力结果,并
将所述注意力结果与所述查询向量进行拼接处理,对拼接处理得到的结果进行加权处理及激活处理,得到新的查询向量,以执行下一次的关联操作;
当关联操作的执行次数达到次数阈值时,将最后一次关联操作得到的查询向量,确定为第一中间向量;
其中,初始的所述查询向量与所述词语的特征表示一致。


4.根据权利要求3所述的文本处理方法,其特征在于,所述对查询向量及所述词语所在句子的句子级信息进行注意力编码,得到注意力结果,包括:
确定所述查询向量与所述句子级信息中每个特征表示之间的相似度;
对得到的每个所述相似度进行归一化处理;
将归一化处理后的相似度,作为所述句子级信息中对应的特征表示的权重,并
对所述句子级信息中的多个特征表示进行加权求和,得到注意力结果。


5.根据权利要求3所述的文本处理方法,其特征在于,还包括:
根据所述第一层级对应的网络参数,对所述词语所在句子的特征表示进行加权处理;
对加权处理后的特征表示进行映射处理,得到概率分布;其中,所述概率分布中的每一个数值对应一个设定的次数阈值的选取概率;
根据所述概率分布选取出次数阈值,以将选取的次数阈值应用于所述第一层级的关联操作中。


6.根据权利要求5所述的文本处理方法,其特征在于,还包括:
获取包括多个样本句子的文本、以及每个所述样本句子中的词语的设定类型;
针对每个所述样本句子,根据所述样本句子中词语的设定类型及预测出的预测类型,确定出奖励值,并
将所述奖励值与三个层级中选取的次数阈值进行融合处理,得到目标值;
将多个所述样本句子对应的目标值进行求和处理,并根据求和处理得到的结果,更新所述三个层级对应的网络参数;
其中,所述三个层级包括所述第一层级、所述第二层级以及所述第三层级。


7.根据权利要求6所述的文本处理方法,其特征在于,
所述根据所述样本句子中词语的设定类型及预测出的预测类型,确定出奖励值,包括:
根据所述样本句子中词语的设定类型及预测出的预测类型,确定对所述样本句子中的词语进行类型预测处理的精确率和召回率;
对所述精确率和所述召回率进行调和平均处理,得到所述样本句子对应的奖励值;
所述将所述奖励值与三个层级中选取的次数阈值进行融合处理,得到目标值,包括:
遍历所述三个层级,将所述奖励值与遍历到的层级中选取的次数阈值进行相积处理,并
对相积处理得到的结果进...

【专利技术属性】
技术研发人员:陈玉博刘康赵军曹鹏飞闭玮刘晓江邸欣晨
申请(专利权)人:中国科学院自动化研究所腾讯科技深圳有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1