基于人工智能的文本校验方法和装置制造方法及图纸

技术编号:16152886 阅读:55 留言:0更新日期:2017-09-06 18:17
本申请公开了基于人工智能的文本校验方法和装置。该方法的一具体实施方式包括:分别对待校验的第一文本和待校验的第二文本进行分词,确定所分割的各个词的词向量以生成第一词向量序列和第二词向量序列;分别将所述第一词向量序列和所述第二词向量序列输入至预先训练的、包含至少一个多尺度卷积层的卷积神经网络,将最后一个多尺度卷积层所输出的多个向量序列中的各向量序列确定为特征向量序列,得到与各文本相对应的特征向量序列组;将每一个特征向量序列组中的各个特征向量序列进行结合,生成结合特征向量序列;对所生成的结合特征向量序列进行解析,确定所述第一文本和所述第二文本是否通过相似性校验。该实施方式提高了文本校验的灵活性。

【技术实现步骤摘要】
基于人工智能的文本校验方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及基于人工智能的文本校验方法和装置。
技术介绍
人工智能(ArtificialIntelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能领域中的自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。通常,需要利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)等进行文本的相似性等的校验。然而,现有的方法所使用的卷积神经网络通常仅支持按固定的尺度(即每次输入至卷积神经网络的卷积层的卷积核的向量的个数,也可称为窗口长度)进行卷积,从而存在着对文本校验的灵活性较低的问题。
技术实现思路
本申请实施例的目的在于提出一种改进的基于人工智能的文本校验方法和装置,来解本文档来自技高网...
基于人工智能的文本校验方法和装置

【技术保护点】
一种基于人工智能的文本校验方法,其特征在于,所述方法包括:分别对待校验的第一文本和待校验的第二文本进行分词,确定所分割的各个词的词向量,以生成与所述第一文本相对应的第一词向量序列和与所述第二文本相对应的第二词向量序列;分别将所述第一词向量序列和所述第二词向量序列输入至预先训练的、包含至少一个多尺度卷积层的卷积神经网络,将所述至少一个多尺度卷积层中的最后一个多尺度卷积层所输出的多个向量序列中的各向量序列确定为特征向量序列,以分别得到与各文本相对应的特征向量序列组,其中,所述卷积神经网络用于提取文本的特征;将所确定的、与每一个文本的相对应的特征向量序列组中的各个特征向量序列进行结合,生成与该文本相...

【技术特征摘要】
1.一种基于人工智能的文本校验方法,其特征在于,所述方法包括:分别对待校验的第一文本和待校验的第二文本进行分词,确定所分割的各个词的词向量,以生成与所述第一文本相对应的第一词向量序列和与所述第二文本相对应的第二词向量序列;分别将所述第一词向量序列和所述第二词向量序列输入至预先训练的、包含至少一个多尺度卷积层的卷积神经网络,将所述至少一个多尺度卷积层中的最后一个多尺度卷积层所输出的多个向量序列中的各向量序列确定为特征向量序列,以分别得到与各文本相对应的特征向量序列组,其中,所述卷积神经网络用于提取文本的特征;将所确定的、与每一个文本的相对应的特征向量序列组中的各个特征向量序列进行结合,生成与该文本相对应的结合特征向量序列;对所生成的结合特征向量序列进行解析,确定所述第一文本和所述第二文本是否通过相似性校验。2.根据权利要求1所述的文本校验方法,其特征在于,所述对所生成的结合特征向量序列进行解析,确定所述第一文本和所述第二文本是否通过相似性校验,包括:对于每一个文本,提取与该文本相对应的结合特征向量序列所包含的特征向量中的每一维的最大值,以生成与该文本的相对应的目标特征向量;基于所生成的、与各文本相对应的目标特征向量,确定所述第一文本和所述第二文本是否通过相似性校验。3.根据权利要求2所述的文本校验方法,其特征在于,所述基于所生成的、与各文本相对应的目标特征向量,确定所述第一文本和所述第二文本是否通过相似性校验,包括:将所生成的各目标特征向量输入至预先训练的相似性预测模型,得到所述第一文本和所述第二文本的相似性预测结果,其中,所述相似性预测模型用于表征多个文本的目标特征向量序列与所述多个文本的相似性预测结果的对应关系;基于所得到的相似性预测结果,确定所述第一文本和所述第二文本是否通过相似性校验。4.根据权利要求3所述的文本校验方法,其特征在于,所述方法还包括训练相似性预测模型的步骤,包括:提取预设的训练样本,其中,所述训练样本包括第一训练文本、第二训练文本、用于指示所述第一训练文本和所述第二训练文本是否相似的标识;对所述第一训练文本和所述第二训练文本进行解析,生成分别与所述第一训练样本和所述第二训练样本相对应的目标特征向量;利用机器学习方法,将分别与所述第一训练样本和所述第二训练样本相对应的目标特征向量作为输入,将所述标识作为输入,训练得到相似性预测模型。5.根据权利要求2所述的文本校验方法,其特征在于,所述基于所生成的、与各文本相对应的目标特征向量,确定所述第一文本和所述第二文本是否通过相似性校验,包括:确定与所述第一文本相对应的目标特征向量和与所述第二文本相对应的目标特征向量的相似度;响应于确定所述相似度大于预设的相似度阈值,确定所述第一文本和所述第二文本通过相似性校验;响应于确定所述相似度不大于所述相似度阈值,确定所述第一文本和所述第二文本未通过相似性校验。6.根据权利要求1所述的文本校验方法,其特征在于,所述至少一个多尺度卷积层中的相邻多尺度卷积层之间设置有深度连贯层和池化层,所述深度连贯层用于将所多尺度卷积层所输出的多个向量序列进行结合以生成由多个结合向量所构成的结合向量序列,所述池化层用于对预设的窗口尺寸和预设的窗口滑动步长对深度连贯层所生成的结合向量序列进行解析以得到简化后的结合向量序列。7.一种基于人工智能的文本校验装置,其特征在于,所述装置包括:分词单元,配置用于分别对待校验的第一文本和待校...

【专利技术属性】
技术研发人员:朱志凡冯仕堃周坤胜何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1