当前位置: 首页 > 专利查询>GSI科技公司专利>正文

利用KNN的自然语言处理制造技术

技术编号:21629235 阅读:26 留言:0更新日期:2019-07-17 11:11
用于自然语言处理的系统包括存储器阵列和处理器。存储器阵列被划分为:存储多个特征向量的相似性区段,用于确定特征向量的出现概率的SoftMax区段,存储多个经修改的特征向量的值区段,以及标记区段。处理器激活阵列以在由标记区段指示的每个列中执行以下并行运算:在向量问题与存储在指示的列中的特征向量之间的相似性区段中的相似性运算;SoftMax区段中的SoftMax运算,其用于针对指示的特征向量确定相关联的SoftMax概率值;值区段中的乘法运算,其用于使相关联的SoftMax值乘以存储在指示的列中的经修改的特征向量;以及值区段中的向量和,其用于累加乘法运算的输出的关注向量。

Natural Language Processing Using KNN

【技术实现步骤摘要】
利用KNN的自然语言处理相关申请的交叉引用本申请要求2017年7月16日提交的美国临时专利申请62/533,076和2018年6月18日提交的美国临时专利申请62/686,114的优先权和权益,这两个申请均通过引用方式并入本文。
本专利技术总体上涉及关联计算并且具体涉及使用关联计算的数据挖掘算法。
技术介绍
数据挖掘是发现大数据集中的模式的计算过程。它使用不同的技术来分析数据集。这些技术中的一种技术是分类,这是一种用于基于与其组成员已知的数据集中的项目相关联的数据来预测新项目的组成员的技术。k最近邻居算法(k-NN)是在例如但不限于生物信息学、语音识别、图像处理、统计估计、模式识别以及其他众多应用的使用机器学习过程的许多领域中使用的已知的数据挖掘分类方法之一。在对象(例如,产品、图像、面部、语音、文本、视频、人类状况、DNA序列等等)的大型数据集中,每个对象可以与若干预先定义类别中的一个相关联(例如,产品类别可能是:钟表、花瓶、耳环、钢笔等)。类别的数量可以是小的或大的,并且每个对象除了与类别相关联之外,还可以由一组属性(例如,对于产品:尺寸、重量、价格等)来描述。每个属性可以进一步由数值定义(例如,对于产品尺寸:诸如20.5厘米的宽度等)。分类过程的目标是基于对象属性的值及其与数据集中已分类对象的相似性来识别未分类对象(尚未对其定义类)的类。K最近邻居算法首先计算引入的对象X(未分类的)与数据集中的每个对象之间的相似度。相似度由对象之间的距离定义,使得距离越小,对象将越相似,并且可以使用几种已知的距离函数。在新引入的对象X与数据集中的所有对象之间计算距离之后,可以选择与X的k个最近邻居,其中k是由K最近邻居算法的用户定义的预定义数。X被分配给它的k个最近邻居中最常见的类。在其他算法当中,K最近邻居算法需要非常快速且高效地分析大的未排序数据集,以便快速访问数据集中的最小或最大(即极端)k项。用于在数据集中查找这k个最小/最大项目的一种方法可以是首先对数据集进行排序,使得按顺序排列数字,并且第一(或最后)k个数字是数据集中期望的k个项目。许多分类算法在本领域中是已知的并且可以使用。在2015年1月1日提交的并转让给本申请的共同受让人的美国专利申请14/594,434中描述了一种存储器内分类算法。该算法可用于通过以下来排序集合中的数字:初始找到第一最小值(或最大值),然后找到第二最小值(或最大值),然后重复该过程,直到数据集中的所有数字都从最小值到最大值(或从最大值到最小值)进行了排序。美国专利申请14/594,434中描述的排序算法的计算复杂度为O(n),当n是集合的大小时(因为存在对整个集合进行排序的n次迭代)。如果计算在第k次迭代处停止(如果用于找到第一k个最小值/最大值),则复杂度可以是O(k)。
技术实现思路
因此,根据本专利技术的优选实施例,提供了一种用于自然语言处理的系统。该系统包括存储器阵列和存储器内处理器。存储器阵列具有行和列,并且被划分为:初始地存储多个特征向量或键向量的相似性区段,用于确定特征向量或键向量的出现概率的SoftMax区段,初始地存储多个经修改的特征向量的值区段以及标记区段。存储器阵列的一个或多个列中的操作与要被处理的一个特征向量相关联。存储器内处理器激活存储器阵列,以在由标记区段指示的每个列中并行地执行以下运算:在向量问题与存储在每个指示的列中的每个特征向量之间的相似性区段中的相似性运算;SoftMax区段中的SoftMax运算,其用于针对每个指示的特征向量确定相关联的SoftMax概率值;值区段中的乘法运算,其用于使相关联的SoftMax值乘以存储在每个指示的列中的每个经修改的特征向量;以及值区段中的向量和运算,其用于累加乘法运算的输出的关注向量和。向量和用于生成用于进一步迭代的新向量问题或者用于在最终迭代中生成输出值。此外,根据本专利技术的优选实施例,存储器阵列包括操作部分,自然语言处理操作的每次迭代一个部分,每个部分被划分为区段。进一步地,根据本专利技术的优选实施例,存储器阵列是SRAM、非易失性、易失性或非破坏性阵列。更进一步,根据本专利技术的优选实施例,存储器阵列包括多个位线处理器,每个区段的每列一个位线处理器,每个位线处理器对其相关联的区段的数据的一个位进行操作。另外,根据本专利技术的优选实施例,该系统还包括用于生成特征向量和经修改的特征向量的神经网络特征提取器。进一步地,根据本专利技术的优选实施例,特征向量包括单词、句子或文档的特征。更进一步,根据本专利技术的优选实施例,特征向量是预先训练的神经网络的输出。另外,根据本专利技术的优选实施例,该系统还包括用于生成初始向量问题的预先训练的神经网络。此外,根据本专利技术的优选实施例,该系统还包括问题生成器,该问题生成器用于根据初始向量问题和关注向量和来生成进一步的问题。进一步地,根据本专利技术的优选实施例,问题生成器是神经网络。可替代地,根据本专利技术的优选实施例,问题生成器被实现为存储器阵列的位线上的矩阵乘法器。根据本专利技术的优选实施例,还提供了一种用于自然语言处理的方法。该方法包括具有存储器阵列,该存储器阵列具有行和列,存储器阵列被划分为:初始地存储多个特征向量或键向量的相似性区段,用于确定特征向量或键向量的出现概率的SoftMax区段,初始地存储多个经修改的特征向量的值区段以及标记区段,其中存储器阵列的一个或多个列中的操作与要被处理的一个特征向量相关联,以及激活存储器阵列以在由标记区段指示的每个列中并行地执行以下运算。这些运算是:执行在向量问题与存储在每个指示的列中的每个特征向量之间的相似性区段中的相似性运算,执行SoftMax区段中的SoftMax运算以针对每个指示的特征向量确定相关联的SoftMax概率值,执行值区段中的乘法运算以使相关联的SoftMax值乘以存储在每个指示的列中的每个经修改的特征向量,以及执行值区段中的向量和运算以累加乘法运算的输出的关注向量和。和用于生成用于进一步迭代的新向量问题或者用于在最终迭代中生成输出值。进一步地,根据本专利技术的优选实施例,存储器阵列包括多个位线处理器,每个区段的每列一个位线处理器,并且该方法另外包括每个位线处理器对其相关区段的数据的一个位进行操作。更进一步,根据本专利技术的优选实施例,该方法还包括利用神经网络生成特征向量和经修改的特征向量,并且将特征向量和经修改的特征向量分别存储在相似性区段和值区段中。此外,根据本专利技术的优选实施例,该方法还包括使用预先训练的神经网络生成初始向量问题。另外,根据本专利技术的优选实施例,该方法还包括根据初始向量问题和关注向量和来生成进一步的问题。进一步地,根据本专利技术的优选实施例,生成进一步的问题利用神经网络。最后,根据本专利技术的优选实施例,生成进一步的问题包括在存储器阵列的位线上执行矩阵乘法。附图说明被认为是本专利技术的主题在说明书的结论部分中被特别指出并明确要求保护。然而,关于组织和操作方法以及其目的、特征和优点,可以通过参考结合附图阅读时的以下详细描述来最好地理解本专利技术,在附图中:图1A和图1B是根据本专利技术的优选实施例构造和操作的用于在恒定时间内计算k个极值的存储器计算设备的逻辑和物理示意图。图2是存储在存储器阵列中的数据集C的示意图;图3是数据集C的示例;图4和图5是用于计算的临本文档来自技高网
...

【技术保护点】
1.一种用于自然语言处理的系统,所述系统包括:具有行和列的存储器阵列,所述存储器阵列被划分为:初始地存储多个特征向量或键向量的相似性区段,用于确定所述特征向量或所述键向量的出现概率的SoftMax区段,初始地存储多个经修改的特征向量的值区段以及标记区段,其中,所述存储器阵列的一个或多个列中的操作与要被处理的一个特征向量相关联;以及存储器内处理器,其用于激活所述存储器阵列,以在由所述标记区段指示的每个列中并行地执行以下运算:在向量问题与存储在每个所指示的列中的每个所述特征向量之间的所述相似性区段中的相似性运算;所述SoftMax区段中的SoftMax运算,其用于针对每个所指示的特征向量确定相关联的SoftMax概率值;所述值区段中的乘法运算,其用于使所述相关联的SoftMax值乘以存储在每个所指示的列中的每个所述经修改的特征向量;以及所述值区段中的向量和运算,其用于累加所述乘法运算的输出的关注向量和,所述向量和用于生成用于进一步迭代的新向量问题或者用于在最终迭代中生成输出值。

【技术特征摘要】
2017.07.16 US 62/533,076;2018.06.18 US 62/686,1141.一种用于自然语言处理的系统,所述系统包括:具有行和列的存储器阵列,所述存储器阵列被划分为:初始地存储多个特征向量或键向量的相似性区段,用于确定所述特征向量或所述键向量的出现概率的SoftMax区段,初始地存储多个经修改的特征向量的值区段以及标记区段,其中,所述存储器阵列的一个或多个列中的操作与要被处理的一个特征向量相关联;以及存储器内处理器,其用于激活所述存储器阵列,以在由所述标记区段指示的每个列中并行地执行以下运算:在向量问题与存储在每个所指示的列中的每个所述特征向量之间的所述相似性区段中的相似性运算;所述SoftMax区段中的SoftMax运算,其用于针对每个所指示的特征向量确定相关联的SoftMax概率值;所述值区段中的乘法运算,其用于使所述相关联的SoftMax值乘以存储在每个所指示的列中的每个所述经修改的特征向量;以及所述值区段中的向量和运算,其用于累加所述乘法运算的输出的关注向量和,所述向量和用于生成用于进一步迭代的新向量问题或者用于在最终迭代中生成输出值。2.根据权利要求1所述的系统,其中,所述存储器阵列包括操作部分,自然语言处理操作的每次迭代一个部分,每个部分被划分为所述区段。3.根据权利要求1所述的系统,其中,所述存储器阵列是以下中的一个:SRAM、非易失性、易失性以及非破坏性阵列。4.根据权利要求1所述的系统,其中,所述存储器阵列包括多个位线处理器,每个所述区段的每列一个位线处理器,每个所述位线处理器对其相关联的区段的数据的一个位进行操作。5.根据权利要求1所述的系统,并且还包括用于生成所述特征向量和所述经修改的特征向量的神经网络特征提取器。6.根据权利要求1所述的系统,并且其中,所述特征向量包括单词、句子或文档的特征。7.根据权利要求1所述的系统,其中,所述特征向量是预先训练的神经网络的输出。8.根据权利要求1所述的系统,并且还包括用于生成初始向量问题的预先训练的神经网络。9.根据权利要求8所述的系统,并且还包括问题生成器,所述问题生成器用于根据所述...

【专利技术属性】
技术研发人员:A·奥凯里博
申请(专利权)人:GSI科技公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1