用于文本语义处理的方法、装置及产品制造方法及图纸

技术编号:10691924 阅读:202 留言:0更新日期:2014-11-26 19:15
本发明专利技术涉及产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法,包括:利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4),以便通过语义聚类将每个文本文档(3)都映射至自组织映射(5)内的一个点(Xi/Yj);为在第一组(2)中出现的每个关键词(7),将含有所述关键词(7)的文本文档(3)被映射至的自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6);以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9)。本发明专利技术进一步涉及训练神经网络的计算机实施方法和基于神经网络的分类器、预测器及翻译器。

【技术实现步骤摘要】
【国外来华专利技术】用于文本语义处理的方法、装置及产品
本专利技术涉及神经网络训练方法,尤其是用于文本的语义处理、分类及预测的方法。本专利技术进一步涉及计算机可读介质和基于神经网络的分类器、预测器及翻译器。
技术介绍
在本公开的上下文中,术语“神经网络”指计算机实施的、人工神经网络。在例如1995/2010年纽约牛津大学出版社的BishopC.M.(毕晓普·克里斯托夫M.)的”NeuralNetworksforPatternRecognition(用于模式识别的神经网络)”;或2011年伯尔尼的霍夫格雷夫股份公司的HansHuber(汉斯·胡伯)第二版的Rey,G.D.(雷伊G.D.)、WenderK.F.(文德尔K.F.)的”NeuraleNetze(神经网络)”中给出了神经网络的理论、类型及实施细节的概述。本专利技术尤其涉及通过神经网络的文本语义处理,即,通过集中关注文本的词及它们在现实世界和在它们上下文中所代表的含义之间的关系来分析文本的意义。在下文中,文本的“词”(记号(token))包含语言常用术语中的词以及诸如符号和标记的能够组合以形成文本的任何语言单位。从这些词中,我们忽略具有很少语义相关性的诸如“该”、“他”、“在”等的一组极普通的词以便留下我们称作文本“关键词”的词。语义文本处理的应用非常广泛并且包含例如出于相关性排序、归档、数据挖掘及信息检索的目的将文本分类成某些关键词。理解文本中关键词的意义并且预测将在文本中出现的“有意义的”另一些关键词,例如,对于搜索引擎中的语义查询扩展是有用的。最后但同样重要的是,当在较大的语义上下文中考虑源程序文本的词时通过解决源程序文本的歧义,语义文本处理增强机器翻译的质量。迄今,语义文本处理的现有方法,尤其是用于搜索引擎中查询扩展的方法,会有用于关键词、它们的词目(词汇根)及关键词之间统计关系的大量统计指标的工作,以便建立用于关系分析的大型同义词库文件、统计及词典。然而,当考虑更长和更多的复杂词序列时,统计方法在语义分析的深度方面受限。另一方面,神经网络主要用于在复杂多样的数据中识别模式,诸如图像中的目标识别或语音、音乐或测量数据中的信号识别。必须利用海量训练数据正确“训练”神经网络以便提供将被分析的“现场的”采样时能够完成它们的识别任务。训练神经网络与配置它的网络节点(“神经元”)之间它的内部连接和权值是等效的。训练的结果是神经网络内通常加权连接的具体配置。训练神经网络就其本身是一项复杂的任务并且涉及利用例如迭代或自适应算法设定大量参数。用于神经网络的训练算法因此能够被视为用于建立(构建,build)用于具体应用的神经网络的技术手段。虽然神经网络目前广泛用于大量数值数据中的模式识别,但是它们用于文本处理的应用当前受到文本能够以机器可读形式被提供给神经网络的形式的限制。
技术实现思路
本专利技术的一个目的是改善一方面文本和另一方面神经网络之间的接口以便更好地开发用于语义文本处理的神经网络的分析能力。在本专利技术的第一个方面,提供了一种训练神经网络的计算机实施方法,包括:利用每个都含有语义上下文中一个或多个关键词的第一文本文档的第一组训练自组织映射类型的第一神经网络以便通过语义聚类将每个文档都映射至自组织映射内的一个点;为在第一组中出现的每个关键词,将含有所述关键词的第一文档被映射至的自组织映射内的所有点确定作为一种模式并且将用于所述关键词的所述模式储存在模式词典内;由每个都含有语义上下文中一个或多个关键词的第二文本文档的第二组形成关键词的至少一个序列;通过使用所述模式词典将关键词的所述至少一个序列翻译成模式的至少一个序列;以及利用模式的所述至少一个序列训练第二神经网络。利用创新方法训练的第二神经网络被配置成用于并且准备用于包括下列应用的各种应用:i)处理含有至少一个关键词的文本,包含:借助于模式词典将所述至少一个关键词翻译成至少一种模式,将作为输入模式的所述至少一种模式馈送至所述训练第二神经网络内,从所述训练第二神经网络中获得至少一种输出模式,以及借助于模式词典将所述至少输出模式翻译成至少一个关键词;ii)文本的语义分类,当使用分层类型的第二神经网络时,其中所述至少一种输入模式被馈送至层次的至少一个较低层内并且从层次的至少一个较高层中获得所述至少一种输出模式;以及iii)文本的语义预测,当使用分层类型的第二神经网络时,其中所述至少一种输入模式被馈送至层次的至少一个较高层内并且从层次的至少一个较低层中获得所述至少一种输出模式。在本专利技术的另一个方面,提供产生用于将文本翻译成神经网络可读形式的计算机可读词典的方法,包括:利用每个都含有语义上下文中一个或多个关键词的文本文档训练自组织映射类型的神经网络以便通过语义聚类将每个文本文档都映射至自组织映射内的一个点;对于在第一组中出现的每个关键词,将含有所述关键词的文本文档被映射至的自组织映射内的所有点确定作为与所述关键词相关联的点的模式;以及将所有关键词和关联模式储存为计算机可读词典。本专利技术还提供在计算机可读介质上实施的这种类型的计算机可读词典。本专利技术的另外方面是:-分类器,包括利用根据本专利技术第一个方面的方法已经被训练成所述第二神经网络的分层时间记忆类型的神经网络;-预测器,包括利用根据本专利技术第一个方面的方法已经被训练成所述第二神经网络的分层时间记忆类型的神经网络;-翻译器,包括这种分类器,即,其中的神经网络已经通过使用第一语言中第一和第二文本文档而被训练,及预测器,其中的神经网络已经通过使用第二语言中第一和第二文本文档而被训练,其中分类器的神经网络的节点被连接至预测器的神经网络的节点。在所有方面,本专利技术以一种全新的方式将三种不同技术组合在一起,即,自组织映射(SOM)、SOM中关键词的反向索引、以及暴露给被翻译成模式流的文本的目标神经网络。本专利技术的一个原理是产生含有关键词和二(或多)维模式之间关联的新型“关键词vs.模式”词典(简称:“模式词典”)。这种模式表示第一文档组上下文内关键词的语义。通过选择语义上下文的适当集合作为第一文档组,例如,正如稍后所描述的百科全书的文章,每种模式都反映语义上下文并因此反映关键词的意义。通过SOM神经网络,尤其是通过“科荷伦自组织映射”(“科荷伦特征映射”)产生模式。关于SOM的详细说明,请参见例如Kohonen,T.,“TheSelf-OrganizingMap”,ProceedingsoftheIEEE,78(9),1464-1480,1990;Kohonen,T.,Somervuo,P.,“Self-OrganizingMapsofSymbolStrings”,Neurocomputing,21(1-3),19-30,1998;Kaski,S.,Honkela,T.,Lagus,K.,Kohonen,T.,,,Websom-Self-OrganizingMapsofDocumentCollections”,Neurocomputing,21(1-3),101-117,1998;Merkl,D.,“TextClassificationwithSelf-OrganizingMaps:SomeLessonsLearned”,Neurocomputing,21(1-3),61-77,1998;Vesanto,J本文档来自技高网
...
用于文本语义处理的方法、装置及产品

【技术保护点】
一种产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法,包括:利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4)以便通过语义聚类将每个文本文档(3)都映射至所述自组织映射(5)内的一个点(Xi/Yj);为在所述第一组(2)中出现的每个关键词(7),将含有所述关键词(7)的文本文档(3)被映射至的所述自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6);以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9)。

【技术特征摘要】
【国外来华专利技术】2012.03.15 EP 12159672.01.一种产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法,包括:利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4)以便通过语义聚类将每个文本文档(3)都映射至所述自组织映射(5)内的一个点(Xi/Yj);为在所述第一组(2)中出现的每个关键词(7),将含有所述关键词(7)的文本文档(3)被映射至的所述自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6);以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9),由每个都含有语义上下文中一个或多个关键词(7)的第二文本文档(13)的第二组(12)形成关键词(7)的至少一个序列(11);通过使用所述模式词典(9)将关键词(7)的所述至少一个序列(11)翻译成模式(6)的至少一个序列(14);以及利用模式(6)的所述至少一个序列(14)训练第二神经网络(15)。2.根据权利要求1所述的方法,其中所述第二神经网络(15)是分层的和至少部分递归的。3.根据权利要求1所述的方法,其中所述第二神经网络(15)是记忆预测框架。4.根据权利要求1所述的方法,其中所述第二神经网络(15)是分层时间记忆。5.根据权利要求1至4中的任一项所述的方法,其中所述第一神经网络(4)是科荷伦自组织映射。6.根据权利要求1至4中的任一项所述的方法,其中对于所述第二组(12)的所述第二文档(13)的每一个,关键词(7)的单独序列(11)被形成并且被翻译成模式(6)的单独序列(14),并且利用模式(6)的每一个所述单独序列(11)连续训练所述第二神经网络(15)。7.根据权利要求6所述的方法,其中所述第二文档(13)被排序,并且当训练所述第二神经网络(15)时,模式(6)的所述单独序列(14)按照所述第二文档(13)的排序顺序被馈送至所述第二神经网络(15)内,模式(6)的所述单独序列(14)已经每个都由所述第二文档(13)形成和翻译。8.根据权利要求7...

【专利技术属性】
技术研发人员:F·E·德苏萨韦博
申请(专利权)人:赛普特系统有限公司
类型:发明
国别省市:奥地利;AT

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1