用于文本语义处理的方法、装置及产品制造方法及图纸

技术编号：10691924 阅读：202 留言：0更新日期：2014-11-26 19:15

本发明专利技术涉及产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法，包括：利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4)，以便通过语义聚类将每个文本文档(3)都映射至自组织映射(5)内的一个点(Xi/Yj)；为在第一组(2)中出现的每个关键词(7)，将含有所述关键词(7)的文本文档(3)被映射至的自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6)；以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9)。本发明专利技术进一步涉及训练神经网络的计算机实施方法和基于神经网络的分类器、预测器及翻译器。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于文本语义处理的方法、装置及产品
本专利技术涉及神经网络训练方法，尤其是用于文本的语义处理、分类及预测的方法。本专利技术进一步涉及计算机可读介质和基于神经网络的分类器、预测器及翻译器。
技术介绍
在本公开的上下文中，术语“神经网络”指计算机实施的、人工神经网络。在例如1995/2010年纽约牛津大学出版社的BishopC.M.(毕晓普·克里斯托夫M.)的”NeuralNetworksforPatternRecognition(用于模式识别的神经网络)”；或2011年伯尔尼的霍夫格雷夫股份公司的HansHuber(汉斯·胡伯)第二版的Rey，G.D.(雷伊G.D.)、WenderK.F.(文德尔K.F.)的”NeuraleNetze(神经网络)”中给出了神经网络的理论、类型及实施细节的概述。本专利技术尤其涉及通过神经网络的文本语义处理，即，通过集中关注文本的词及它们在现实世界和在它们上下文中所代表的含义之间的关系来分析文本的意义。在下文中，文本的“词”(记号(token))包含语言常用术语中的词以及诸如符号和标记的能够组合以形成文本的任何语言单位。从这些词中，我们忽略具有很少语义相关性的诸如“该”、“他”、“在”等的一组极普通的词以便留下我们称作文本“关键词”的词。语义文本处理的应用非常广泛并且包含例如出于相关性排序、归档、数据挖掘及信息检索的目的将文本分类成某些关键词。理解文本中关键词的意义并且预测将在文本中出现的“有意义的”另一些关键词，例如，对于搜索引擎中的语义查询扩展是有用的。最后但同样重要的是，当在较大的语义上下文中考虑源程序文本的词时通过解决源...
用于文本语义处理的方法、装置及产品

【技术保护点】
一种产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法，包括：利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4)以便通过语义聚类将每个文本文档(3)都映射至所述自组织映射(5)内的一个点(Xi/Yj)；为在所述第一组(2)中出现的每个关键词(7)，将含有所述关键词(7)的文本文档(3)被映射至的所述自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6)；以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9)。

【技术特征摘要】
【国外来华专利技术】2012.03.15 EP 12159672.01.一种产生用于将文本翻译成神经网络可读形式的计算机可读词典的计算机实施方法，包括：利用每个都含有语义上下文中一个或多个关键词(7)的第一文本文档(3)的第一组(2)来训练自组织映射类型的第一神经网络(4)以便通过语义聚类将每个文本文档(3)都映射至所述自组织映射(5)内的一个点(Xi/Yj)；为在所述第一组(2)中出现的每个关键词(7)，将含有所述关键词(7)的文本文档(3)被映射至的所述自组织映射(5)内的所有点(Xi/Yj)确定作为与所述关键词(7)相关联的点(Xi/Yj)的模式(6)；以及储存所有关键词(7)和关联模式(6)作为计算机可读模式词典(9)，由每个都含有语义上下文中一个或多个关键词(7)的第二文本文档(13)的第二组(12)形成关键词(7)的至少一个序列(11)；通过使用所述模式词典(9)将关键词(7)的所述至少一个序列(11)翻译成模式(6)的至少一个序列(14)；以及利用模式(6)的所述至少一个序列(14)训练第二神经网络(15)。2.根据权利要求1所述的方法，其中所述第二神经网络(15)是分层的和至少部分递归的。3.根据权利要求1所述的方法，其中所述第二神经网络(15)是记忆预测框架。4.根据权利要求1所述的方法，其中所述第二神经网络(15)是分层时间记忆。5.根据权利要求1至4中的任一项所述的方法，其中所述第一神经网络(4)是科荷伦自组织映射。6.根据权利要求1至4中的任一项所述的方法，其中对于所述第二组(12)的所述第二文档(13)的每一个，关键词(7)的单独序列(11)被形成并且被翻译成模式(6)的单独序列(14)，并且利用模式(6)的每一个所述单独序列(11)连续训练所述第二神经网络(15)。7.根据权利要求6所述的方法，其中所述第二文档(13)被排序，并且当训练所述第二神经网络(15)时，模式(6)的所述单独序列(14)按照所述第二文档(13)的排序顺序被馈送至所述第二神经网络(15)内，模式(6)的所述单独序列(14)已经每个都由所述第二文档(13)形成和翻译。8.根据权利要求7...

【专利技术属性】
技术研发人员：F·E·德苏萨韦博，
申请(专利权)人：赛普特系统有限公司，
类型：发明
国别省市：奥地利;AT

全部详细技术资料下载我是这个专利的主人