当前位置: 首页 > 专利查询>索尼公司专利>正文

语言处理方法与电子设备技术

技术编号:10385853 阅读:105 留言:0更新日期:2014-09-05 12:17
本发明专利技术公开了语言处理方法与电子设备。其中,该语言处理方法包括:根据来自词的输入序列中的至少一个词形成特征;基于将特征用作自变量的哈希函数来生成存储该特征的权重的存储单元的地址;利用所述地址从存储单元中检索特征的权重;以及基于权重和二阶依存关系解析算法来生成输入序列的依存树。还提供了一种相应的电子设备。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了语言处理方法与电子设备。其中,该语言处理方法包括:根据来自词的输入序列中的至少一个词形成特征;基于将特征用作自变量的哈希函数来生成存储该特征的权重的存储单元的地址;利用所述地址从存储单元中检索特征的权重;以及基于权重和二阶依存关系解析算法来生成输入序列的依存树。还提供了一种相应的电子设备。【专利说明】语言处理方法与电子设备
本专利技术涉及一种语言处理方法以及用于语言处理的电子设备。
技术介绍
本文所提供的“
技术介绍
”描述是为了总体地呈现本公开内容的背景的目的。某种程度描述在
技术介绍
部分的、目前指定的专利技术人的工作以及申请时另未限定为现有技术的说明书方面,既没有明示也没有默示承认作为本专利技术的现有技术。语言处理方法将用户的话语分割成句子并将句子分割成记号,例如词或短语。语法解析器使用记号来确定句子中的句法结构。因此所述语法解析器使用基于描述句子的词与词之间的句法关系的语法的算法。该语法由多个产生规则体现,其中每个产生规则对应描述词对和多词短语如何彼此结合以获得某个短语类型的多词短语的语法规则。语法上正确的句子可以表示为解析树。依存解析或者依存语法(DG dependency grammar)都是基于依存关系的现代句法理论的一类。该依存关系将(限定)动词视为所有字句结构的结构中心。其它所有的句法单位(例如,词)都直接或者间接地依存于动词。由于DG缺少短语节点,所以依存语法与短语结构语法(=选区语法constituency grammars)不同。结构是通过词(头head)和其依存部分之间的关系来确定。由于依存结构缺乏限定动词短语成分,所以在某种程度上比选区结构更平坦,因此该依存结构非常适于分析自由词序的语言,例如,捷克语和土耳其语。当前,依存解析器需要大容量的存储器,以及它有时需要较长的计算时间。实施方式的目的是提供一种改进的自然语言处理方法以及用于改进的自然语言处理的电子设备。
技术实现思路
—个实施方式涉及一种语言处理方法。所述语言处理方法使用解析处理器,以及包括:根据来自词的输入序列中的一个词形成特征;基于将特征用作自变量的哈希函数来生成存储特征的权重的存储单元的地址;利用该地址从小区单元中检索特征的权重;以及基于权重和二阶依存解析算法来生成输入序列的解析树。另一个实施方式涉及一种电子设备,包括:解析处理器,被配置为根据来自词的输入序列中的至少一个词形成特征;存储器,包括存储针对特征的权重的存储单元;其中,解析处理器进一步被配置为:基于将特征用作自变量的哈希函数来生成存储特征的权重的存储单元的地址;利用该地址从存储单元中检索特征的权重;以及基于权重和二阶依存解析算法来生成输入序列的依存树。上述段落已经以一般介绍的方式给出,并且上述段落并不旨在限制所附权利要求的范围。结合附图,通过参照以下【具体实施方式】,所述实施方式以及其他优点将得到更好地理解。图中的元件不一定按相对彼此的比例绘制。【专利附图】【附图说明】当结合附图考虑时,通过参考以下【具体实施方式】,本专利技术的更完整的理解及本专利技术容易获得的其伴随优点变得更好理解,其中:图1示意性地示出了根据本专利技术实施方式的语言处理方法的流程图。图2示意性地示出了用于句子的最终依存树。图3示意性地示出了两个子树至开放跨度(open span)的组合。图4示意性地示出由开放的跨度和树生成的封闭跨度。图5示意性地示出针对一阶和二阶依存算法的依存关系。图6示意性地示出了根据本专利技术实施方式的电子设备的方框图。【具体实施方式】现在参考附图,其中相同的参考标号指代通篇几个附图中相同或者相应部件,图1示出了根据本专利技术实施方式的语言处理方法的示意流程图。在SlOO中,特征根据来自词的输入序列中的至少一个词来形成。术语“特征”用于机器学习中来描述从潜在的输入源中提取的实体的属性。特征可以是基本的或者由其它基本特征组成。例如,解析器的输入可以是句子的词形(对应词的输入序列),分配给词形的词性标记等。基本特征例如是“名词”、“动词”、“形容词”、“限定词”等。组成特征由诸如“词形+词性”:“a+限定词”、“bank+名词”的模板构建。在依存解析中,如果解析器必须在两个词或词对(例如,名词(头)+限定词(依存部分))之间构建边缘,例如,词性(候选-头(head))+词性(候选+子(child)),由于解析器必须决定候选部分,则特征由候选部分组成。在SllO中,存储针对特征的权重的存储单元的地址基于将特征用作自变量的哈希函数来生成。权重可被解释为由诸如支持向量机的(判别)机器学习技术所分配给区别特征的值。机器学习算法能够在学习阶段获得有意义的权重,即一些技术提供可能性(生成技术)。例如,“a+限定词”可能具有的权重为1.2,因为词“a”是限定词并且在训练阶段被学习算法了解,以及“房子+形容词”的权重可能为-0.2,因为“房子”不是“形容词”。在解析中,诸如‘名词’-> ‘限定词’的特征可能具有正权重,以及诸如‘房子’ + ‘限定词’的词汇化特征也可能具有正权重,但因为形容词和限定词之间的边缘会导致错误的依存关系树,诸如‘形容词’-> ‘限定词’的特征可能具有负权重。权重可以保存为大列表,其通常包含几百万的条目。为了在列表中查找针对特征的权重,可以使用查找表。查找表通常实现为哈希表。该查找表可以作为对列表:(特征,权重的地址)存储在存储器中。因为该算法必须在主存储器中的伪随机位置查找大量的值,所以查找权重是一个相对缓慢的过程。因为存储器访问是通过预取单元将序列读入CPU的高速缓存线来优化的,所以对在伪随机位置的值的访问是最耗时的操作之一。哈希函数或哈希内核使用数学函数替代查找表来查找权重向量中的特征的权重。因为不再需要主存储器中的查找表并且避免了为将特征映射至权重的地址而访问主存储器的伪随机位置,从而速度更快。该哈希函数采用特征作为自变量并计算权重的地址。因为没有针对该哈希函数的最佳解决方案,哈希函数可应用于分配确定性的权重以放置在给定数目的空间中。所述函数似乎随机的确定位置,但确定性工作过程意味着利用相同自变量可以计算相同的位置并可以快速找出存储权重的位置。在S120中,利用基于哈希函数生成的地址从存储单元中检索针对该特征的权重。然后,在S130中,基于权重和二阶依存解析算法生成输入序列的依存树。得分可被计算为给定特征(例如,如头和子的动词、名词、形容词等词性,动词_>名词等)的权重的和,如在例如罗森布拉特(Rosenblatt)的“感知:用于大脑中信息存储和组织的概率模型”(心理学回顾,65卷,第6期,1958年)中所公开的感知算法一样。依存树可以通过循环在所有相邻特征、结合这两个最高得分的特征并将其存储在数据结构(表)中来生成。例如,边缘的得分可以是权重的和:得分=权重(头-词)+权重(依存部分-词)+权重(头_pos) +权重(依存部分-pos I I头-pos)等。在语言学中,依存树形式上为定义在句子的词上的树。句子的词W1...Wn是(标记)有向树的节点,即子集TcWxWxL即,作为形式定义的依存关系,其中,W是句子的一组词以及L是表示句法种类的一组边缘标记,例如L={主语、宾语、修饰语…}。输入通常另外注释有例如动本文档来自技高网
...

【技术保护点】
一种利用解析处理器的语言处理方法,包括:根据来自词的输入序列的至少一个词形成特征;基于将所述特征用作自变量的哈希函数来生成存储针对所述特征的权重的存储单元的地址;利用所述地址从所述存储单元中检索针对所述特征的所述权重;以及基于所述权重和二阶依存关系解析算法来生成针对所述输入序列的依存树。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:贝恩德·博内特
申请(专利权)人:索尼公司
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1