可让计算机理解的自然语言句子的自动语义识别的方法技术

技术编号:7786413 阅读:628 留言:0更新日期:2012-09-21 07:29
可让计算机理解的自然语言句子的自动语义识别的方法,涉及到一种可以准确的识别汉语语言的方法。具体它包括以下步聚:a在某个领域建立本体库;b基于领域本体建立语义框架知识库;c基于语义框架的本体映射,实现自然语言句子到语义结构的直观匹配;根据框架模式进行匹配性识别。本发明专利技术与二代搜索引擎技术中主流切词方法有很大的区别,切出的词语有领域本体的概念标注,从而获得自然语言句子的精确语义匹配,计算机系统就能够进行本体知识的计算和推理,从而为深度人工智能问答提供了广泛的应用前景。

【技术实现步骤摘要】

本专利技术涉及一种计算机识别人类语言的方法,特别涉及到一种可以准确的识别汉语语目的方法。
技术介绍
搜索引擎的工作原理就是基于关键字匹配,将用户的输入进行切词,把一句话变成短小的词语,然后进入后台数据库进行网页内容的关键字匹配。其捜索返回的结果中,只要带有这些关键字的都会返回,包含大量的无关信息,查准率低下,不能切中用户的真正意图。显然,基于关键字匹配的切词和搜索技术,限制了计算机在检索中的自动分析能 力。对ー个句子进行关键词匹配切割,虽然很容易处理由关键字拼凑成的一句话,但是却很难理解自然语言形式的一句话。因为词库里存放的,是词语的大杂汇,标注出的结果词语,缺乏语义信息,缺乏知识的理解和推理能力。因此,对ー个自然语言句子的切分和标注,是搜索、推荐、人工智能等高科技领域迫切需要突破的基础技术。当前,这个领域的主要进展是,对于自然语言句子的标注方法,采用词典语料样本库进行句法分析,通过建立机器学习模型来实现自动的语义角色标注。但这类方法仍然存在很大的局限和缺点 1、句法分析以词库为基础,需要积累大規模的语料库才能实现初歩的语义标注,建设成本巨大; 2、词库不分领域,每个词只有语法上的意义,比如名词、动词、状语、主语、宾语等,却缺乏清晰的语义意义。3、由于语料库是ー个词语的大杂汇,所以在运用的时候,为了要适应不同的领域特性,需要繁琐的学习算法,重用度低,系统性能难以达到商业生产环境的实用要求,从而无法走出实验室; 总之,这种基于语义角色的标注,粒度过粗,对于句子意义的理解无法适应深度人工智能问答的要求。
技术实现思路
本专利技术的专利技术目的是提供一种计算机准确理解中国汉语言的方法,它抛弃了以往选字取词的方法,从汉语的语言特点出发,通过词语架构,准确的让计算机知道操作者输入的语言内容;确切的分析出一句汉语的语意。为完成上述专利技术目的,本专利技术是这样实现的一种,它包括以下步聚; a在某个领域建立本体库; 将某个领域内所有的精确描述的无歧义的词语归放到一起构成本体库;b基于领域本体建立语义框架知识库; 对自然语言句子的理解,建立“语义框架=谓词+核心框架元素+非核心框架元素”的语义框架体系;形成有某种特定含义的框架知识库; C基于语义框架的本体映射,实现自然语言句子到语义结构的直观匹配;根据框架模式进行匹配性识别。本专利技术为解决以往技术中汉语的复杂问题,以往语言的的鱼龙混杂,语义不清的特点,以往语言中,由于前提不明确,语境不定,因此对于复杂的汉语言来说,其语义没有办法确定,也确实无法确定。而本专利采用分别建立相应的专业领域库,让某些语言在特定的环境下工作,那么他的语义就是ー个明确的语义。再建立相应的,可以人为理解的语义框架,从而让计算机相应的去筛选语句中特定的语义框架,由语义框架所标注的意思来理解这句话所最終表达含义。 对上述技术方案作进ー步的改进,所述的框架元素是由本体库内的无歧义的词语本体构成。本方案是为了确保语义的准确性而设计的,确保词库内的词语无歧义这也是确保语义识别准确的前提。对上述技术方案作进ー步的改进,所述的本体库分为本领域知识本体库和通用词本体知识库;所述的领域本体知识库,也是ー个词库。它里面主要包括实词和领域相关的有意义的词汇;所述的通用词本体知识库是也是ー个词库;它里面主要包括虚词、代词、形容词、数词、量词、介词、助词、语气词,这些词是独立于特定领域的,但却是针对特定语言表达的,利用通用词库匹配标注出来的词语,在后面的机器理解中,可以当作辅助分析的词语,对领域内的句式、语境产生补充作用。本方案确实考虑到现实语言的复杂情况,在一句话中,会有很多的用于限定的词语,而这些词语本身对于这句话的实际意义不大,只是有了他们意思更加明确,这些词语的存在会给语言带来复杂性,因此,本专利将词库建立成两个类,以便计算机下一歩的分析处理,从不同的词内提取不同的内容,最终达到准确识别。对上述技术方案作进ー步的改进,所述的框架元素(核心框架元素和非心核框架元素)是以本领域知识本体库相匹配的词语为意义主干,以通用词本体库相匹配的词语为意义表达的补充。所述的语义框架也是建立在某一特定专业领域内的,且该专业领域是与本体库相关的专业领域。所述的语义框架知识库内的每ー个语义框架都标识有一个确切意义。在特定的专业领域内,语义框架才有对应的唯一的意义,因此,上述方案均是针对语义的确定性而安排设计的。对上述技术方案作进ー步的改进,为了更加确切的,具体的识别用户的主_,本专利采用语义与语法的类比关系,在C步中所述的匹配性识别的特征在干语义框架对应于句子级别,框架元素相当短语级别,本体相当于词语级别,通过严格语义化的匹配关系,获得对自然语言句子的精确理解。从而为人工智能的发展做一点思想上的贡献。对上述技术方案作进ー步的改进,在C步中所述的匹配性识别的具体性方法是指首先根据语句中的动词和核心框架元素找出相应的语义框架;根据语义框架的框架元素的排列组合而来的语序结构,筛选出相应的句式,通过句子与可能句式之间的匹比,来深入框架元素的内部结构,进行本体匹配。对上述技术方案作进ー步的改进,框架元素的匹配,其特征在于将句块与框架元素的短语结构进行匹配,依次识别出通用词本体和领域本体,实现明确的基于本体的语义识别,并结合语义框架本身的意义,从而确定语句的真实意思。因此,计算机就此可以知道用户的主旨。通过语义框架和领域本体知识库的建设,实现自然语言句子的自动语义标注,摆脱了词库建设和句法分析的复杂性和模糊性,不仅易于操作和实现,同时,基于本体概念的语义标注,可以有效实现对句子意义的精确理解,为深度人工智能问答奠定基础。一个单句子的意图,必需要在语境、领域的前提下,才能明确;而不是单看ー个词语。因为ー个词语可以用在各个领域,各种语境下。再看当前句子标注切分的算法,其实就是为了实现关键字搜索的字符串匹配,当前主流的技术只需要把句子切开、切成词就完成了任务。那么这个词代表什么?这个词在这个句子中有多重要?这个句子是什么语境、什 么领域的?当前的主流搜索引擎给出的答案是无数网页,这些网页只要包含切出的词语,就返回它们。主流搜索引擎根本无法回答以上的几个问题,所以他们给出的结果必定是网页的罗列。如果机器能够区分语境、区分领域、区分句式、区分一个词的不同意义,那么就可以给出特定的答案,精确且符合人们预期的答案,而不是无数网页的罗列。具体实施例方式 下面结合具体实例来了解一下,如何让计算机知道用户的用意主旨的。下面以“购买”领域为例子,以“在淘宝上买一台5000元左右的笔记本电脑”为例句,来具体说明实现自动语义标注的方法和步骤。一、本体概念知识库的建设 ①购买领域的本体概念,如 [产品类别]:如,笔记本电脑 [场所]:如,淘宝(网) [价格单位]:如,元 通用词的本体概念,如 [数量指向(大于或小于)]:如,左右 [数量]:如,一台 [场所指向I :如,在…上 ニ、购买语义框架知识库的建设 ①购买语义框架如下 谓词V: {购买},{团购},{买},…… 核心框架元素{商品}非核心框架元素{卖方}、{受益方}、{价格}、{方式}、{时间}、{处所}、...... 句式结构与语序,如 v+{商品}:买电脑 {商品}+ν :如,电脑本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种可让计算机理解的自然语言句子的自动语义识别的方法,它包括以下步聚 a在某个领域建立本体库; 将某个领域内所有的精确描述的无歧义的词语归放到一起构成本体库; b基于领域本体建立语义框架知识库; 对自然语言句子的理解,建立“语义框架=谓词+核心框架元素+非核心框架元素”的语义框架体系;形成有某种特定含义的框架知识库; c基于语义框架的本体映射,实现自然语言句子到语义结构的直观匹配;根据框架模式进行匹配性识别。2.根据权利要求I所述的可让计算机理解的自然语言句子的自动语义识别的方法,其特征在于所述的框架元素是由本体库内的无歧义的词语本体或本体组合构成。3.根据权利要求I所述的可让计算机理解的自然语言句子的自动语义识别的方法,其特征在于所述的本体库分为本领域知识本体库和通用词本体知识库;所述的领域本体知识库,也是一个词库,它里面主要包括实词和领域相关的有意义的词汇;所述的通用词本体知识库是也是ー个词库;它里面主要包括虚词、代词、形容词、数词、量词、介词、助词、语气词,这些词是独立于特定领域的,但却是针对特定语言表达的,利用通用词库匹配标注出来的词语,在后面的机器理解中,可以当作辅助分析的词语,对领域内的句式、语境产生补充作用。4.根据权利要求3所述的ー种可让计算机理解的自然语言句子的自动语义识别的方法,其特征在于所述的框...

【专利技术属性】
技术研发人员:陈绪平楚秉智李磊余健刘琨段建刚
申请(专利权)人:上海云叟网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1