当前位置: 首页 > 专利查询>姜赢专利>正文

基于本体一致性验证推理的中文语义校对方法技术

技术编号:9694681 阅读:120 留言:0更新日期:2014-02-21 00:59
一种基于本体一致性验证推理的中文语义校对方法,包括语义提取,利用本体学习技术,从非结构化的中文自然语言中提取语义内容,进而提取的语义内容转换成结构化的本体形式;领域本体库的确立,根据不同的领域使用相应领域的本体库;建立模型,将上述形成的中文语义校对关键技术以插件形式整合到语法校验工具中,或者以其它的实现形式,如独立地开发成一个中文语义校正软件;推理验证,在语法校验工具中,利用本体推理语言本身包含的基于描述逻辑的一致性推理验证机制,把提取得到的语义内容按照预定顺序和正确的领域本体库一起输入到推理机中逐次进行逻辑一致性验证推理,将推理结果中逻辑不一致的中文语义内容标示出中文语义错误标志。本发明专利技术具有既可以实现字词级和语法级中文校对,也可以实现能够检测特定领域语义错误的中文语义校对的优点。

【技术实现步骤摘要】

本专利技术涉及一种。通过研究中文语义提取、中文语义查错和中文语义纠正相关关键技术,以实现的功能。
技术介绍
随着计算机技术的不断发展,报刊、图书等传统媒体的文字录入、编辑、排版、校对和印刷已经电子化了。面对包括全国几千家报社、几百家出版社,中央部委、省级机关,以及办公室和家庭等在内的各种互联网用户,中文文字处理及校对软件需求量非常大。中文校对软件,例如,黑马校对系统、金山WPS可以根据中文词法关系和语法结构,自动分析中文文本中的词句并将疑问处标红,可以一次滤掉大量的文字录入错误,包括丢字、多字、错字和语句不通等,特别适合二、三连校中的二校及终校把关。但是,目前中文校对软件还不能完全替代人工校对,其中一个重要原因在于,虽然其在字词级和语法级层面取得了较好效果,但是语义级层面中文校对技术相对薄弱。政治敏感信息在报社和出版社等我国传统媒体的发布是非常普遍。因此,目前亟需一种能够进行语义级层面中文自动校对处理的技术和软件,进一步减少校对人员对于类似政治敏感错误等信息的校对工作量。另一方面,网络媒体(例如门户网站、博客、微博等)突破了传统时空观念,表现出极大的时效性和开放性。网络中每一个成员可以平等地共享网上信息,在世界任何地方,只要有计算机,只要与互联网接通,就可以发布和获取发生在世界任何一个地方的信息。网络新闻也不再受传统新闻发布者的限制,受众可以发布自己的新闻,并在短时间内获得更快的传播,这使得论坛和微博等平台成为人们最快速、最普遍的信息互动交流平台。网络媒体在让人们享受时效性和开放性的同时,不得不面对其信息正确性和准确性方面的挑战。网络媒体也面临着类似于传统媒体上语义错误导致的政治性错误等潜在威胁。对于网络媒体上的海量实时信息,人们肯定无法采取传统媒体那样人工校对方式解决。传统的敏感词筛选术和简单的语法级自动校正技术,亦无法满足复杂的中文语义校对需求。因此,我们必须探索语义级层面中文自动校对处理的技术,开发相应的校对软件提供给网络媒体使用,这也是网络媒体发展的内在需求。总之,无论是传统媒体还是网络媒体,都迫切需要中文语义校对技术的支持。中文语义校对将有广泛的应用前景和巨大的商业价值。众所周知,中文校对系统处理的对象是文本,中文校对类型分为字词级、语法级和语义级3类。目前,中文字词级和语法级校对技术已较完善,如黑马校对系统、金山WPS和语法检查工具(LanguageTool)都能很好地实现中文字词级和语法级校对。相比之下,语义级层面中文校对技术相对薄弱,一直是汉语文本自动校对技术的难点。目前,对于语义校正,按照研究内容和方向大致可以分为3类: I)模糊语义对比方法 其主要内容是用句子语义骨架表示句子语义的具体方法和表示形式。模糊语义对比方法在语义校对系统中建立了这种形式的知识库,每一个知识条代表描述同一个事件的不同句子的共同特征,是用来判断文本中语句的对错程度的基准。然后采用模糊匹配方法计算语句的相似程度,即文本中语句是根据与知识库中相关知识进行模糊匹配,然后计算出该语句的错误程度的。此方法在一个面向政治错误的特定领域内的语义校对系统(YYJDS)中得到实现。另外,有人通过模糊比较目标句子与大型文本库中相似句子的方法来鉴别文本拼写、语法甚至语义错误的方法。具体来说,是将目标句子转换成一系列Google搜索请求,根据搜索结果数量进行加权阈值模糊比较,从而判断是否错误以及错误等级多少。例如,如果Google中搜索出大多数人写的是“北京是中国的首都”,那么目标句子“东京是中国的首都”极有可能是包含语义错误的。以上两种都属于模糊语义对比方法,他们的出发点在于认为完全精确的理解句子语义可行性不高,因此采取绕过精确语义理解的思路,通过建立某种模糊语义模型,将知识库或文本库中的正确句子与目标句子进行模糊匹配来判断语义错误。这种方法本质上是一种黑箱模型,虽然知道有语义错误,也可以计算语义错误程度值并选择性的纠正错误,但是其局限性在于不知道具体有什么语义错误,语义错误类型是什么,为什么是语义错误,以及为什么纠错之后的是正确的语义。)精确语义匹配方法 精确语义匹配方法是基于HNC (Hierarchical Network of Concepts)的中文文本校对系统模型。HNC是专门针对汉语的特点而提出来的一种用于自然语言理解的理论,该理论由语言概念空间考察自然语言空间,以概念联想脉络为主线,建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。有人基于HNC理论构建了一个中文文本校对系统模型,该模型利用传统查错系统和HNC句类分析系统相结合的方法,在解决语法层次和语义层次上的错误有明显优势。但是由于HNC本身并没有提供自动语义推理机制,需要通过穷举57种句式语义来判断语义错误,不适合大规模语义校对推广。此类属于精确语义匹配方法,即使用某种语义知识表示模型提取文本中的语义对象以及语义对象之间的关系,精确判断文本的语义错误类型和错误原因。这是基于白箱模型思路的一种彻底解决语义错误的根本办法,是语义校对技术未来发展的必然趋势。语义知识表示模型有很多种,包括国内学者提出的HNC和知网,外国学者提出的Frame Net框架网,以及OWL (中文意思是网页本体语言,英文全称是Web Ontology Language)国际标准等坐寸o)语义搭配校对 语义搭配校对是采用统计和规则相结合的综合校对方法。它综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对方法,既能检查局部语义限制,也能检查长句的语义搭配,收到了较好的效果。针对语义搭配校对,有人提出了一种基于《知网》语义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法。语义知识库包含大量的动词与名词之间的二元搭配组合,利用互信息等因素筛选记录,和《知网》对词语义项的义原描述将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合,进而在语义知识库的基础上设计相应的自动查错算法。但是,因为语义搭配校对的语义检查同传统的语义分析是两个完全不同的概念,它并不试图建立句子的语义框架,只是从成分的搭配关系上加以考察。也就是说此类方法只能检查单一的语义搭配错误,而无法处理其他语义错误。基于本体推理的技术背景 目前,本体推理技术主要利用基于描述逻辑的知识表示语言进行推理,其中,OWL是该类语言中最具代表性的一种。OWL是英文Web Ontology Language的缩写,为了便于记忆将头两个字母的顺序颠倒,写成0WL,其中文意思是网络本体语言,网络本体语言旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。OWL网络本体语言当前已经获得万维网联盟认可的,用于编纂本体的知识表达语言家族。其功能在于为网络文档和应用中固有的类以及其间的逻辑关系提供描述,使得基于此技术的网络应用更加人性化和智能化,节省用户自身资源搜索时间并将这些处理交给计算机系统内部处理。基于不同的语义论特性网络本体语言大致分为两个系统:基于描述逻辑进而丰富表达和精准计算属性的OWL DL和OWL Lite,以及以资源描述架构(英文:Resource Description Framwork:RDF)提供兼容叙述的O本文档来自技高网...

【技术保护点】
一种基于本体一致性验证推理的中文语义校对方法,包括:(1)?语义提取利用本体学习技术,从非结构化的中文自然语言中提取语义内容,进而提取的语义内容转换成结构化的本体形式;(2)?领域本体库的确立根据不同的领域,使用相应领域的本体库,或若无该领域的本体库,则使用相应领域信息进行语义建模,构建相应的领域本体库;(3)?建立模型将上述第(1)步和第(2)步所形成的中文语义校对关键技术以插件形式整合到语法校验工具中或者独立地开发成一个中文语义校正软件;(4)?推理验证在语法校验工具中,利用本体推理语言本身包含的基于描述逻辑的一致性推理验证机制,把提取得到的语义内容按照预定顺序和正确的领域本体库一起输入到推理机中逐次进行逻辑一致性验证推理,将推理结果中逻辑不一致的中文语义内容标示出中文语义错误标志。

【技术特征摘要】
1.一种基于本体一致性验证推理的中文语义校对方法,包括: (1)语义提取 利用本体学习技术,从非结构化的中文自然语言中提取语义内容,进而提取的语义内容转换成结构化的本体形式; (2)领域本体库的确立 根据不同的领域,使用相应领域的本体库,或若无该领域的本体库,则使用相应领域信息进行语义建模,构建相应的领域本体库; (3)建立模型 将上述第(I)步和第(2)步所形成的中文语义校对关键技术以插件形式整合到语法校验工具中或者独立地开发成一个中文语义校正软件; (4)推理验证 在语法校验工具中,利用本体推理语言本身包含的基于描述逻辑的一致性推理验证机制,把提取得到的语义内容按照预定顺序和正确的领域本体库一起输入到推理机中逐次进行逻辑一致性验证推理,将推理结果中逻辑不一致的中文语义内容标示出中文语义错误标O2.根据权利要求1所述的基于本体一致...

【专利技术属性】
技术研发人员:姜赢曾杰荆铭廖文生郭颖珊林启红高巾
申请(专利权)人:姜赢
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1