从中文语料库提取知识的方法与系统技术方案

技术编号:18525861 阅读:26 留言:0更新日期:2018-07-25 12:43
本发明专利技术公开了一种从主要用中文书写的源语料库(101)中提取知识(103)的方法、系统和计算机可读介质,用于生成中文本体库。所述方法包括步骤:从源语料库(101)获取字符串(141),其中每个源语料库(101)代表一个概念;将所述字符串(141)分割成分割的词语或单词(142);对所述分割的词语或单词(142)应用词性(POS)标注(113);由所述分割的词语或单词将单独的中文词语或单词搭配成有意义的短语或复合词;从所述已分割的短语、词语或单词(142)中提取中文名词短语、词语或单词(148);为所述提取结果推算词频;并存储所述提取结果与所述概念的词频加权向量(149),用于生成另一个中文本体库。

【技术实现步骤摘要】
从中文语料库提取知识的方法与系统
本专利技术涉及词语切分领域,尤其涉及一种从主要用中文书写的源语料库中提取知识的方法和系统,用于通过自动词语切分、词性(POS)标注、中文名词短语搭配和频率推算来生成中文本体库。
技术介绍
在信息技术时代,每天从网络、企业计算机网络或其他数据库上传和下载大量数据。数据用户总是希望从网络、企业计算机网络或其他数据库搜索他们想要的那些信息,但有时返回的信息并不是正好的。本体库是对不同概念之间特定的相似性和联系的表示,其中每一个概念都有其独特的语义信息,以提高搜索的准确性和预测关联性。本体库可以用不同语言的知识生成。无论使用哪种语言,都必须处理这种语言中的语料并提取用于本体库生成的关键短语。一些语言如中文,单词间没有明显的分隔词,相比英语,在语言处理中可能更难或更复杂,而且可能使知识提取变得困难。因此,很难有一种有效的分割方法来将中文文本语料库分割成有意义的短语。传统上,中文文本语料库的文本分割是通过条件随机域(ConditionalRandomField,CRF)或隐形马尔可夫模型(HMM)来实现的。这两种方法都是基于图案识别和预测的统计建模方法。然而,这些分割方法的基本单位是单词或词语而不是短语,因此所有汉字字符串中的中文短语都被分割成单词或词语用于语义相似性的推导。因此,现有技术的算法不必要地增加了用于识别的整体计数并导致用于进一步生成中文本体库的有意义结果的减少。例如,中文短语如“金融危机”被分割成“金融”和“危机”而不是提取整个短语,其中最相关的信息或知识可能由于所述分割而不被感知。US20090313243A1公开了一种方法来计算一个领域的语义数据源中短语的相关性分数并基于这些短语的相关性分数来计算语义数据源的权重。所述相关分数是根据一个短语在该领域语料库中的频率和该短语的预期频率来计算的。该方法具有本专利技术的某些特征,但具有在处理单词间没有明确的分隔符或空格的中文短语时的低效和无能的缺点。CN101169780A公开了一个基于语义本体库的检索系统。其中的文本索引处理单元是通过分析文本内容、提取关键词和文件标识信息建立文本索引的常规处理单元。该出版物中的语义搜索聚焦于关键词的关系和属性,而没有认识到词语切分、标记和识别相关信息的词频加权的重要性,。US7680648B2公开了用于改进文本分割的方法和系统。一系列字符可以被分割成多个分割字符串的组合,所公开的方法引入了出现频率来识别和选择其中的最佳可操作分割结果。该方法对没有明确分隔符的搜索查询具有较好的分割效果,但没有搭配或名词短语识别的概念,对中文句子的处理效果不明显。由此,需要一种用于从中文语料库提取知识的更有效、更准确的方法和系统,优选是自动计算机可实现的方法和系统,以更好地实现中文本体库生成。
技术实现思路
由于中文是连续书写的,单词之间没有明确的分隔符或空格,因此自动计算机系统很难进行用于中文本体库生成的文本分割和相关信息提取。知识的提取精度总是取决于句子的分割方式,以及提取单词标记的选择。在中文语料库中,含有两个或两个以上字符的短语和复合词通常用于表达特定意义,而不是每一个词语或单词的个体意义。这导致在分割过程中的复杂性和分歧。传统的词语切分方法可以识别出语料库中的大部分单词或词语,例如,可以识别的词语如“知识”和“产权”而不是将他们分为“知”、“识”、“产”和“权”。然而,这两个词的组合“知识产权”是很难识别的。本专利技术的目的就是为了解决这个问题,提供一种从语料库中提取有意义信息的方法。本专利技术的实施方案包括用于改进中文词语切分的方法和系统。它包括搭配模块,其使用中文词典作为参考语料库,来识别和搭配频繁同现的单词或词语。参考语料库可以通过从结构化的网络知识提取文章标题来自动建立,其中结构化网络知识是一种存储在网络上的结构化信息的数据库。例如,有几个中文网络百科全书如百度百科(BaiduBaike)和中文维基百科(ChineseWikipedia)等,它们是包含几百万篇文章的公共基础知识。其中包含了大量常用短语和复合词,可以提供改进词语切分的必要资源。以下描述的是一种用指令编码的方法、系统和计算机可读介质,当处理器执行该指令时,处理器会执行所述方法,用于中文本体库生成的中文文本语料库的自动词语切分和POS标注。所述方法包括步骤:从所述源语料库获取字符串,其中每个源语料库代表一个概念;分隔所述字符串为分割的词语或单词;对所述分割的词语或单词应用POS标注;由所述分割的词语或单词将单独的中文词语或单词搭配成有意义的短语或复合词;由所述分隔的短语、词语或单词提取中文名词短语、词语或单词;推算所述提取结果的词频;并存储提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。优选地,从源语料库获取字符串的步骤包括:从源语料库接收主题、标题和主要文本内容,其中每个源语料库表示一个概念。标题和主题对于确定概念的名称非常有用,而主要文本则提供概念的描述。优选地,源语料库是主要用中文书写的,有时也包含数字字符、标点符号、英语和其他语言字符,单词之间没有明显的分隔。源语料库包括网络和其他系统如因特网、WAN、LAN、专用网或单个计算机中的电子文档。优选地,分隔所述字符串为分割的词语或单词包括步骤:通过词语切分确认分隔结果,其中分割结果可以是一个单词或词语。此外,分隔所述字符串分割为分隔的词语或单词包括步骤:应用一个或多个词语切分模型,其中所述词语切分模型为隐形马尔可夫模型(HMM)和条件随机域(CRF)。优选地,应用POS标注分割的词语或单词包括步骤:提取与所述分割的单词或词语相关的POS信息;和将POS标注分配给所述分割的单词或词语。优选地,提取与所述分割的单词或词语相关的POS信息是从用于中文的成熟POS标注模型中提取POS信息,其中所述用于中文的成熟POS标注模型是从语言数据联盟获得的“中文树库(ChineseTreeBank,CTB)”。此外,将POS标注分配给所述分隔的单词或词语,是通过在向量空间中将所述POS特征映射给所述分隔的单词或词语,其中所述映射可以通过构建索引或表格来完成。优选地,搭配单个的中文词语或单词成有意义的短语或复合词包括步骤:对同现的中文词语或单词进行分组;从所述中文词语或单词组中发现潜在的中文短语或复合词;从参考语料库中寻找所述潜在的中文短语或复合词;用POS标注存储经确认的中文短语或复合词;并去除相应的同现中文词语或单词。优选地,同现中文名词词语或单词的分组通过确认被标注为名词组的一系列两个或多个中文词语或单词来进行。优选地,从所述中文词语或单词组中发现潜在的中文短语或复合词通过使用n元语法(n-gram)模型以发现潜在的短语来进行,其中所述n元语法模型确定了各个潜在的中文单词或词语组合的同现概率分布。优选地,参考语料库是一种常用的中文词典,它可以从结构化知识网络中提取频繁同现的单词来构建,其中所述结构化知识网络是一种基于中文网络的百科全书。优选地,结构化知识网络是用公共知识从百度百科、中文维基百科或任何其他合适的在线数据库中提取文章标题。此外,提取中文名词短语、词语或单词包括步骤:过滤掉所有数字字符、标点符号、英语和其他语言字符。此外,通过下列等式来推算所述提取结果的词频:其中0≤本文档来自技高网
...

【技术保护点】
1.一种由主要用中文书写的源语料库提取知识用于中文本体库生成的方法,所述方法包括步骤:从所述源语料库获取字符串,其中每个源语料库代表至少一个或多个概念;分隔所述字符串为分割的词语或单词;对所述分割的词语或单词应用POS标注;由所述分割的词语或单词将单独中文词语或单词搭配成有意义的短语或复合词;由所述分隔的短语、词语或单词提取中文名词短语、词语或单词;推算所述提取结果的词频;以及存储所述提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。

【技术特征摘要】
2017.01.06 HK 17100180.11.一种由主要用中文书写的源语料库提取知识用于中文本体库生成的方法,所述方法包括步骤:从所述源语料库获取字符串,其中每个源语料库代表至少一个或多个概念;分隔所述字符串为分割的词语或单词;对所述分割的词语或单词应用POS标注;由所述分割的词语或单词将单独中文词语或单词搭配成有意义的短语或复合词;由所述分隔的短语、词语或单词提取中文名词短语、词语或单词;推算所述提取结果的词频;以及存储所述提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。2.权利要求1的方法,其中所述从源语料库获取字符串的步骤包括步骤:从源语料库获取主题、标题和主要文本内容。3.权利要求2的方法,其中所述源语料库是主要用中文书写的,有时也包含数字字符、标点符号、英语和其他语言字符,单词之间没有明显的分隔,包括但不限于网络和其他系统如因特网、WAN、LAN、专用网或单个计算机中的电子文档。4.权利要求1的方法,其中所述分隔所述字符串为分割的词语或单词的步骤包括步骤:通过词语切分确认分隔结果,其中分割结果可以是一个单词或词语形式的一系列单词。5.权利要求4的方法,其中所述词语切分包括步骤:应用一个或多个词语切分模型,其中所述词语切分模型为隐形马尔可夫模型(HiddenMarkovModel,HMM)和条件随机域(CRF)。6.权利要求1的方法,其中所述对分割的词语或单词应用POS标注的步骤包括步骤:提取与所述分割的单词或词语相关的POS信息;和将POS标注分配给所述分割的单词或词语。7.权利要求6的方法,其中所述提取与所述分割的单词或词语相关的POS信息的步骤是从用于中文的成熟POS标注模型中提取POS信息,其中所述用于中文的成熟POS标注模型是从语言数据联盟获得的“中文树库(ChineseTreeBank,CTB)”或类似的其它模型。8.权利要求6的方法,其中所述将POS标注分配给所述分隔的单词或词语的步骤,是通过构建索引或表格并在向量空间中将所述POS特征映射给所述分隔的单词或词语来完成的。9.权利要求1的方法,其中所述搭配单个的中文词语或单词成有意义的短语或复合词包括步骤:对同现的中文词语或单词进行分组;从所述中文词语或单词组中发现潜在的中文短语或复合词;从参考语料库中寻找所述潜在的中文短语或复合词;用POS标注存储经确认的中文名词短语或复合词;以及去除相应的同现中文名词词语或单词。10.权利要求9的方法,其中所述同现中文名词词语或单词的分组步骤是通过确认被标注为名词组的一系列两个或多个中文词语或单词来进行的。11.权利要求9的方法,其中所述从所述中文名词词语或单词组中发现潜在的中文名词短语或复合词的步骤是通过使用n元语法(n-gram)模型以确认潜在的短语来进行的,其中所述n元语法模型确定了各个潜在的中文单词或词语组合的同现概率分布。12.权利要求11的方法,其中所述通过n元语法模型以确认潜在的短语的步骤是通过搜索所述n元语法模型的结果来进行的。13.权利要求9的方法,其中所述参考语料库是一种常用的中文词典,它可以通过从结构化知识网络中提取频繁同现的单词来构建,其中所述结构化知识网络是一种基于中文网络的百科全书。14.权利要求13的方法,其中所述结构化知识网络是具有公共知识的百度百科、中文维基百科或任何其他合适的在线数据库。15.权利要求1的方法,其中所述提取中文名词短语、词语或单词的步骤包括步骤:过滤掉所有数字字符、标点符号、英语和其他语言字符。16.权利要求1的方法,其中推算提取结果词频的步骤通过下列等式来进行:其中0≤词频加权≤1。17.权利要求1的方法,其中所述存储提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库的步骤包括步骤:用它们各自的词频加权计算结果在网络本体库语言中映射所述中文名词短语、词语或单词;以及构建用于生成另一个中文本体库的所述概念的词频加权向量的索引。18.权利要求17的方法,其中所述网络本体库语言是RDF。19.一种在源语料库的规模很大时,由主要用中文书写的源语料库提取知识用于中文本体库生成的替代方法,所述方法包括步骤:从所述源语料库获取字符串,其中每个源语料库代表至少一个或多个概念;分隔所述字符串为分割的词语或单词;对所述分割的词语或单词应用POS标注;由所述分割的短语、词语或单词提取中文名词短语、词语或单词;由所述分割的词语或单词将单独的中文词语或单词搭配成有意义的短语或复合词;推算所述提取结果的词频;以及存储提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。20.一种用于从源语料库提取知识用于中文本体库生成的系统,包括:一个获取模块,用于从源语料库获取字符串;一个词语切分器,用于分隔所述字符串为分割的词语或单词;一个成熟的POS标注,用于对分割的词语或单词应用POS标注;一个n元语法模型,用于发现潜在的中文名词短语或复合词;一个中文短语搭配模块,用于将单独的词语或单词搭配成有意义的短语或复合词;一个中文名词选择器,用于提取中文名词短语、词语或单词;一...

【专利技术属性】
技术研发人员:李应樵张英辉
申请(专利权)人:光讯网络科技有限公司
类型:发明
国别省市:中国香港,81

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1