从中文语料库提取知识的方法与系统技术方案

技术编号：18525861 阅读：26 留言：0更新日期：2018-07-25 12:43

本发明专利技术公开了一种从主要用中文书写的源语料库(101)中提取知识(103)的方法、系统和计算机可读介质，用于生成中文本体库。所述方法包括步骤：从源语料库(101)获取字符串(141)，其中每个源语料库(101)代表一个概念；将所述字符串(141)分割成分割的词语或单词(142)；对所述分割的词语或单词(142)应用词性(POS)标注(113)；由所述分割的词语或单词将单独的中文词语或单词搭配成有意义的短语或复合词；从所述已分割的短语、词语或单词(142)中提取中文名词短语、词语或单词(148)；为所述提取结果推算词频；并存储所述提取结果与所述概念的词频加权向量(149)，用于生成另一个中文本体库。

全部详细技术资料下载

【技术实现步骤摘要】
从中文语料库提取知识的方法与系统
本专利技术涉及词语切分领域，尤其涉及一种从主要用中文书写的源语料库中提取知识的方法和系统，用于通过自动词语切分、词性(POS)标注、中文名词短语搭配和频率推算来生成中文本体库。
技术介绍
在信息技术时代，每天从网络、企业计算机网络或其他数据库上传和下载大量数据。数据用户总是希望从网络、企业计算机网络或其他数据库搜索他们想要的那些信息，但有时返回的信息并不是正好的。本体库是对不同概念之间特定的相似性和联系的表示，其中每一个概念都有其独特的语义信息，以提高搜索的准确性和预测关联性。本体库可以用不同语言的知识生成。无论使用哪种语言，都必须处理这种语言中的语料并提取用于本体库生成的关键短语。一些语言如中文，单词间没有明显的分隔词，相比英语，在语言处理中可能更难或更复杂，而且可能使知识提取变得困难。因此，很难有一种有效的分割方法来将中文文本语料库分割成有意义的短语。传统上，中文文本语料库的文本分割是通过条件随机域(ConditionalRandomField，CRF)或隐形马尔可夫模型(HMM)来实现的。这两种方法都是基于图案识别和预测的统计建模方法。然而，这些分割方法的基本单位是单词或词语而不是短语，因此所有汉字字符串中的中文短语都被分割成单词或词语用于语义相似性的推导。因此，现有技术的算法不必要地增加了用于识别的整体计数并导致用于进一步生成中文本体库的有意义结果的减少。例如，中文短语如“金融危机”被分割成“金融”和“危机”而不是提取整个短语，其中最相关的信息或知识可能由于所述分割而不被感知。US20090313243A1公开了一...

【技术保护点】
1.一种由主要用中文书写的源语料库提取知识用于中文本体库生成的方法，所述方法包括步骤：从所述源语料库获取字符串，其中每个源语料库代表至少一个或多个概念；分隔所述字符串为分割的词语或单词；对所述分割的词语或单词应用POS标注；由所述分割的词语或单词将单独中文词语或单词搭配成有意义的短语或复合词；由所述分隔的短语、词语或单词提取中文名词短语、词语或单词；推算所述提取结果的词频；以及存储所述提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。

【技术特征摘要】
2017.01.06 HK 17100180.11.一种由主要用中文书写的源语料库提取知识用于中文本体库生成的方法，所述方法包括步骤：从所述源语料库获取字符串，其中每个源语料库代表至少一个或多个概念；分隔所述字符串为分割的词语或单词；对所述分割的词语或单词应用POS标注；由所述分割的词语或单词将单独中文词语或单词搭配成有意义的短语或复合词；由所述分隔的短语、词语或单词提取中文名词短语、词语或单词；推算所述提取结果的词频；以及存储所述提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。2.权利要求1的方法，其中所述从源语料库获取字符串的步骤包括步骤：从源语料库获取主题、标题和主要文本内容。3.权利要求2的方法，其中所述源语料库是主要用中文书写的，有时也包含数字字符、标点符号、英语和其他语言字符，单词之间没有明显的分隔，包括但不限于网络和其他系统如因特网、WAN、LAN、专用网或单个计算机中的电子文档。4.权利要求1的方法，其中所述分隔所述字符串为分割的词语或单词的步骤包括步骤：通过词语切分确认分隔结果，其中分割结果可以是一个单词或词语形式的一系列单词。5.权利要求4的方法，其中所述词语切分包括步骤：应用一个或多个词语切分模型，其中所述词语切分模型为隐形马尔可夫模型(HiddenMarkovModel,HMM)和条件随机域(CRF)。6.权利要求1的方法，其中所述对分割的词语或单词应用POS标注的步骤包括步骤：提取与所述分割的单词或词语相关的POS信息；和将POS标注分配给所述分割的单词或词语。7.权利要求6的方法，其中所述提取与所述分割的单词或词语相关的POS信息的步骤是从用于中文的成熟POS标注模型中提取POS信息，其中所述用于中文的成熟POS标注模型是从语言数据联盟获得的“中文树库(ChineseTreeBank，CTB)”或类似的其它模型。8.权利要求6的方法，其中所述将POS标注分配给所述分隔的单词或词语的步骤，是通过构建索引或表格并在向量空间中将所述POS特征映射给所述分隔的单词或词语来完成的。9.权利要求1的方法，其中所述搭配单个的中文词语或单词成有意义的短语或复合词包括步骤：对同现的中文词语或单词进行分组；从所述中文词语或单词组中发现潜在的中文短语或复合词；从参考语料库中寻找所述潜在的中文短语或复合词；用POS标注存储经确认的中文名词短语或复合词；以及去除相应的同现中文名词词语或单词。10.权利要求9的方法，其中所述同现中文名词词语或单词的分组步骤是通过确认被标注为名词组的一系列两个或多个中文词语或单词来进行的。11.权利要求9的方法，其中所述从所述中文名词词语或单词组中发现潜在的中文名词短语或复合词的步骤是通过使用n元语法(n-gram)模型以确认潜在的短语来进行的，其中所述n元语法模型确定了各个潜在的中文单词或词语组合的同现概率分布。12.权利要求11的方法，其中所述通过n元语法模型以确认潜在的短语的步骤是通过搜索所述n元语法模型的结果来进行的。13.权利要求9的方法，其中所述参考语料库是一种常用的中文词典，它可以通过从结构化知识网络中提取频繁同现的单词来构建，其中所述结构化知识网络是一种基于中文网络的百科全书。14.权利要求13的方法，其中所述结构化知识网络是具有公共知识的百度百科、中文维基百科或任何其他合适的在线数据库。15.权利要求1的方法，其中所述提取中文名词短语、词语或单词的步骤包括步骤：过滤掉所有数字字符、标点符号、英语和其他语言字符。16.权利要求1的方法，其中推算提取结果词频的步骤通过下列等式来进行：其中0≤词频加权≤1。17.权利要求1的方法，其中所述存储提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库的步骤包括步骤：用它们各自的词频加权计算结果在网络本体库语言中映射所述中文名词短语、词语或单词；以及构建用于生成另一个中文本体库的所述概念的词频加权向量的索引。18.权利要求17的方法，其中所述网络本体库语言是RDF。19.一种在源语料库的规模很大时，由主要用中文书写的源语料库提取知识用于中文本体库生成的替代方法，所述方法包括步骤：从所述源语料库获取字符串，其中每个源语料库代表至少一个或多个概念；分隔所述字符串为分割的词语或单词；对所述分割的词语或单词应用POS标注；由所述分割的短语、词语或单词提取中文名词短语、词语或单词；由所述分割的词语或单词将单独的中文词语或单词搭配成有意义的短语或复合词；推算所述提取结果的词频；以及存储提取结果和它们各自概念的词频加权向量用于生成另一个中文本体库。20.一种用于从源语料库提取知识用于中文本体库生成的系统，包括：一个获取模块，用于从源语料库获取字符串；一个词语切分器，用于分隔所述字符串为分割的词语或单词；一个成熟的POS标注，用于对分割的词语或单词应用POS标注；一个n元语法模型，用于发现潜在的中文名词短语或复合词；一个中文短语搭配模块，用于将单独的词语或单词搭配成有意义的短语或复合词；一个中文名词选择器，用于提取中文名词短语、词语或单词；一...

【专利技术属性】
技术研发人员：李应樵，张英辉，
申请(专利权)人：光讯网络科技有限公司，
类型：发明
国别省市：中国香港,81

全部详细技术资料下载我是这个专利的主人