当前位置: 首页 > 专利查询>北京大学专利>正文

中文比较句分类器模型生成、中文比较句识别方法及装置制造方法及图纸

技术编号:4330615 阅读:225 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。

【技术实现步骤摘要】

本专利技术涉及智能信息处理
,尤指一种中文比较句分类器模型生成、中文比较句自动识别方法及装置。
技术介绍
随着互联网的迅速发展,中文信息也呈现出爆炸性的增长。其中,许多信息涉及到 多种事物的比较,例如同类商品的比较推荐等。自动识别这些比较信息具有很大的实用价 值。通过自动检测文章中的比较句,为准确地提取出比较的实体及各实体之间的关系提供 了前提。 传统汉语语言学研究领域对比较句的研究起步较早。关于比较句的定义,马建忠 提出同一静字,以所肖者浅深不能一律,而律其不一,所谓比也(《马氏文通》,商务印书 馆)。吕叔湘认为比较句是表示事之间异同或高下比较关系的句子(《中国文法要略》,商 务印书馆)。车竞提出比较句是指位于中含有比较词语或比较格式的句子,并给出其基本结 构形式'1+比较词+Y+W(现代汉语比较句论略,湖北师范学院学报,25巻第3期)。但 这些研究限定在语言学领域,需要人工判断一个句子是否是比较句,并没有提供可用计算 机自动检测的方法。 文本自动分类是利用计算机系统对文本集按照一定的分类体系或标准进行自动 类别标记的一类技术,主要可分为基于知识的方法和基于距离的方法。基于知识的方法按 照分类专家的经验知识,构建规则库作为分类器进行分类。基于距离的方法按照文本之间 的相似程度进行划分,常用的包括朴素贝叶斯、支持向量机、神经网络和k近邻法等。传统 的文本分类器把文本表示为词的集合,不考虑词之间的位置和依赖关系,在应用到将句子 分为比较和非比较的问题上,效果不佳。因此,需要有一种更有效的识别汉语比较句 的方法。
技术实现思路
本专利技术实施例提供一种中文比较句分类器模型生成、中文比较句识别方法及装 置,能够正确、有效地识别中文文本中的比较句。 —种中文比较句分类器模型生成方法,包括 将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所 述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关 键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词 及其词性标识的组合项;以及由所述序列组成序列集; 采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比 较模式集; 用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所 述比较模式总数量,得到与每一个所述序列对应的一组特征向量;7 根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。 —种中文比较句分类器模型生成装置,包括第一转化模块、模式挖掘模块、第一匹配模块和模型生成模块; 所述第一转化模块,用于将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集; 所述模式挖掘模块,用于采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集; 所述第一匹配模块,用于用每一个所述序列逐一匹配所述比较模式集中的各比 较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向 所述模型生成模块,用于根据所述特征向量及与其对应的所述序列的类别标记, 生成分类器模型。—种中文文本中比较句识别方法,包括 将读入的句子中的每一个包含设定的比较关键词的分句转化为一个序列;所述序 列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键 词的词性标识项和所述关键词及其词性标识的组合项; 用每一个所述序列逐一匹配存储的比较模式集中的所有比较模式,得到与每一个 所述序列对应的特征向量; 通过存储的分类器模型,确定所述特征向量对应的类别标记;当任一个所述特征 向量对应的类别标记被确定为比较时,确定读入的句子为比较句;否则,确定读入的句子为 非比较句。 —种中文比较句识别装置,包括第二转化模块、第二匹配模块、类别确定模块和 比较句确定模块; 所述第二转化模块,用于将读入的句子中的每一个包含设定的比较关键词的分句 转化为一个序列;所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的 顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项; 所述第二匹配模块,用于用每一个所述序列逐一匹配存储的比较模式集中的所有 比较模式,得到与每一个所述序列对应的特征向量; 所述类别确定模块,用于通过存储的分类器模型,确定所述特征向量对应的类别 标记; 所述比较句确定模块,用于当任一个所述特征向量对应的类别标记被确定为为比 较时,确定读入的句子为比较句;否则,确定读入的句子为非比较句。 本专利技术实施例提供的中文比较句分类器模型生成方法及装置,通过将数据集中已 标注类别的句子中的各分句转化成一个序列,并为所述序列建立与所属句子的类别对应的 类别标记,得到序列集;采用序列模式挖掘算法从所述序列集中挖掘出若干比较模式,得到 比较模式集;用每一所述序列逐一匹配所述比较模式集中的所有比较模式,得到与所述序 列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;该方法综合利用了比较句的关键词和句式的模式特征,通过机器学习的方法,得到 分类器模型,为识别比较句提供了前提和工具。 本专利技术实施例提供的中文比较句识别方法及装置,通过将读入句子中的每个分句 转化为序列;用每个所述序列匹配存储的比较模式集中的所有比较模式,得到与每个所述 序列对应的特征向量;通过存储的分类器模型,确定所述特征向量对应的类别标记;当任 一个所述特征向量对应的类别标记被确定为比较C,确定读入的句子为比较句;否则,确定 读入的句子为非比较句。该方法采用自动生成的分类器模型,自动识别文本中的比较句,有 效的提高了识别效果。附图说明 图1为本专利技术实施例中中文比较句分类器模型生成方法的流程图; 图2为本专利技术实施例中将分句转化为序列的流程图; 图3为本专利技术实施例中将序列集中的序列转化为一组特征向量的流程图; 图4为本专利技术实施例中一个序列转化为对应的特征向量的具体流程图; 图5为本专利技术实施例中决策树的结构示例图; 图6为本专利技术实施例中中文比较句识别方法的流程图; 图7为本专利技术实施例中中文比较句分类器模型生成装置的结构示意图。 图8本专利技术实施例中中文比较句识别装置的结构示意图。具体实施例方式本专利技术实施例提供一种中文比较句分类器模型生成方法,通过对包含若干已标注 类别的中文句子的数据集进行处理,得到比较模式集和中文比较句分类器模型。其流程图 如图l所示,其执行步骤如下 步骤SIO :按顺序从数据集中读入一个句子。 数据集中所有的句子已经人工标注出其类别。 步骤Sll :使用自动分词和词性标注技术/方法,将读入的句子切分为若干个词, 并为每一个词添加词性标识。 例如采用现有的中文分词软件,就可以实现将每一个分句切分为若干个词,并为 每一个词添加词性标识。 以句子INTEL比AMD更有价格优势为例,切分出的词及对应的词性标识包括 INTEL/nt、比/p、AMD/nt、更/d、有/v、价格/n、优势n。 以国外品牌比国内品本文档来自技高网...

【技术保护点】
一种中文比较句分类器模型生成方法,其特征在于,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。

【技术特征摘要】
一种中文比较句分类器模型生成方法,其特征在于,包括将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。2. 如权利要求1所述的方法,其特征在于,所述将数据集各句子中每一个包含设定的 比较关键词的分句转化成一个序列,并为所述序列建立其对应分句所属句子相同的类别标 记,具体包括依次从数据集中读入已标注类别的句子;使用自动分词和词性标注方法,将读入的句子切分为词,并为切分出的每一个词添加 词性标识;确定出所述读入的句子包含的一个或多个分句;将每个包含所述比较关键词的分句转化为一个序列,并为所述序列建立其对应分句所 属句子相同的类别标记。3. 如权利要求2所述的方法,其特征在于,所述确定出所述读入的句子包含的一个或 多个分句,具体包括根据分句标识确定出所述读入的句子包含的一个或多个分句;所述分句标识包括逗 号、冒号和分号。4. 如权利要求3所述的方法,其特征在于,所述将每个包含所述比较关键词的分句转 化为一个序列,具体包括从分句中按顺序取词,判断取出的词是否是关键词库中存储的所述比较关键词; 若是,则确定该词为关键词,保留该关键词及其词性标识,将所述关键词及其词性标识合为一个组合项;若否,则确定该词为非关键词,只保留该非关键词的词性标识,单独作为一项;将所述组合项和非关键词的词性标识项按照对应词在所述分句中的顺序组成一个序列。5. 如权利要求1所述的方法,其特征在于,所述用每一个所述序列逐一匹配所述比较 模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对 应的一组特征向量,具体包括从所述序列集中获取一个序列;将获取的序列与比较模式集中的每一个比较模式进行匹配,根据匹配结果,得到所述 获取的序列对应的维数等于所述比较模式总数量的特征向量;将所述获取的序列的类别标记赋予所述特征向量,并输出所述特征向量; 从所述序列集中获取下一个序列进行处理,直至处理完所述序列集中所有的序列,得到一组特征向量。6. 如权利要求5所述的方法,其特征在于,所述将获取的序列与比较模式集中的每一 个比较模式进行匹配,根据匹配结果,得到所述获取的序列对应的维数等于所述比较模式总数量的特征向量,具体包括从所述比较模式集中获取一个比较模式,判断该比较模式是否是所述获取的序列的子 序列,若是,则确定所述特征向量中与该比较模式对应的元素的值为1 ;若是,则确定所述 特征向量中与该比较模式对应的元素的值为0 ;直至匹配完所述比较模式集中所有的比较模式,得到一个维数等于所述比较模式总数 量的特征向量。7. 如权利要求1-6任一所述的方法,其特征在于,所述根据所述特征向量及与其对应 的所述序列的类别标记,生成分类器模型,具体包括使用支持向量机SVM分类器SVMlight处理所述特征向量及与其对应的所述序列的类别 标记,生成包括一个与所述特征向量维数相同的实数向量和一个实数的线性核函数SVM分 类器模型;和/或使用C4. 5工具处理所述特征向量及与其对应的所述序列的类别标记,生成基于C4. 5 学习算法的决策树分类器模型;所述决策树包括根节点、若干内部节点和若干叶节点,所述 根节点和内部节点分别表示特征向量的一个元素,从所述根节点或内部节点延伸出的边表 示对应元素的取值,每个所述叶节点上标记有从根节点到达该叶节点的路径所表征的特征 向量的类别标记。8. —种中文比较句分类器模型生成装置,其特征在于,包括第一转化模块、模式挖掘 模块、第一匹配模块和模型生成模块;所述第一转化模块,用于将数据集各句子中每一个包含设定的比较关键词的分句转化 成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按 照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性 标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;所述模式挖掘模块,用于采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由 所述比较模式组成比较模式集;所述第一匹配模块,用于用每一个所述序列逐一匹配所述比较模式集中的各比较模 式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;所述模型生成模块,用于根据所述特征向量及与其对应的所述序列的类别标记,生成 分类器模型。9. 如权利要求8所述的装置,其特征在于,所述第一转化模块,包括读取单元、分词及标注单元、确定单元和转化单元;所述读取单元,用于依次从数据集中读入已标注类别的句子;所述分词及标注单元,用于使用自动分词和词性标注方法,将读入的句子切分为词,并为切分出的每一个词添加词性标识;所述确定单元,用于确定出所述读入的句子包含的一个或多个分句; 转化单元,用于将每个包含所述比较关键词的分句,转化为一个包括按照对应词在所述分句中的顺序排列的关键词及其词性标识的组合项和非关键词的词性标识项的一个序列,并为所述序列建立其对应分句所属句子相同的类别标记。10. 如权利要求9所述的装置,其特征在于,所述第一匹配模块,包括获取单元、匹配 单元和输出单元所述获取单元,用于从所述序列集中获取序列;所述匹配单元,用于将获取的序列与比较模式集中的每一个比较模式进行匹配,根据 匹配结果,得到所述获取的序列对应的维数等于所述比较模式总数量的特征向量;所述输出单元,用于将所述获取的序列的类别标记赋予所述特征向量,并输出所述特 征向量。11. 如权利要求8-10任一所述的装置,其特征在于,所述模型生成模块,具体包括第 一模型生成单元和/或第二模型生成单元;所述第一模型生成单元,用于使用支...

【专利技术属性】
技术研发人员:黄小江万小军杨建武肖建国
申请(专利权)人:北京大学北大方正集团有限公司北京方正电子政务信息科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1