一种基于句法宾语聚类的中文篇章表现主题分析方法技术

技术编号:18972328 阅读:135 留言:0更新日期:2018-09-19 03:36
本发明专利技术提供了一种基于句法宾语聚类的中文篇章表现主题分析方法,自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后分别进行段落划分和小句划分并数据化标记,然后进行篇章宾语总数提取和有效筛选宾语并均进行编码式标记,再根据筛选获得的有效宾语结合词语的相关性和语义格信息构建宾语语义聚类网络,从而获得若干宾语聚类子集和聚类集合,最终则根据聚类子集词语与篇章的分布范围、密集程度等判定篇章主题。本发明专利技术的分析方法,可对篇章中的宾语进行有效提取和聚类分析,并快速得出宾语聚类的篇章表现主题,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。

A Chinese topic analysis method based on syntactic object clustering

The invention provides a Chinese text representation topic analysis method based on syntactic object clustering, and the application field of natural language processing technology. It includes the following steps: firstly, the target text to be analyzed is obtained, and each chapter is separately divided into paragraphs, clauses and data markers after anomaly filtering. Then, the total number of text objects is extracted and effectively screened, and all the objects are coded markers. Then, the selected effective objects are combined with the phases of words according to the selected effective objects. Relevance and semantic case information construct object semantic clustering network to obtain some object clustering subsets and clustering sets. Finally, text topics are determined according to the distribution and intensity of the words and texts in the clustering subset. The analysis method of the present invention can effectively extract and cluster the objects in a text, and quickly get the expressive theme of a text clustered by objects, which can further improve the accuracy of evaluating the cohesion degree of a Chinese text topic in a narrative category.

【技术实现步骤摘要】
一种基于句法宾语聚类的中文篇章表现主题分析方法
本专利技术属于自然语言处理应用
,具体涉及一种基于句法宾语聚类的中文篇章表现主题分析方法。
技术介绍
篇章主题信息提取是自然语言处理中的一项重要任务。周建设(2012)教授通过对先秦语义学、汉语语义学、现代哲学逻辑等学科进行多年研究,提出了篇章主题聚合度理论。篇章主题聚合度理论是通过分析篇章、段落、句群、复句、句子、词语六个层面的语义关联,将其与主题语义网络或者知识库进行分析比对,从外延角度以数量思想计算主题聚合度。主题聚合度分析的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的分析价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高人类语言的能力服务。从国内外研究现状来看,鲜有通过语言学本体句法成分理论分析篇章主题的方法。研究表明,本体领域中句法成分——句法主语、句法谓语和句法宾语等均对篇章主题具有表现作用。在篇章中,篇章主题表达作者提出的新观点、新信息,而句法宾语是承载句子新信息的句法成分,若能从宾语角度分析、提取主题,必然会增加篇章主题提取的全面性和准确性。
技术实现思路
本专利技术目的是提供一种基于句法宾语聚类的中文篇章主题表现力的分析方法,通过分析句法宾语的聚类,快速准确地得出记叙文类型的中文篇章表现主题。为解决上述技术问题,本专利技术所采用的技术方案为:1、一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;规则4:所述规则1-规则3中同一小句重复识别并判定的宾语仅取一;合并所述子集S1、子集S2和子集S3为宾语集S;四、语义角色分类:遍历宾语集S中的所有词语,与预置的语义角色分类库一一对照,执行下述规则:规则1:拟对照宾语所在小句为动宾结构的,参照该宾语对应的动词,判定该宾语的语义格类型;规则2:拟对照宾语所在小句为介宾结构结构的,参照该宾语对应的介词,判定该宾语的语义格类型;五、有效宾语筛选:遍历宾语集S中的所有词语,执行下述筛选规则:规则1:识别小句为比喻句、拟人句、否定句、虚拟句的,该小句中的宾语归集为过滤宾语集P;规则2:识别宾语于所在小句为谓词性结构的,该宾语为过滤宾语集P;规则3:将过滤宾语集P于所述宾语集S中过滤,所得集合归集为有效宾语集C;规则4:分别对有效宾语集C的宾语赋予唯一的编码;六、宾语语义聚类网络构建:遍历有效宾语集合C的各词语编码,基于上述步骤四判定的语义格信息,匹配字词义库,执行下述规则:规则1:分别将词语匹配字词义库,匹配词语为多义字词的,根据语义格信息,判定语义;规则2:根据规则1得出的各词语词义,根据语义相似度构建由核心词为主干的若干语义关联网络;规则3:同一语义关联网络分别归集为聚类子集Z1、聚类子集Z2...、聚类子集Zn,并均归集为聚类集合Z;规则4:分别展开各聚类子集,构建构建篇章宾语聚类网络,统计聚类子集的词数;规则5:标注所述规则4中展开各词所在段落的段号数和所在小句的句号数;七、宾语聚类主题表现力判定,执行下述规则,分析结果为宾语聚类的表现主题:规则1:将各所述聚类子集Zn按集合内词语数量依次排列;规则2:过滤集合内词语数量低于3的所述聚类子集;规则3:若集合内词语数量最多的聚类子集,同时所在段号数最多,该聚类子集Zn的核心词判定为宾语聚类的表现主题;规则4:若集合内词语数量最多的聚类子集,与所在段号数最多的聚类子集非同一聚类子集,则转由人工判定。所述动宾句宾语骨干模型采用下述方式训练:—提取样本小句中的动宾结构;—对该动宾结构进行切词,划分后的各字词匹配词字义库;—识别字词为动词的,则提取该动宾结构中位于动词后的名词,将该名词标注为可归集宾语。所述介宾结构宾语骨干模型采用下述方式训练:—提取样本小句中的介宾结构结构;—对该介宾结构结构进行切词,划分后的各字词匹配词字义库;—识别字词为介词的,则提取该介宾结构结构中位于介词后的名词,将该名词标注为可归集宾语。所述句末宾语骨干模型采用下述方式训练:—提取样本中的小句;—对该小句结构进行切词,划分后的各字词匹配词字义库;—识别句尾字词为名词的,则获取该名词标注为可归集宾语。所述语义角色分类库包括:施事、当事、系事、受事、与事、对象、伴随、关涉、工具、凭借、依据、样式、原因、结果、目的、时间、处所、情况。所述编码为五位数或以上的编码,居同一聚类子集的编码前二位相同。本专利技术的分析方法,可对篇章中的宾语进行有效提取和聚类分析,并快速得出宾语聚类的篇章表现主题,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。附图说明图1为本专利技术的方法流程图;图2为本专利技术实施例中《记金华的双龙洞》的篇章主题语义网络图;图3为本专利技术实施例中《黄果树瀑布》的篇章主题语义网络图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。宾语用来指称句子的新信息,主题用来指称篇章的主要信息,宾语和主题具有相同的指称特征,通过提取和分析宾语语义可得到篇章主题信息本申请可用于众多记叙类篇章的评阅环境中。例如:学生记叙类作文智能化分解评阅等,可快速分析作文是否紧扣主题,提高评阅效率,可作为作文评分的重要参考依据。步骤一、语料集获取:获取一篇或若干篇待分析的目标篇章,并依次判定各篇章的语言主体为中文和文体形式为记叙文后,判定形式可为人工判定或通过比对文体库自动判定,分别标注为语料集M1、语料集M2...、语料集MN(N为对应篇章的编号)。步骤二、语料集预处理:分别对每一篇的语料集M中的每一个句子依次执行下述规则后,得语料集NT(N为对应篇章的编号):规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为1A1、2A2、...、NAn;(N为对应篇章的编号,n为对应段落的号数);规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为1AnT1、2AnT2、...NAnTs,所述小句的划分本文档来自技高网...

【技术保护点】
1.一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;规则4:所述规则1‑规则3中同一小句重复识别并判定的宾语仅取一;合并所述子集S1、子集S2和子集S3为宾语集S;四、语义角色分类:遍历宾语集S中的所有词语,与预置的语义角色分类库一一对照,执行下述规则:规则1:拟对照宾语所在小句为动宾结构的,参照该宾语对应的动词,判定该宾语的语义格类型;规则2:拟对照宾语所在小句为介宾结构结构的,参照该宾语对应的介词,判定该宾语的语义格类型;五、有效宾语筛选:遍历宾语集S中的所有词语,执行下述筛选规则:规则1:识别小句为比喻句、拟人句、否定句、虚拟句的,该小句中的宾语归集为过滤宾语集P;规则2:识别宾语于所在小句为谓词性结构的,该宾语为过滤宾语集P;规则3:将过滤宾语集P于所述宾语集S中过滤,所得集合归集为有效宾语集C;规则4:分别对有效宾语集C的宾语赋予唯一的编码;六、宾语语义聚类网络构建:遍历有效宾语集合C的各词语编码,基于上述步骤四判定的语义格信息,匹配字词义库,执行下述规则:规则1:分别将词语匹配字词义库,匹配词语为多义字词的,根据语义格信息,判定语义;规则2:根据规则1得出的各词语词义,根据语义相似度构建由核心词为主干的若干语义关联网络;规则3:同一语义关联网络分别归集为聚类子集Z1、聚类子集Z2...、聚类子集Zn,并均归集为聚类集合Z;规则4:分别展开各聚类子集,构建构建篇章宾语聚类网络,统计聚类子集的词数;规则5:标注所述规则4中展开各词所在段落的段号数和所在小句的句号数;七、宾语聚类主题表现力判定,执行下述规则,分析结果为宾语聚类的表现主题:规则1:将各所述聚类子集Zn按集合内词语数量依次排列;规则2:过滤集合内词语数量低于3的所述聚类子集;规则3:若集合内词语数量最多的聚类子集,同时所在段号数最多,该聚类子集Zn的核心词判定为宾语聚类的表现主题;规则4:若集合内词语数量最多的聚类子集,与所在段号数最多的聚类子集非同一聚类子集,则转由人工判定。...

【技术特征摘要】
1.一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;规则4:所述规则1-规则3中同一小句重复识别并判定的宾语仅取一;合并所述子集S1、子集S2和子集S3为宾语集S;四、语义角色分类:遍历宾语集S中的所有词语,与预置的语义角色分类库一一对照,执行下述规则:规则1:拟对照宾语所在小句为动宾结构的,参照该宾语对应的动词,判定该宾语的语义格类型;规则2:拟对照宾语所在小句为介宾结构结构的,参照该宾语对应的介词,判定该宾语的语义格类型;五、有效宾语筛选:遍历宾语集S中的所有词语,执行下述筛选规则:规则1:识别小句为比喻句、拟人句、否定句、虚拟句的,该小句中的宾语归集为过滤宾语集P;规则2:识别宾语于所在小句为谓词性结构的,该宾语为过滤宾语集P;规则3:将过滤宾语集P于所述宾语集S中过滤,所得集合归集为有效宾语集C;规则4:分别对有效宾语集C的宾语赋予唯一的编码;六、宾语语义聚类网络构建:遍历有效宾语集合C的各词语编码,基于上述步骤四判定的语义格信息,匹配字词义库,执行下述规则:规则1:分别将词语匹配字词义库,匹配词语为多义字词的,根据语义格信息,判定语义;规则2:根据规则1得出的各词语词义,根据...

【专利技术属性】
技术研发人员:周建设佟悦张文彦刘小力李太豪刘燕辉
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1