The invention provides a Chinese text representation topic analysis method based on syntactic object clustering, and the application field of natural language processing technology. It includes the following steps: firstly, the target text to be analyzed is obtained, and each chapter is separately divided into paragraphs, clauses and data markers after anomaly filtering. Then, the total number of text objects is extracted and effectively screened, and all the objects are coded markers. Then, the selected effective objects are combined with the phases of words according to the selected effective objects. Relevance and semantic case information construct object semantic clustering network to obtain some object clustering subsets and clustering sets. Finally, text topics are determined according to the distribution and intensity of the words and texts in the clustering subset. The analysis method of the present invention can effectively extract and cluster the objects in a text, and quickly get the expressive theme of a text clustered by objects, which can further improve the accuracy of evaluating the cohesion degree of a Chinese text topic in a narrative category.
【技术实现步骤摘要】
一种基于句法宾语聚类的中文篇章表现主题分析方法
本专利技术属于自然语言处理应用
,具体涉及一种基于句法宾语聚类的中文篇章表现主题分析方法。
技术介绍
篇章主题信息提取是自然语言处理中的一项重要任务。周建设(2012)教授通过对先秦语义学、汉语语义学、现代哲学逻辑等学科进行多年研究,提出了篇章主题聚合度理论。篇章主题聚合度理论是通过分析篇章、段落、句群、复句、句子、词语六个层面的语义关联,将其与主题语义网络或者知识库进行分析比对,从外延角度以数量思想计算主题聚合度。主题聚合度分析的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的分析价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高人类语言的能力服务。从国内外研究现状来看,鲜有通过语言学本体句法成分理论分析篇章主题的方法。研究表明,本体领域中句法成分——句法主语、句法谓语和句法宾语等均对篇章主题具有表现作用。在篇章中,篇章主题表达作者提出的新观点、新信息,而句法宾语是承载句子新信息的句法成分,若能从宾语角度分析、提取主题,必然会增加篇章主题提取的全面性和准确性。
技术实现思路
本专利技术目的是提供一种基于句法宾语聚类的中文篇章主题表现力的分析方法,通过分析句法宾语的聚类,快速准确地得出记叙文类型的中文篇章表现主题。为解决上述技术问题,本专利技术所采用的技术方案为:1、一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、 ...
【技术保护点】
1.一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;规则4:所述规则1‑规则3中同一小句重复识别并判定的宾语仅取一;合并所 ...
【技术特征摘要】
1.一种基于句法宾语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M中的内容依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的语料集T的段落进行标记,确定段落数量,并依次标记为A1、A2、...、An;规则4:对每一段落A中的小句进行划分标记,确定小句数量,依次标记为AnT1、AnT2、...AnTs;三、宾语提取:对所述语料集T中所有已标记的小句分别执行下述规则提取宾语,归集为宾语集S;规则1:识别小句为动宾结构,采用预置的动宾句宾语骨干模型执行宾语提取,提取的宾语归集为子集S1;规则2:识别小句中具有介宾结构,采用预置的介宾结构宾语骨干模型执行宾语提取,提取的宾语归集为子集S2;规则3:识别小句中具有名词性成分,采用预置的句末宾语骨干模型执行宾语提取,提取的宾语归集为子集S3;规则4:所述规则1-规则3中同一小句重复识别并判定的宾语仅取一;合并所述子集S1、子集S2和子集S3为宾语集S;四、语义角色分类:遍历宾语集S中的所有词语,与预置的语义角色分类库一一对照,执行下述规则:规则1:拟对照宾语所在小句为动宾结构的,参照该宾语对应的动词,判定该宾语的语义格类型;规则2:拟对照宾语所在小句为介宾结构结构的,参照该宾语对应的介词,判定该宾语的语义格类型;五、有效宾语筛选:遍历宾语集S中的所有词语,执行下述筛选规则:规则1:识别小句为比喻句、拟人句、否定句、虚拟句的,该小句中的宾语归集为过滤宾语集P;规则2:识别宾语于所在小句为谓词性结构的,该宾语为过滤宾语集P;规则3:将过滤宾语集P于所述宾语集S中过滤,所得集合归集为有效宾语集C;规则4:分别对有效宾语集C的宾语赋予唯一的编码;六、宾语语义聚类网络构建:遍历有效宾语集合C的各词语编码,基于上述步骤四判定的语义格信息,匹配字词义库,执行下述规则:规则1:分别将词语匹配字词义库,匹配词语为多义字词的,根据语义格信息,判定语义;规则2:根据规则1得出的各词语词义,根据...
【专利技术属性】
技术研发人员:周建设,佟悦,张文彦,刘小力,李太豪,刘燕辉,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。