The invention designs a Chinese text topic expressiveness calculation method based on syntactic subject clustering, and belongs to the technical field of natural language processing application. It includes the following steps: firstly, the target text to be analyzed is acquired, and each chapter is filtered by anomaly, then the clause is divided and marked by data. Then the total number of sentence subjects is extracted and effectively screened, and the coded markers are made according to the preset synonym lexicon, and then the subject is clustered according to the selected effective subjects. Classes and the codes of the selected effective subjects are divided into different levels, so that the expression value of the subject can be obtained according to the equation and the calculation can be completed. The calculation method of the present invention can clearly and effectively analyze the subject in a text, and calculate the expressive value of the theme of a text. It can be used as an effective supporting data for the expressive power of the theme of a text, and is positively correlated with the final score of a text, thus improving the accuracy of evaluating the cohesive degree of the theme of a narrative text.
【技术实现步骤摘要】
一种基于句法主语聚类的中文篇章主题表现力计算方法
本专利技术涉及自然语言处理应用
,具体涉及一种基于句法主语聚类的中文篇章主题表现力计算方法。
技术介绍
在篇章理解中,句法主语一般被视为无标记的话题(石毓智,2001),想要贯彻篇章分析和理解,从已经取得了更加系统而丰富研究成果的句法成分角度来入手,是一个值得开辟的新思路。在句子层面,主语是被陈述的对象,是已知信息;在篇章层面,主语作为观察视角的源点,由所指称的对象为载体引导新信息的展开;当叙述的关注点转移了,主语必然随之切换,从而引起后续陈述内容的一系列反应。篇章词汇量大,结构复杂多变,由此产生庞杂的信息极大干扰了对篇章主题的理解和把握。如果能把各小句的主语作为一个集中观察的视窗,将提纲挈领了解文中被陈述对象的变化转移过程,从而得以迅速地把握篇章主题。周建设(2012)指出,面向自然语言处理的人工分析,语言学家的核心工作之一是建设“语法语义网络”。他随后又提出了以主题聚合度为核心概念的主题、主题表现力等系列概念。主题聚合度是指篇章中的语言形式所展示出主题的外延之间的紧密程度。主题聚合度是篇章主题评价的综合指标,通过计算多种主题表现力来共同完成。主题聚合度评价的维度分为篇章级、段落级、句群级、复句级和词语级等等级。主题聚合度的提出,从人类认知角度说,旨在更多了解脑的神经机制运作方式解决人的语言认知困惑;从人工智能角度说,旨在借助机器的技术手段减轻人的言语负担。主题聚合度计算的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的计算价值,在于为作文提供科学、准确、快速、规范的评价核心指 ...
【技术保护点】
1.一种基于句法主语聚类的中文篇章主题表现力计算方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;所述子集S1与所述子集S2合并为主语集S;四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有 ...
【技术特征摘要】
1.一种基于句法主语聚类的中文篇章主题表现力计算方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;所述子集S1与所述子集S2合并为主语集S;四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型的未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为集合C;经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入集合C,即集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;六、主语聚类的层次提取:分别比对集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于...
【专利技术属性】
技术研发人员:周建设,罗茵,陈炳哲,杨曲,娜仁图雅,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。