一种基于句法主语聚类的中文篇章主题表现力计算方法技术

技术编号:19009551 阅读:115 留言:0更新日期:2018-09-22 09:22
本发明专利技术设计一种基于句法主语聚类的中文篇章主题表现力计算方法,属于自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后进行小句划分并数据化标记,然后进行句子主语总数提取和有效筛选并均根据预置的同义词词库进行编码式标记,再根据筛选获得的有效主语进行主语聚类,以及筛选获得的各有效主语的编码进行层次划分,从而根据方程得出主题表现力值并完成计算工作。本发明专利技术的计算方法,可对篇章中的主语进行清晰有效地分析,并计算得出篇章主题表现力值,可作为篇章主题表现力的有效支撑数据,与篇章最终的评分分数正相关,提高记叙文的中文篇章主题聚合度评价的精准性。

A method for calculating the expressive power of Chinese texts based on syntactic subject clustering

The invention designs a Chinese text topic expressiveness calculation method based on syntactic subject clustering, and belongs to the technical field of natural language processing application. It includes the following steps: firstly, the target text to be analyzed is acquired, and each chapter is filtered by anomaly, then the clause is divided and marked by data. Then the total number of sentence subjects is extracted and effectively screened, and the coded markers are made according to the preset synonym lexicon, and then the subject is clustered according to the selected effective subjects. Classes and the codes of the selected effective subjects are divided into different levels, so that the expression value of the subject can be obtained according to the equation and the calculation can be completed. The calculation method of the present invention can clearly and effectively analyze the subject in a text, and calculate the expressive value of the theme of a text. It can be used as an effective supporting data for the expressive power of the theme of a text, and is positively correlated with the final score of a text, thus improving the accuracy of evaluating the cohesive degree of the theme of a narrative text.

【技术实现步骤摘要】
一种基于句法主语聚类的中文篇章主题表现力计算方法
本专利技术涉及自然语言处理应用
,具体涉及一种基于句法主语聚类的中文篇章主题表现力计算方法。
技术介绍
在篇章理解中,句法主语一般被视为无标记的话题(石毓智,2001),想要贯彻篇章分析和理解,从已经取得了更加系统而丰富研究成果的句法成分角度来入手,是一个值得开辟的新思路。在句子层面,主语是被陈述的对象,是已知信息;在篇章层面,主语作为观察视角的源点,由所指称的对象为载体引导新信息的展开;当叙述的关注点转移了,主语必然随之切换,从而引起后续陈述内容的一系列反应。篇章词汇量大,结构复杂多变,由此产生庞杂的信息极大干扰了对篇章主题的理解和把握。如果能把各小句的主语作为一个集中观察的视窗,将提纲挈领了解文中被陈述对象的变化转移过程,从而得以迅速地把握篇章主题。周建设(2012)指出,面向自然语言处理的人工分析,语言学家的核心工作之一是建设“语法语义网络”。他随后又提出了以主题聚合度为核心概念的主题、主题表现力等系列概念。主题聚合度是指篇章中的语言形式所展示出主题的外延之间的紧密程度。主题聚合度是篇章主题评价的综合指标,通过计算多种主题表现力来共同完成。主题聚合度评价的维度分为篇章级、段落级、句群级、复句级和词语级等等级。主题聚合度的提出,从人类认知角度说,旨在更多了解脑的神经机制运作方式解决人的语言认知困惑;从人工智能角度说,旨在借助机器的技术手段减轻人的言语负担。主题聚合度计算的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的计算价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高人类语言的能力服务。主题表现力是实现主题聚合度评价的重要形式化指标之一,是指语言符号载体与主题表现之间的语义关系。主题表现力可以实现为千变万化的语义关系,想要快速准确地识别出篇章的主题表现力效果,必须细化篇章的类型,从较为同类的篇章材料中总结该类篇章的主题表现力的规律,并从不同的篇章类型中不断获得不同的规律。
技术实现思路
本专利技术目的是提供一种基于句法主语聚类的中文篇章主题表现力的计算方法,通过分析句法主语的主题表现力,快速准确地量化出记叙文类型的中文篇章主题表现力。为解决上述技术问题,本专利技术所采用的技术方案为:一种基于句法主语聚类的中文篇章主题表现力计算方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;所述子集S1与所述子集S2合并为主语集S;四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为有效主语集合C;经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入有效主语集合C,即有效主语集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;六、主语聚类的层次提取:分别比对有效主语集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于0的自然数;规则4:仅有第1、2、3级编码相同的词语,归集为子集C4,所述子集C4为大于等于0的自然数;规则5:仅有第1、2、3、4级编码相同的词语,归集为子集C5,前述步骤4规则1中得到的子集C5与本规则的子集C5是同一子集,所述子集C5为大于等于0的自然数;七、主语聚类主题表现力计算,执行下列多元回归方程,所得值为主语聚类的主题表现力量化值:F(x)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5其中α为常数,βj(j=1,2,…,6)为回归系数。所述主谓句主语骨干模型采用下述方式训练:—提取样本主谓句的主语结构;—获取主语结构为光杆体词、谓词,句首的时间名词,将获取的词语标注为可归集主语;—主语结构为偏正短语的中心词语,将获取的词语标注为可归集主语;—主语结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;—主语结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。所述非主谓句主语骨干模型采用下述方式训练:—提取样本名词性非主谓句结构;—获取所述结构为词,将获取的词语标注为可归集主语;—获取所述结构为偏正短语,提取中心词语,将获取的中心词语标注为可归集主语;—获取所述结构为“的”字短语、量词短语,将获取的短语标注为可归集主语;—获取的结构为联合短语、同位短语,提取联合短语、同位短语中的实词,将获取的实词标注为可归集主语。所述子集S1为大于0的自然数,所述子集S2为大于等于0的自然数,所述主语集S中为大于0的自然数;所述集合S与子集S1和S2的关系是:其中S2可以是空集。所述同义词词库为《哈工大信息检索研究室同义词词林扩展版》词典。所述编码为五级编码,所述编码位数为八位数。所述编码各级与所述编码各位数对应关系为:第1级对应编码第1位、第2级对应编码第2位、第3级对应编码第3位和第4位、第4级对应编码第5位、第5级对应编码第6位和第7位、第6级对应编码第8位。本专利技术的计算方法,可对篇章中的主语进行有效提取、聚类和分层,并快速得出主语聚类主题表现力值,所得值可作为篇章主题表现力的部分支撑数据,与篇章最终的评分分数正相关,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。附图说明图1为本专利技术的方法流程图;图2为本专利技术实施例中样本得本文档来自技高网
...
一种基于句法主语聚类的中文篇章主题表现力计算方法

【技术保护点】
1.一种基于句法主语聚类的中文篇章主题表现力计算方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;所述子集S1与所述子集S2合并为主语集S;四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型的未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为集合C;经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入集合C,即集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;六、主语聚类的层次提取:分别比对集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于0的自然数;规则4:仅有第1、2、3级编码相同的词语,归集为子集C4,所述子集C4为大于等于0的自然数;规则5:仅有第1、2、3、4级编码相同的词语,归集为子集C5,前述步骤四规则1中得到的子集C5与本规则的子集C5是同一子集,所述子集C5为大于等于0的自然数;七、主语聚类主题表现力计算,执行下列多元回归函数,所得值为主语聚类的主题表现力值:F(x)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5其中α为常数,βj(j=1,2,…,6)为回归系数。...

【技术特征摘要】
1.一种基于句法主语聚类的中文篇章主题表现力计算方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;所述子集S1与所述子集S2合并为主语集S;四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型的未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为集合C;经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入集合C,即集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;六、主语聚类的层次提取:分别比对集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于...

【专利技术属性】
技术研发人员:周建设罗茵陈炳哲杨曲娜仁图雅
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1