一种基于句法谓词聚类的中文篇章主题表现力分析方法技术

技术编号:18783610 阅读:56 留言:0更新日期:2018-08-29 06:53
本发明专利技术提供了一种基于句法谓词聚类的中文篇章主题表现力分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后分别进行段落划分和子句划分并数据化标记,然后进行句法谓词提取和有效句法谓词筛选并均进行编码式标记,再根据筛选获得的有效句法谓词获取句法谓词聚类,并对同聚类的句法谓词赋予相关编码,从而根据方程得出主题表现力值并完成计算和分析工作。本发明专利技术的分析方法,可对篇章中的句法谓词进行有效提取和聚类,并快速得出句法谓词聚类主题表现力值,所得值可作为篇章主题表现力的部分支撑数据,可进一步提高记叙文类的中文篇章主题聚合度评价的精准性。

【技术实现步骤摘要】
一种基于句法谓词聚类的中文篇章主题表现力分析方法
本专利技术涉及自然语言处理应用
,具体涉及一种基于句法谓词聚类的中文篇章主题表现力分析方法。
技术介绍
句法谓词,顾名思义,指的是担任句法成分的谓词,往往由动词和形容词充当(刘钦荣,2007)。句法谓词指的是现代汉语中的谓语中心语。语义计算可以通过语义确定外延,再对外延做相关计算。句法谓词也不例外。句法谓词主要有主语依存性、宾语依存性、语义上下位聚合和多种语义类别等四大语义特征。和其他句法成分相比,句法谓词是表达事件或状态的重要句法成分。人们对同一事件或状态可以有多种不同的关注视角,例如事件的发展阶段、事件或状态的意义、影响等等,都会在句法谓词中有所体现。就句法结构的角度而言,谓语中除去了所包含的宾语、工具、时间等偏离主题聚合度要求的冗余信息成分,即为句法谓词。周建设(2012)指出,面向自然语言处理的人工分析,语言学家的核心工作之一是建设“语法语义网络”。他随后又提出了以主题聚合度为核心概念的主题、主题表现力等系列概念。主题聚合度是指篇章中的语言形式所展示出主题的外延之间的紧密程度。主题聚合度是篇章主题评价的综合指标,通过分析多种主题表现力来共同完成。主题聚合度评价的维度分为篇章级、段落级、句群级、复句级和词语级等等级。主题聚合度的提出,从人类认知角度说,旨在更多了解脑的神经机制运作方式解决人的语言认知困惑;从人工角度说,旨在借助形式的技术手段缩短人机交互的语义理解隔阂。主题聚合度分析的设计目标,在于用语言的手段实现篇章理解和评判的自动化;主题聚合度的分析价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高机器的语义理解能力服务。主题表现力是实现主题聚合度评价的重要语义指标之一,是指语言符号载体与主题表现之间的语义关系。句法谓词的主题表现力则是指句法谓词与篇章主题之间的语义表现关系。主题表现力的判定基于千变万化的语义关系,想要快速准确地识别出具体篇章的主题表现力效果,必须细化篇章的类型,从较为同质的篇章材料中总结该类篇章的主题表现力的规律,并从不同的篇章类型中不断获得不同的规律。句法谓词和动词存在语法和语义上的密切关联。不可否认的是,尽管名词间语义关系的研究已经取得丰硕成果,但关于动词语义的理论研究和数据积累还是相当稀疏。WordNet作为自然语言处理中较早开发的涉及动词的语义词典,为了将动词词库组织成一个关系网络,其处理动词的组织方式主要是将词库分成语义域(semanticdomain)。通过语义和词汇关系联系起来的动词通常都属于同一个语义域。最上层的语义域包括事件域(event)和状态域(state)。其中事件域下又分为14个子域。加上状态域,总共包括15个动词语义域。到WordNet1.5版,已经包含了大约11500个动词同义词集合。在WordNet看来,一个动词的意义主要是通过它跟其他动词的关系以及同义词集合(synset)来表达的。中文研究方面,《哈工大信息检索研究室同义词词林扩展板》作为国内标识中文词语同义关系的信息检索成果,分层级、分类别对不同词语的同义语义关系给出语义聚类图。目前为止,《哈工大信息检索研究室同义词词林扩展版》词表包含77492条词语,共分为12个大类,94个中类,1428个小类,最细的级别为原子词群。第一级12个大类包括“人、物、时间与空间、抽象事物、特征、动作、心理活动、活动、现象与状态、助语”等。《哈工大信息检索研究室同义词词林扩展版》作为同义词语料库,可以帮助执行句法谓词同义关系判定。但对于语篇整体主题表现力的判定而言,明显不足。现有技术中,鲜有从分析语言学的角度来看待句法谓词的主题表现力问题,而从表现主题聚合度的角度来分析句法谓词,更是无人问津。
技术实现思路
本专利技术目的是提供一种基于句法谓词聚类的中文篇章主题表现力分析方法,通过分析句法谓词聚类数据,并快速得出句法谓词聚类主题表现力值。为解决上述技术问题,本专利技术所采用的技术方案为:1、一种基于句法谓词聚类的中文篇章主题表现力分析方法,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集B:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行子句划分,以动词为标志确定子句数量,一个动词对应为一个子句;规则4:对经规则1、规则2和规则3处理后的句子依次标记为T1、T2、T3...、Tn;规则5:所述语料集B={T1、T2、T3...、Tn};三、句法谓词提取:对所述语料集B中所有已标记的子句分别执行下述规则提取句法谓词,归集为句法谓词集S;规则1:采用预置的中文句子成分骨干模型A-主谓宾成分主干模型,执行谓语的识别和宾语的识别,分别归集为子集K1和子集K2;规则2:将所述子集K1中,与子集K2为并集的集合过滤,子集K1中的保留集合重新归集为子集K3;规则3:识别子集K3中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G、子集T、子集C、子集F;规则4:采用预置的中文语义角色骨干模型Q,过滤所述子集K3中的工具、时间、程度、方式类语义角色成分,将所述子集K3中,与子集G、子集T、子集C、子集F为并集的集合过滤,子集K3中的保留集合重新归集为句法谓词集S1;规则5:识别子句为包含子句性宾语的主谓句的,采用分层识别执行谓语的识别,首先执行最外层子句的谓语识别,其次执行宾语内部的谓语识别;规则6:采用所述主谓宾成分主干模型,执行谓语的识别和子句性宾语的识别,其中谓语和子句性宾语的识别结果分别归集为子集K1*和子集K2*;规则7:将所述子集K1*中,与子集K2*为并集的集合过滤,子集K1*中的保留集合重新归集为子集K3*;规则8:识别子集K3*中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G*、子集T*、子集C*、子集F*。规则9:采用所述中文语义角色骨干模型Q,过滤所述子集K3*中的工具、时间、程度、方式类语义角色成分,将所述子集K3*中,与子集G*、T*、C*、F*为并集的集合过滤,子集K3*中的保留集合重新归集为句法谓词集S1*;规则10:将所述子集K2*中的元素采用所述主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分骨干模型执行谓语和宾语的识别,其中谓语和宾语的识别结果分别归集为子集K1**和子集K2**,然后依次执行规则7至规则9,得到句法谓词集S1**;若K2**中的元素仍为非名词性成分,则继续执行规则6-规则10,直至宾语的识别结果为名词性成分;规则11:识别子句为不包含宾语的主谓句的,采用所述中文句子成分骨干模型B——主谓成分主干模型,执行谓语的识别,其中谓语的识别结果归结为子集K1’;规则12:识别子集K1’中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G’、子集T’、子集C’、子集F’;规则13:采用所述中文语义角色骨干模型Q,过滤所述子集K1’中的工具、时间、程度、方式类语义角本文档来自技高网
...

【技术保护点】
1.一种基于句法谓词聚类的中文篇章主题表现力分析方法,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集B:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行子句划分,以动词为标志确定子句数量,一个动词对应为一个子句;规则4:对经规则1、规则2和规则3处理后的句子依次标记为T1、T2、T3...、Tn;规则5:所述语料集B={T1、T2、T3...、Tn};三、句法谓词提取:对所述语料集B中所有已标记的子句分别执行下述规则提取句法谓词,归集为句法谓词集S;规则1:采用预置的中文句子成分骨干模型A‑主谓宾成分主干模型,执行谓语的识别和宾语的识别,分别归集为子集K1和子集K2;规则2:将所述子集K1中,与子集K2为并集的集合过滤,子集K1中的保留集合重新归集为子集K3;规则3:识别子集K3中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G、子集T、子集C、子集F;规则4:采用预置的中文语义角色骨干模型Q,过滤所述子集K3中的工具、时间、程度、方式类语义角色成分,将所述子集K3中,与子集G、子集T、子集C、子集F为并集的集合过滤,子集K3中的保留集合重新归集为句法谓词集S1;规则5:识别子句为包含子句性宾语的主谓句的,采用分层识别执行谓语的识别,首先执行最外层子句的谓语识别,其次执行宾语内部的谓语识别;规则6:采用所述主谓宾成分主干模型,执行谓语的识别和子句性宾语的识别,其中谓语和子句性宾语的识别结果分别归集为子集K1*和子集K2*;规则7:将所述子集K1*中,与子集K2*为并集的集合过滤,子集K1*中的保留集合重新归集为子集K3*;规则8:识别子集K3*中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G*、子集T*、子集C*、子集F*。规则9:采用所述中文语义角色骨干模型Q,过滤所述子集K3*中的工具、时间、程度、方式类语义角色成分,将所述子集K3*中,与子集G*、T*、C*、F*为并集的集合过滤,子集K3*中的保留集合重新归集为句法谓词集S1*;规则10:将所述子集K2*中的元素采用所述主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分骨干模型执行谓语和宾语的识别,其中谓语和宾语的识别结果分别归集为子集K1**和子集K2**,然后依次执行规则7至规则9,得到句法谓词集S1**;若K2**中的元素仍为非名词性成分,则继续执行规则6‑规则10,直至宾语的识别结果为名词性成分;规则11:识别子句为不包含宾语的主谓句的,采用所述中文句子成分骨干模型B——主谓成分主干模型,执行谓语的识别,其中谓语的识别结果归结为子集K1’;规则12:识别子集K1’中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G’、子集T’、子集C’、子集F’;规则13:采用所述中文语义角色骨干模型Q,过滤所述子集K1’中的工具、时间、程度、方式类语义角色成分,将所述子集K1’中,与子集G’、T’、C’、F’为并集的集合过滤,子集K1’中的保留集合重新归集为句法谓词集S1’;规则14:将句法谓词集S1、S1*和句法谓词集S1’取并集,归集为句法谓词集S;四、有效句法谓词筛选:遍历句法谓词集S中的所有词语,执行以下规则,得有效聚合句法谓词集C:规则1:篇章中的句法谓词聚合方式包括主语一致聚合、宾语一致聚合、语义场聚合三种聚合模式。规则2:采用预置的中文句子成分骨干模型A——主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分主干模型,执行主语和句法谓词的识别,分别给每个句法谓词标注上角标,按照主语先后出现次序,依次标记为0、1、2、3……等自然数,主语相同的句法谓词上角标标注相同,其中,两个以上上角标一致的句法谓词之间的语义关系判定为主语一致聚合关系。规则3:依次抽取有效句法谓词集S中的元素;规则4:若没有与抽取元素存在主语一致聚合关系的句法谓词,则抽取该元素相邻的下一个句法谓词元素,继续执行规则3,直至所述句法谓词集S中的最后一个句法谓词;规则5:将有效句法谓词集S中相互间拥有主语一致聚合关系的句法谓词集C11、C12、C13……等集合取并集,记为集合C1,C1=C11∪C12∪C13∪……;规则6:子句成分为主谓宾的,采用所述中文句子成分骨干模型A——主谓宾成分主干模型执行句法谓词和宾语的识别,分别给句法谓词标注,按照宾语先后出现次序,依次标记为0、1、2、3……等自然数,宾语相同的句法谓词标注相同,其中,两个以上标...

【技术特征摘要】
1.一种基于句法谓词聚类的中文篇章主题表现力分析方法,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集B:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行子句划分,以动词为标志确定子句数量,一个动词对应为一个子句;规则4:对经规则1、规则2和规则3处理后的句子依次标记为T1、T2、T3...、Tn;规则5:所述语料集B={T1、T2、T3...、Tn};三、句法谓词提取:对所述语料集B中所有已标记的子句分别执行下述规则提取句法谓词,归集为句法谓词集S;规则1:采用预置的中文句子成分骨干模型A-主谓宾成分主干模型,执行谓语的识别和宾语的识别,分别归集为子集K1和子集K2;规则2:将所述子集K1中,与子集K2为并集的集合过滤,子集K1中的保留集合重新归集为子集K3;规则3:识别子集K3中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G、子集T、子集C、子集F;规则4:采用预置的中文语义角色骨干模型Q,过滤所述子集K3中的工具、时间、程度、方式类语义角色成分,将所述子集K3中,与子集G、子集T、子集C、子集F为并集的集合过滤,子集K3中的保留集合重新归集为句法谓词集S1;规则5:识别子句为包含子句性宾语的主谓句的,采用分层识别执行谓语的识别,首先执行最外层子句的谓语识别,其次执行宾语内部的谓语识别;规则6:采用所述主谓宾成分主干模型,执行谓语的识别和子句性宾语的识别,其中谓语和子句性宾语的识别结果分别归集为子集K1*和子集K2*;规则7:将所述子集K1*中,与子集K2*为并集的集合过滤,子集K1*中的保留集合重新归集为子集K3*;规则8:识别子集K3*中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G*、子集T*、子集C*、子集F*。规则9:采用所述中文语义角色骨干模型Q,过滤所述子集K3*中的工具、时间、程度、方式类语义角色成分,将所述子集K3*中,与子集G*、T*、C*、F*为并集的集合过滤,子集K3*中的保留集合重新归集为句法谓词集S1*;规则10:将所述子集K2*中的元素采用所述主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分骨干模型执行谓语和宾语的识别,其中谓语和宾语的识别结果分别归集为子集K1**和子集K2**,然后依次执行规则7至规则9,得到句法谓词集S1**;若K2**中的元素仍为非名词性成分,则继续执行规则6-规则10,直至宾语的识别结果为名词性成分;规则11:识别子句为不包含宾语的主谓句的,采用所述中文句子成分骨干模型B——主谓成分主干模型,执行谓语的识别,其中谓语的识别结果归结为子集K1’;规则12:识别子集K1’中元素内部的语义角色成分,包括工具、时间、程度、方式等四种语义角色成分,其识别结果分别归集为子集G’、子集T’、子集C’、子集F’;规则13:采用所述中文语义角色骨干模型Q,过滤所述子集K1’中的工具、时间、程度、方式类语义角色成分,将所述子集K1’中,与子集G’、T’、C’、F’为并集的集合过滤,子集K1’中的保留集合重新归集为句法谓词集S1’;规则14:将句法谓词集S1、S1*和句法谓词集S1’取并集,归集为句法谓词集S;四、有效句法谓词筛选:遍历句法谓词集S中的所有词语,执行以下规则,得有效聚合句法谓词集C:规则1:篇章中的句法谓词聚合方式包括主语一致聚合、宾语一致聚合、语义场聚合三种聚合模式。规则2:采用预置的中文句子成分骨干模型A——主谓宾成分主干模型或中文句子成分骨干模型B——主谓成分主干模型,执行主语和句法谓词的识别,分别给每个句法谓词标注上角标,按照主语先后出现次序,依次标记为0、1、2、3……等自然数,主语相同的句法谓词上角标标注相同,其中,两个以上上角标一致的句法谓词之间的语义关系判定为主语一致聚合关系。规则3:依次抽取有效句法谓词集S中的元素;规则4:若没有与抽取元素存在主语一致聚合关系的句法谓词,则抽取该元素相邻的下一个句法谓词元素,继续执行规则3,直至所述句法谓词集S中的最后一个句法谓词;规则5:将有效句法谓词集S中相互间拥有主语一致聚合关系的句法谓词集C11、C12、C13……等集合取并集,记为集合C1,C1=C11∪C12∪C13∪……;规则6:子句成分为主谓宾的,采用所述中文句子成分骨干模型A——主谓宾成分主干模型执行句法谓词和宾语的识别,分别给句法谓词标注,按照宾语先后出现次序,依次标记...

【专利技术属性】
技术研发人员:周建设张文彦张凯史金生蔡天健张龙春
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1