The present invention provides a word level Chinese block analysis method based on the transfer method, including the following steps: Step 1, building a set of transfer systems, the transfer system carries out a series of transfer operations on the sentence; step two, for the annotated block analysis data set, through the step one of the transfer system After processing, the training block analysis model is trained; step three, the parsing analysis model of the raw text input is used to carry out the word level block analysis and test to get the result of the word segmentation, part of speech tagging and block analysis corresponding to the raw text. The Chinese block analysis method based on the transfer method of the invention has the advantage of reducing the problem of error propagation and achieving better block analysis performance.
【技术实现步骤摘要】
基于转移方法的字级别中文组块分析方法
本专利技术涉及自然语言处理领域,具体涉及一种基于转移方法的字级别中文组块分析方法。
技术介绍
组块分析,又叫浅层句法分析(shallowparsing),与句法分析为了获得一个句子的完整句法树不同。组块分析的目标是识别出句子中某些句法相关、结构相对简单、不重叠的句子成分,例如名词短语、动词短语等。同时,与词性标注相比,组块分析能够包含更深层次的句法相关的信息。组块分析是自然语言处理中的一个标准基础任务,对其他的自然语言处理技术应用也能够起到很重要的作用。将组块信息应用在机器翻译、问答系统以及命名实体识别等任务中,可以有效提升现有系统的实际性能。对于基于字的语言,如中文来说,与英语不同的特点是,分词是它们的一个独特挑战,并且在很多任务中,分词都是一个必须的预处理步骤,在此基础上再进行其他的后续处理任务。在中文组块分析方面,之前大部分工作都假设已经给出了标准的分词和词性标注结果,但是当使用自动分词结果时,其结果会引起错误传播的问题。比如分词和词性标注的错误会导致下一步组块分析的错误,中文组块分析系统的性能会有大幅度的下降。两者之间的较大的对比差距表明,在实际的应用中,组块分析系统在生语料上的性能仍然有比较大的提升空间。因此,本领域迫切需要研发出一种能够准确处理生语料上进行组块分析的方法。
技术实现思路
本专利技术之目的是提供一种基于转移方法的字级别中文组块分析方法,能够减少错误传播的问题以及能够取得更好地组块分析性能。本专利技术提供一种基于转移方法的字级别中文组块分析方法,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对 ...
【技术保护点】
一种基于转移方法的字级别中文组块分析方法,其特征在于,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的所述转移系统转移操作处理后,训练组块分析模型;步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。
【技术特征摘要】
1.一种基于转移方法的字级别中文组块分析方法,其特征在于,包括以下步骤:步骤一、构建一套转移系统,所述转移系统对句子进行一系列转移操作处理;步骤二、对于已标注的组块分析数据集,通过步骤一中的所述转移系统转移操作处理后,训练组块分析模型;步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试,得出与生文本对应的分词、词性标注和组块分析结果。2.根据权利要求1所述的基于转移方法的字级别中文组块分析方法,其特征在于,步骤一中的所述转移系统中的每个状态包括一个栈、一个缓存和一个队列,其中,所述栈包含已进行组块标注的部分不完整句子;所述缓存包含已进行分词和词性标注过的部分不完整结果;以及所述队列包含未处理的字序列。3.根据权利要求2所述的基于转移方法的字级别中文组块分析方法,其特征在于,步骤一中的所述一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。4.根据权利要求3所述的基于转移方法的字级别中文组块分析方法,其特征在于,所述转移操作中所述分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序随机。5...
【专利技术属性】
技术研发人员:王家彬,吕晨,
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。