一种增强的词性标注方法技术

技术编号:17561781 阅读:85 留言:0更新日期:2018-03-28 12:17
本发明专利技术公开了一种增强的词性标注方法,包括领域分类步骤,用于进行语句的领域分类;还包括词性标注步骤,根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注;在领域分类步骤之前还包括以下步骤,输入步骤:输入进行词性标注的语句;分词步骤:对输入的语句进行分词;词向量表示步骤:获得进行语句分类的特征向量。本发明专利技术还公开了一种增强的词性标注系统,该系统包括输入模块、分词模块、词向量表示模块、领域分类模块、词性标注模块。本发明专利技术将文本分类引入词性标注模块,根据文本分类结果调用相应的词性标注模型,解决了同一个词在不同领域中被误标的问题,大大提高了标注的整体准确度。

An enhanced method of part of speech tagging

The invention discloses a method for enhancement of speech tagging, including field classification steps for field classification statement; also includes part of speech tagging procedures, according to the classification result by calling the corresponding fields are labeled POS tagging model in sentence words; before the classification step also includes the following steps. Input: input for POS tagging statements; word segmentation steps: segmentation of the input sentence; word vector steps: obtaining feature vectors for classification of the statement. The invention also discloses an enhanced part of speech tagging system, which includes input module, word segmentation module, word vector representation module, domain classification module and part of speech tagging module. The invention introduces text classification into part of speech tagging module, and calls the corresponding POS tagging model according to the result of text classification, solves the problem that the same word is mistakenly labeled in different fields, and greatly improves the overall accuracy of the annotation.

【技术实现步骤摘要】
一种增强的词性标注方法
本专利技术涉及文本信息处理领域,尤其涉及一种增强的词性标注方法。
技术介绍
目前,词性标注是自然语言处理中的基础性环节,词性标注的好坏直接影响着基于标注进行的深层次研究的效果,诸如句法分析、信息检索、机器翻译等;因此,对词性标注的研究显得尤为重要。同一个词,在不同的领域应用中,可能会有不同的词性标注。例如“播放/v做/v宫保鸡丁/ndish的/ude视频/n”和“播放/v陶喆/nr的/ude宫保鸡丁/nsong”,这两个短句同时含有“播放”、“宫保鸡丁”两个词,然而,我们的领域应用希望能区分开,“宫保鸡丁”这个词在第一句中是菜名(ndish),而在第二句中是歌名(nsong)。用传统的词性标注方法解决以上问题,会由于训练语料的数量差异引起标注偏置问题,即对在多个领域中都会出现的词,会有较大概率全标注为出现次数最多的那个领域的标签。
技术实现思路
为解决现有技术的不足,本专利技术提供一种增强的词性标注方法,本专利技术的技术方案如下:一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,还包括如下步骤:词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。进一步地,在领域分类步骤前还包括如下步骤:输入步骤:输入进行词性标注的语句;分词步骤:对输入的语句进行分词;词向量表示步骤:获得进行语句分类的特征向量。进一步地,领域分类步骤采用卷积神经网络实现。一种增强的词性标注系统,包括领域分类模块,所述领域分类模块用于进行语句的领域分类,还包括如下模块:词性标注模块,根据领域分类模块的结果,所述词性标注模块通过调用相应领域的词性标注模型对该语句中的词进行标注。进一步地,在领域分类模块前还包括如下模块:输入模块,所述输入模块用于输入进行词性标注的语句;分词模块,所述分词模块用于对输入的语句进行分词;词向量表示模块,所述词向量表示模块用于获得进行语句分类的特征向量。进一步地,所述领域分类模块的实现方法为卷积神经网络。进一步地,所述词向量表示模块包括预先收集的语料,通过word2vec处理获得词向量的查找表,分词模块中得到的词汇通过查表的方式获得其词向量表示;对于不存在于查找表中的词汇,该词汇替换为“UNK”,所述“UNK”的词向量随机生成一个向量,该词汇通过日志进行记录,作为后续扩充训练语料的指导。进一步地,所述词性标注模块的规范依据是北京大学的《现代汉语文本切分与词性标注规范》。相比于现有技术,本专利技术的有益效果是:本专利技术将文本分类引入词性标注模块,根据文本分类结果调用相应的词性标注模型,解决了同一个词在不同领域中被误标的问题,大大提高了标注的整体准确度。附图说明图1为本专利技术的领域词性标注流程图;具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。如图1所示,一种增强的词性标注方法,包括如下步骤:输入步骤:输入需要进行词性标注的语句;分词步骤:对输入步骤输入的语句进行分词;词向量表示步骤:获得进行语句分类的特征向量;领域分类步骤:进行语句的领域分类;词性标注步骤:根据领域分类步骤的分类结果,调用相应领域的词性标注模型对该语句中的词进行标注。其中,在分词步骤的训练语料中加入了领域性的词汇,保证了菜名、歌名等词不会被拆成若干分离的词语。在词向量表示步骤中,本方案使用的是预先训练好的词向量,通过搜集大量的通用以及产品应用相关领域的词汇,通过word2vec方法可以获得词向量的查找表。分词模块得到的词汇,可以通过查表的方式获得其词向量表示。对于不在词向量表中的词汇,该词会被替换为“UNK”(未知的),“UNK”的词向量为一个随机生成的向量。同时,该词会被以日志的方式记录下来,用以指导后续训练语料的扩充。其中,word2vec是Google提出的一种获得词向量的模型,训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。训练得到的模型即是一个表,表的每一行为“词对应向量”格式,以词(一般会转为散列值)为表的索引,通过此可以查到其对应的词向量。预先训练好的词向量指使用预先收集的大量语料,如几十甚至几百Billion级别的信息数据来训练word2vec模型,用以获得词向量。一般来讲,大量训练语料获得的词向量更能清晰表示词与词之间的关系。上述建立了词性与词性的特征向量之间的关系,为卷积神经网络进行领域分类建立基础。进一步而言,领域分类步骤使用卷积神经网络实现。对于分词步骤和词向量表示步骤所得到的词向量,将词向量作为卷积神经网络输入,首先通过卷积层对采样的特征向量作卷积处理,然后将卷积层采集的向量输入输入池化层进行降维处理,通过池化层后每个句子或与语篇会得到一个向量,在池化层的基础上,该向量输入到softmax层,用softmax层进行实体关系的分类,得到分类结果。具体而言,首先,进行分类的语句会被设定为统一长度,根据对产品中Query语句的统计,以及参考人类问句习惯的统计数据,我们设定了语句的长度为9,即不足9个词得语句会被用特殊符号,如“##”,补足为9个词,而超过9个词的句子会被截断为9个词,根据统计结果显示,该产品的应用中未发现超过9个词的句子。用于补充句子的特殊符号也会有一个随机生成的词向量表示。根据产品的应用,领域分类的类别为“cooking”、“music”、“video”和“others”。进一步而言,我们根据需要可将词语长度设为预设的长度。利用搜集的各领域数据预先训练好了该领域的词性标注模型,词性标注步骤的规范依据北京大学的《现代汉语文本切分与词性标注规范》,并根据产品的应用增加了诸如表示菜系的“ncuisine”(亦简写为“nc”)、表示歌手的“nsinger”(亦简写为“nrs”)等标记。在词性标注步骤中,会根据卷积神经网络分类结果,调用相应领域的词性标注模型对该语句中的词进行标注。需要说明的是,“others”类采用的是通用语料训练的词性标注模型。相应的,本实施例还提出了一种增强的词性标注系统,其包括以下模块:输入模块:用于输入需要进行词性标注的语句;分词模块:对输入步骤输入的语句进行分词;词向量表示模块:获得进行语句分类的特征向量;领域分类模块:进行语句的领域分类;词性标注模块:根据领域分类步骤的分类结果,调用相应领域的词性标注模型对该语句中的词进行标注。其中,在分词模块的训练语料中加入了领域性的词汇,保证了菜名、歌名等词不会被拆成若干分离的词语;进一步而言,领域分类模块使用卷积神经网络实现;领域分类的类别为“cooking”、“music”、“video”和“others”。词性标注模块的规范依据是北京大学的《现代汉语文本切分与词性标注规范》。本实施例以“播放做宫保鸡丁的视频”为例,来说明实现词性标注的过程。输入“播放做宫保鸡丁的视频”,通过分词模块,将其分词为“播放做宫保鸡丁的视频”,通过Word2vec处理,获得每个词的词向量,将词向量输入卷积神经网络,由卷积神经网络进行处理,在正式分类之前,需要对卷积神经网络的卷积层、池化层和softmax层进行训练,训练的过程类似于识别本文档来自技高网...
一种增强的词性标注方法

【技术保护点】
一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,其特征在于还包括如下步骤:词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。

【技术特征摘要】
1.一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,其特征在于还包括如下步骤:词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。2.如权利要求1所述的增强的词性标注方法,其特征在于:在领域分类步骤前还包括如下步骤:输入步骤:输入进行词性标注的语句;分词步骤:对输入的语句进行分词;词向量表示步骤:获得进行语句分类的特征向量。3.如权利要求2所述的增强的词性标注方法,其特征在于:领域分类步骤采用卷积神经网络实现。4.一种增强的词性标注系统,领域分类模块,所述领域分类模块用于进行语句的领域分类,其特征在于还包括如下模块:词性标注模块,根据领域分类模块的结果,所述词性标注模块通过调用相应领域的词性标注模型对该语句中的词进行标注。5.如权利要求4所述的增强的词性标注系统,其特征在于...

【专利技术属性】
技术研发人员:石忠民徐叶强武大伟吴云标
申请(专利权)人:广州索答信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1