The invention discloses a method for enhancement of speech tagging, including field classification steps for field classification statement; also includes part of speech tagging procedures, according to the classification result by calling the corresponding fields are labeled POS tagging model in sentence words; before the classification step also includes the following steps. Input: input for POS tagging statements; word segmentation steps: segmentation of the input sentence; word vector steps: obtaining feature vectors for classification of the statement. The invention also discloses an enhanced part of speech tagging system, which includes input module, word segmentation module, word vector representation module, domain classification module and part of speech tagging module. The invention introduces text classification into part of speech tagging module, and calls the corresponding POS tagging model according to the result of text classification, solves the problem that the same word is mistakenly labeled in different fields, and greatly improves the overall accuracy of the annotation.
【技术实现步骤摘要】
一种增强的词性标注方法
本专利技术涉及文本信息处理领域,尤其涉及一种增强的词性标注方法。
技术介绍
目前,词性标注是自然语言处理中的基础性环节,词性标注的好坏直接影响着基于标注进行的深层次研究的效果,诸如句法分析、信息检索、机器翻译等;因此,对词性标注的研究显得尤为重要。同一个词,在不同的领域应用中,可能会有不同的词性标注。例如“播放/v做/v宫保鸡丁/ndish的/ude视频/n”和“播放/v陶喆/nr的/ude宫保鸡丁/nsong”,这两个短句同时含有“播放”、“宫保鸡丁”两个词,然而,我们的领域应用希望能区分开,“宫保鸡丁”这个词在第一句中是菜名(ndish),而在第二句中是歌名(nsong)。用传统的词性标注方法解决以上问题,会由于训练语料的数量差异引起标注偏置问题,即对在多个领域中都会出现的词,会有较大概率全标注为出现次数最多的那个领域的标签。
技术实现思路
为解决现有技术的不足,本专利技术提供一种增强的词性标注方法,本专利技术的技术方案如下:一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,还包括如下步骤:词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。进一步地,在领域分类步骤前还包括如下步骤:输入步骤:输入进行词性标注的语句;分词步骤:对输入的语句进行分词;词向量表示步骤:获得进行语句分类的特征向量。进一步地,领域分类步骤采用卷积神经网络实现。一种增强的词性标注系统,包括领域分类模块,所述领域分类模块用于进行语句的领域分类,还包括如下模块:词性标注模块,根据领域分类模块的结 ...
【技术保护点】
一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,其特征在于还包括如下步骤:词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。
【技术特征摘要】
1.一种增强的词性标注方法,包括领域分类步骤,所述领域分类步骤用于进行语句的领域分类,其特征在于还包括如下步骤:词性标注步骤:根据领域分类步骤的结果,通过调用相应领域的词性标注模型对语句中的词进行标注。2.如权利要求1所述的增强的词性标注方法,其特征在于:在领域分类步骤前还包括如下步骤:输入步骤:输入进行词性标注的语句;分词步骤:对输入的语句进行分词;词向量表示步骤:获得进行语句分类的特征向量。3.如权利要求2所述的增强的词性标注方法,其特征在于:领域分类步骤采用卷积神经网络实现。4.一种增强的词性标注系统,领域分类模块,所述领域分类模块用于进行语句的领域分类,其特征在于还包括如下模块:词性标注模块,根据领域分类模块的结果,所述词性标注模块通过调用相应领域的词性标注模型对该语句中的词进行标注。5.如权利要求4所述的增强的词性标注系统,其特征在于...
【专利技术属性】
技术研发人员:石忠民,徐叶强,武大伟,吴云标,
申请(专利权)人:广州索答信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。