词性标注方法和标注系统技术方案

技术编号:21141260 阅读:20 留言:0更新日期:2019-05-18 05:12
本发明专利技术提供一种词性标注方法和标注系统,该方法包括:步骤A‑1:对待标注文本进行分句、分词,形成第一输入文本;步骤A‑2:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A‑3:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;步骤A‑4:将V1输入CNN模型,输出词特征向量V1’;步骤A‑5:将V2输入BGRU模型,输出词特征向量V2’;步骤A‑6:连接V1、V1’及V2’得到V3,将V3输入BLSTM模型,并将BLSTM模型的输出结果输入CRF模型,CRF模型输出待标注文本的所有分词的词性标记。本发明专利技术提供的词性标注方法,可以提高正常词和稀有词的词性标注准确率。

Part of speech tagging method and tagging system

【技术实现步骤摘要】
词性标注方法和标注系统
本专利技术涉及人工智能领域,特别涉及一种词性标注方法和标注系统。
技术介绍
词性标注(part-of-speechtagging),简称POS,即对给定句子序列中的每个词判定词性并加以标注,它是深入处理自然语言处理的基石,为机器翻译,语音识别,信息检索等高层任务提供了基础。随着神经网络技术的发展,新的模型不断被提出,并且神经网络的引入使得词性标注的准确率进一步提升。其中,YoavGoldber基于BLSTM(bidirectionallongshort-termmemory)模型对稀有词和未登录词的词性标注进行研究取得进展。如今,在词性标注领域,被广泛使用的模型是CNN(convolutionalneuralnetworks)+BLSTM+CRF(conditionalrandomfieldalgorithm)模型。但CNN+BLSTM+CRF模型,对于稀有词和未登录词的标注准确率较低,其中稀有词指在语料集中出现频率较低的词。CNN+BLSTM+CRF模型将正常词与稀有词特征不加区别的一起进行读取,而稀有词的词性往往聚集于名词等有限词性,因此会影响稀有词与正常词的词性标注准确率。
技术实现思路
本专利技术提供了一种词性标注方法和标注系统,可以提高正常词和稀有词的词性标注准确率。本专利技术提供一种词性标注方法,包含卷积神经网络CNN模型、双向门循环单元BGRU模型、双向长短记忆性网络BLSTM模型和条件随机场CRF模型,该方法包括以下步骤:步骤A-1:对待标注文本进行分句、分词,形成第一输入文本;步骤A-2:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A-3:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;步骤A-4:将V1输入CNN模型,CNN模型输出词特征向量V1’;步骤A-5:将V2输入BGRU模型,BGRU模型输出词特征向量V2’;步骤A-6:连接V1、V1’及V2’得到V3,将V3输入BLSTM模型,并将BLSTM模型的输出结果输入CRF模型,CRF模型输出待标注文本的所有分词的词性标记。本专利技术还包括一种稀有词词性特征分离方法,包括:步骤A-1:对待分离文本进行分句、分词,形成第一输入文本;步骤A-2:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A-3:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;步骤A-4:将V1输入卷积神经网络CNN模型,CNN模型输出词特征向量V1’;步骤A-5:将V2输入双向门循环单元BGRU模型,BGRU模型输出词特征向量V2’;步骤B:连接V1、V1’及V2’得到V3,V3中包含预设字符的向量单元为稀有词特征向量单元,V3中不包含预设字符的向量单元为正常词特征向量单元。本专利技术还包括一种用于词性标注模型的训练方法,该词性标注模型包括卷积神经网络CNN模型、双向门循环单元BGRU模型、双向长短记忆性网络BLSTM模型和条件随机场CRF模型;训练方法包括:步骤C-1:将训练语料的样本数据转换为第一输入文本;步骤A-2:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A-3:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;步骤A-4:将V1输入CNN模型,CNN模输出词特征向量V1’;步骤A-5:将V2输入BGRU模型,BGRU模型输出词特征向量V2’;步骤A-6:连接V1、V1’及V2’得到V3,将V3输入BLSTM模型,并将BLSTM模型的输出结果输入CRF模型,CRF模型输出训练语料样本数据的所有分词的词性标记;步骤C-2:计算CRF模型输出的词性标记与训练语料样本数据的词性标记之间的误差,依据误差更新CNN、BGRU、BLSTM和CRF模型。本专利技术还包括一种词性标注系统,包括:文本预处理模块:对待标注文本进行分句、分词,形成第一输入文本;稀有词处理模块:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;词向量生成模块:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;CNN模型:将V1输入CNN模型,CNN模型输出词特征向量V1’;BGRU模型:将V2输入BGRU模型,BGRU模型输出词特征向量V2’;向量连接模块:连接V1、V1’及V2’得到V3;BLSTM模型:将V3输入BLSTM模型,并将BLSTM模型的输出结果输入CRF模型,CRF模型:CRF模型输出待标注文本的所有分词的词性标记。本专利技术还包括一种稀有词词性特征分离系统,包括:文本预处理模块:对待分离文本进行分句、分词,形成第一输入文本;稀有词处理模块:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;词向量生成模块:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;CNN模型:将V1输入CNN模型,CNN模型输出词特征向量V1’;BGRU模型:将V2输入BGRU模型,BGRU模型输出词特征向量V2’;向量连接模块:连接V1、V1’及V2’得到V3;特性分离模块:V3中包含预设字符的向量单元为稀有词特征向量单元,V3中不包含预设字符的向量单元为正常词特征向量单元。本专利技术还包括一种用于词性标注模型的训练系统,包括:文本转换模块:将训练语料的样本数据转换为第一输入文本;稀有词处理模块:检测第一输入文本中是否包括稀有词,如果是,则将第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;词向量生成模块:将第一输入文本转换为词向量V1,将第二输入文本转换为词向量V2;CNN模型:将V1输入CNN模型,CNN模型输出词特征向量V1’;BGRU模型:将V2输入BGRU模型,BGRU模型输出词特征向量V2’;向量连接模块:连接V1、V1’及V2’得到V3;BLSTM模型:将V3输入BLSTM模型,并将BLSTM模型的输出结果输入CRF模型;CRF模型:CRF模型输出训练语料样本数据的所有分词的词性标记。更新模块:计算CRF模型输出的词性标记与训练语料样本数据的词性标记之间的误差,依据误差更新CNN、BGRU、BLSTM和CRF模型。本专利技术的词性标注方法,在CNN+BLSTM+CRF模型基础上,增加了BGRU模型,相比
技术介绍
所提到的只有CNN模型的情况,增加的BGRU提高了正常词的词性特征的提取准确度,同时BLSTM+CRF的输入值包含CNN和BGRU的输出,因BGRU输出中包含稀有词的标记特征(预设字符),使得BLSTM+CRF可以分离出稀有词和正常词,可进一步提高了对稀有词和正常词的学习效果和识别效果。附图说明图1为单LSTM网络结构图;图2为GRU网络结构图;图3为GRU模型神经元状态计算框架图;图本文档来自技高网
...

【技术保护点】
1.一种词性标注方法,其特征在于,包含卷积神经网络CNN模型、双向门循环单元BGRU模型、双向长短记忆性网络BLSTM模型和条件随机场CRF模型,所述方法包括:步骤A‑1:对待标注文本进行分句、分词,形成第一输入文本;步骤A‑2:检测所述第一输入文本中是否包括稀有词,如果是,则将所述第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A‑3:将所述第一输入文本转换为词向量V1,将所述第二输入文本转换为词向量V2;步骤A‑4:将所述V1输入CNN模型,所述CNN模型输出词特征向量V1’;步骤A‑5:将所述V2输入BGRU模型,所述BGRU模型输出词特征向量V2’;步骤A‑6:连接所述V1、V1’及V2’得到V3,将所述V3输入BLSTM模型,并将所述BLSTM模型的输出结果输入CRF模型,所述CRF模型输出所述待标注文本的所有分词的词性标记。

【技术特征摘要】
1.一种词性标注方法,其特征在于,包含卷积神经网络CNN模型、双向门循环单元BGRU模型、双向长短记忆性网络BLSTM模型和条件随机场CRF模型,所述方法包括:步骤A-1:对待标注文本进行分句、分词,形成第一输入文本;步骤A-2:检测所述第一输入文本中是否包括稀有词,如果是,则将所述第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A-3:将所述第一输入文本转换为词向量V1,将所述第二输入文本转换为词向量V2;步骤A-4:将所述V1输入CNN模型,所述CNN模型输出词特征向量V1’;步骤A-5:将所述V2输入BGRU模型,所述BGRU模型输出词特征向量V2’;步骤A-6:连接所述V1、V1’及V2’得到V3,将所述V3输入BLSTM模型,并将所述BLSTM模型的输出结果输入CRF模型,所述CRF模型输出所述待标注文本的所有分词的词性标记。2.根据权利要求1所述的方法,其特征在于,所述CNN模型采用最大值池化运算。3.根据权利要求1所述的方法,其特征在于,所述稀有词的判定条件为:在参考语料中,出现次数低于预设值。4.一种稀有词词性特征分离方法,其特征在于,所述方法包括:步骤A-1:对待分离文本进行分句、分词,形成第一输入文本;步骤A-2:检测所述第一输入文本中是否包括稀有词,如果是,则将所述第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A-3:将所述第一输入文本转换为词向量V1,将所述第二输入文本转换为词向量V2;步骤A-4:将所述V1输入卷积神经网络CNN模型,所述CNN模型输出词特征向量V1’;步骤A-5:将所述V2输入双向门循环单元BGRU模型,所述BGRU模型输出词特征向量V2’;步骤B:连接所述V1、V1’及V2’得到V3,所述V3中包含所述预设字符的向量单元为稀有词特征向量单元,所述V3中不包含所述预设字符的向量单元为正常词特征向量单元。5.根据权利要求4所述的方法,其特征在于,所述CNN模型采用最大值池化运算。6.根据权利要求4所述的方法,其特征在于,所述稀有词的判定条件为:在参考语料中,出现次数低于预设值。7.一种用于词性标注模型的训练方法,其特征在于,所述词性标注模型包括卷积神经网络CNN模型、双向门循环单元BGRU模型、双向长短记忆性网络BLSTM模型和条件随机场CRF模型;所述方法包括:步骤C-1:将训练语料的样本数据转换为第一输入文本;步骤A-2:检测所述第一输入文本中是否包括稀有词,如果是,则将所述第一输入文本的稀有词替换为预设字符,形成第二输入文本,如果否,则令第二输入文本等于第一输入文本;步骤A-3:将所述第一输入文本转换为词向量V1,将所述第二输入文本转换为词向量V2;步骤A-4:将所述V1输入CNN模型,所述CNN模型输出词特征向量V1’;步骤A-5:将所述V2输入BGRU模型,所述BGRU模型输出词特征向量V2’;步骤A-6:连接所述V1、V1’及V2’得到V3,将所述V3输入BLSTM模型,并将所述BLSTM模型的输出结果输入CRF模型,所述CRF模型输出所述训练语料样本数据的所有分词的词性标记;步骤C-2:计算所述CRF模型输出的词性标记与所述训练语料样本数据的词性标记之间的误差,依据所述误差更新所述CNN、BGRU、BLSTM和CRF模型。8.根据权利要求7所述的方法,其特征在于,更新所述CNN、BGRU、BLSTM和CRF模型时,采用Adam算法控制所述模型的更新过程。9.根据权利要求7所述的方法,其特征在于,所述训练语料为PFR语料库。10.一种词性标注系统,其特征在于,所述系统包括:...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1