一种建立分词模型的方法、分词的方法及其装置制造方法及图纸

技术编号:8323433 阅读:159 留言:0更新日期:2013-02-14 00:47
本发明专利技术提供一种建立分词模型的方法、分词的方法及其装置,所述建立分词模型的方法包括:A1.对训练语料标注各词条及各词条的词性;B1.确定各词条在对应词性下的词类;C1.利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率;D1.利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型。通过使用上述分词模型进行分词,能够提高分词的精度,同时可以在分词的同时完成词性标注的工作。

【技术实现步骤摘要】
一种建立分词模型的方法、分词的方法及其装置
本专利技术涉及自然语言处理
,特别涉及一种建立分词模型的方法、分词的方法及其装置。
技术介绍
随着互联网的广泛使用,越来越多的文本和信息通过互联网传播,为了能够从这些文本和信息中检索及挖掘出有价值的内容,自然语言处理是不可或缺的技术,而分词则是自然语言处理中的基础工作。现有技术中,分词主要有基于规则的分词和基于统计的分词。基于规则的分词有正向最大匹配、反向最大匹配、双向最大匹配、最短切分数切分、基于规则集合的切分等等,其特点是速度快,但是对歧义切分的效果不好,且在这种方式下,分词与词性标注工作只能以顺序方式完成,即先进行分词,再进行词性标注。基于统计的分词,是将词与词在语言模 型中共现的概率作为分词的依据。例如“人民生活水平”,按照词典可以切分为“人民I生活水平”,也可以切分为“人I民生I活水I平”,但是通过语言模型可以得知“人民”和“生活”的共现概率、“生活”和“水平”的共现概率都远高于“人”和“民生”或者“民生”和“活水”的共现概率,所以最终取“人民I生活I水平”作为正确切分。由于在基于统计的分词中,通常采用n-gram语言模型,将单个词在大规模语料库中出现的概率及词与词在大规模语料库中共现的概率作为分词的依据,从而造成在词典规模较大的情况下,计算量变得非常大的缺陷,并且这种方式下,分词与词性标注仍然分两步完成,而实际上,词性对分词可以起到印证的作用,在不同的词性下,很可能会出现不同的分词结果。因此,在基于统计的分词方法中,有一种改进的做法,是将词与词共现的概率简化为词性与词性共现的概率。由于词性与词相比,其维度大大降低,因此计算量得以减少,并且由于考虑了词性,在分词的同时也完成了词性标注的工作,但是目前在这种方式下,以北大词性体系对中文词性的分类为例,词性的种类仅为四十多种,将成千上万的词之间的关系简化为四十多种词性之间的关系,必然会发生信息量的大幅损失,从而影响到分词的精度。
技术实现思路
本专利技术所要解决的技术问题是提供一种建立分词模型的方法、分词的方法及其装置,以解决现有技术在分词时,用词性与词性的关系替代词与词的关系时造成信息量的大幅损失,从而降低分词精度的缺陷。本专利技术为解决技术问题而采用的技术方案是提供一种建立分词模型的方法,包括:Al.对训练语料标注各词条及各词条的词性;BI.确定各词条在对应词性下的词类;Cl.利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率,其中所述词条在对应词类下的生成概率为在所述训练语料中一个词条以对应词类出现的概率,所述词类间的转移概率为在所述训练语料中前一个词类出现的条件下后一个词类相邻出现的概率;D1.利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型。根据本专利技术之一优选实施例,所述词条包括基本词条或词典词条,其中所述基本词条仅包括以最小粒度划分的词条,所述词典词条包括以多种粒度划分的词条。根据本专利技术之一优选实施例,所述步骤BI包括以下方式中的SI,或者,SI与S2的组合且S2的执行优先级高于SI S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。根据本专利技术之一优选实施例,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。 根据本专利技术之一优选实施例,所述方法进一步包括D11.在所述分词模型中为所述基础词典中的词条标注读音。根据本专利技术之一优选实施例,所述方法进一步包括D12.利用所述标注好的训练语料统计字位在对应词类下的生成概率以得到字位词典,并将所述字位词典添加到所述分词模型,其中所述字位在对应词类下的生成概率为在所述训练语料中字以对应词类出现在词条中一个位置的概率。本专利技术还提供了一种分词的方法,包括:A2.获取输入文本;B2.利用前文所述方法建立的分词模型针对所述文本生成各种切分结果;C2.利用所述分词模型计算所述各种切分结果的得分;D2.选择得分最高的切分结果作为所述输入文本的分词结果并输出。根据本专利技术之一优选实施例,所述步骤C2包括C21.从所述分词模型中查找所述切分结果的所有节点的生成概率和转移概率;C22.将所述切分结果的所有节点的生成概率与转移概率相乘得到所述切分结果的得分。根据本专利技术之一优选实施例,当所述分词模型仅包含基础词典与转移词典时,所述步骤B2中使用所述分词模型的基础词典生成所述各种切分结果;所述步骤C21中从所述分词模型的基础词典查找词条在对应词类下的生成概率以得到所述切分结果的所有节点的生成概率,从所述分词模型的转移词典查找词类间的转移概率以得到所述切分结果的所有节点的转移概率。根据本专利技术之一优选实施例,当所述分词模型包含基础词典、字位词典与转移词典时,所述步骤B2中使用所述分词模型的基础词典与字位词典共同生成所述各种切分结果;所述步骤C21中从所述分词模型的基础词典查找词条在对应词类下的生成概率以得到所述切分结果的词条节点的生成概率,从所述分词模型的字位词典查找字位在对应词类下的生成概率以得到所述切分结果的字位节点的生成概率,从所述分词模型的转移词典查找词类间的转移概率以得到所述切分结果的所有节点的转移概率。根据本专利技术之一优选实施例,当所述得分最高的切分结果中包含所述字位节点时,在所述步骤D2中进一步包括利用所述字位节点的字位信息确定所述得分最高的切分结果中的未登录词的划分,其中所述未登录词为所述分词模型的基础词典中不存在的词。根据本专利技术之一优选实施例,采用基本词条建立所述分词模型,将词典词条作为所述输入文本执行所述分词的方法,得到所述词典词条中可再分割的词条的内部划分;如果采用已知内部划分的词典词条建立的分词模型对输入文本进行分词,则在输出分词结果时,进一步输出分词结果中可再分割的词典词条的内部划分。本专利技术还提供了一种建立分词模型的装置,包括标注单元,用于对训练语料标注各词条及各词条的词性;词类确定单元,用于确定各词条在对应词性下的词类;统计单元,用于利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率,其中所述词条在对应词类下的生成概率为在所述训练语料中一个词条以对应词类出现的概率,所述词类间的转移概率为在所述训练语料中前一个词类出现的条件下后一个词类相邻出现的概率;模型生成单元,用于利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型。根据本专利技术之一优选实施例,所述词条包括基本词条或词典词条,其中所述基本词条仅包括以最小粒度划分的词条,所述词典词条包括以多粒度划分的词条。 根据本专利技术之一优选实施例,所述词类确定单元包括聚类子单元,或者,包括所述聚类子单元与词频统计子单元的组合且所述词频统计子单元的处理优先级高于所述聚类子单元;其中所述聚类子单元,用于根据各词条的聚类特征,对具有相同本文档来自技高网
...

【技术保护点】
一种建立分词模型的方法,其特征在于,所述方法包括:A1.对训练语料标注各词条及各词条的词性;B1.确定各词条在对应词性下的词类;C1.利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率,其中所述词条在对应词类下的生成概率为:在所述训练语料中一个词条以对应词类出现的概率,所述词类间的转移概率为:在所述训练语料中前一个词类出现的条件下后一个词类相邻出现的概率;D1.利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型。

【技术特征摘要】
1.一种建立分词模型的方法,其特征在于,所述方法包括 Al.对训练语料标注各词条及各词条的词性; BI.确定各词条在对应词性下的词类; Cl.利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率,其中所述词条在对应词类下的生成概率为在所述训练语料中一个词条以对应词类出现的概率,所述词类间的转移概率为在所述训练语料中前一个词类出现的条件下后一个词类相邻出现的概率; Dl.利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型。2.根据权利要求I所述的方法,其特征在于,所述词条包括基本词条或词典词条,其中所述基本词条仅包括以最小粒度划分的词条,所述词典词条包括以多种粒度划分的词条。3.根据权利要求I所述的方法,其特征在于,所述步骤BI包括以下方式中的SI,或者,SI与S2的组合且S2的执行优先级高于SI 51.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类; 52.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。4.根据权利要求3所述的方法,其特征在于,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。5.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 Dll.在所述分词模型中为所述基础词典中的词条标注读音。6.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 D12.利用所述标注好的训练语料统计字位在对应词类下的生成概率以得到字位词典,并将所述字位词典添加到所述分词模型,其中所述字位在对应词类下的生成概率为在所述训练语料中字以对应词类出现在词条中一个位置的概率。7.—种分词的方法,其特征在于,所述方法包括 A2.获取输入文本; B2.利用权利要求I至6中任一权项所述方法建立的分词模型针对所述文本生成各种切分结果; C2.利用所述分词模型计算所述各种切分结果的得分; D2.选择得分最高的切分结果作为所述输入文本的分词结果并输出。8.根据权利要求7所述的方法,其特征在于,所述步骤C2包括 C21.从所述分词模型中查找所述切分结果的所有节点的生成概率和转移概率; C22.将所述切分结果的所有节点的生成概率与转移概率相乘得到所述切分结果的得分。9.根据权利要求8所述的方法,其特征在于,当所述分词模型是利用权利要求I至5中任一权项所述方法建立时,所述步骤B2中使用所述分词模型的基础词典生成所述各种切分结果;所述步骤C21中从所述分词模型的基础词典查找词条在对应词类下的生成概率以得到所述切分结果的所有节点的生成概率,从所述分词模型的转移词典查找词类间的转移概率以得到所述切分结果的所有节点的转移概率。10.根据权利要求8所述的方法,其特征在于,当所述分词模型是利用权利要求6所述方法建立时,所述步骤B2中使用所述分词模型的基础词典与字位词典共同生成所述各种切分结果;所述步骤C21中从所述分词模型的基础词典查找词条在对应词类下的生成概率以得到所述切分结果的词条节点的生成概率,从所述分词模型的字位词典查找字位在对应词类下的生成概率以得到所述切分结果的字位节点的生成概率,从所述分词模型的转移词典查找词类间的转移概率以得到所述切分结果的所有节点的转移概率。11.根据权利要求10所述的方法,其特征在于,当所述得分最高的切分结果中包含所述字位节点时,在所述步骤D2中进一步包括利用所述字位节点的字位信息确定所述得分最高的切分结果中的未登录词的划分,其中所述未登录词为所述分词模型的基础词典中不存在的词。12.根据权利要求7所述的方法,其特征在于,采用基本词条建立所述分词模型,将词典词条作为所述输入文本执行所述分词的方法,得到所述词典词条中可再分割的词条的内部划分; 如果采用已知内部划分的词典词条建立的分词模型对输入文本进行分词,则在输出分词结果时,进一步输出分词结果中可再分割的词典词条的内部划分。13.一种建立分词模型的装置,其特征在于,所述装置包括 标注单元,用于对训练语料标注各词条及各词条的词性; 词类确定单元,用于确定各词条在对...

【专利技术属性】
技术研发人员:何径舟吴中勤
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1