一种基于大规模语料提词方法和装置制造方法及图纸

技术编号:14014720 阅读:89 留言:0更新日期:2016-11-17 20:28
本发明专利技术提供一种基于大规模语料的提词方法及装置,包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。在中文没有标准词定义和划分的情况下,实现了计算机系统在大规模语料中有效识别并提取词。

【技术实现步骤摘要】

本专利技术涉及语言分析领域,特别是涉及一种基于大规模语料提词方法和装置
技术介绍
在中文资料的自然语言处理中,经常需要从语料中提取词。但是在中文文本处理领域,对词的定义一直含糊不清,什么样的单字或者单字的组合可以作为一个词,目前仍没有一个公认的、权威的标准。中文提词需要在没有标准词库的情况下,从语料中筛选出最可能成词的文本片段,主要应用于从语料中发现词。在中文没有标准词定义和划分的情况下,以什么标准定义词是从语料中提取词的关键。计算机对于处理中文提词的关键是让计算机系统如何从汉语文本语料中发现词,并将它们提取出来。中文的字是记录语言的符号,而词是由语素组成的,是能够独立运用的最小的语言单位。但是汉语这种孤立语的文本,词与词之间没有任何空格之类的显式标志指示词的边界。因此,中文提词问题成为计算机处理孤立语时面临的一个重要工作。因此,如何构建一种基于大规模语料提词方法和装置成为亟待解决的技术问题。
技术实现思路
本专利技术实施例提供一种基于大规模语料提词方法和装置,用以解决现有技术中无法从大规模语料中有效识别并提取词的缺陷,实现计算机系统在大规模语料中有效识别并提取词。为了解决上述问题,本专利技术公开了一种基于大规模语料的提词方法,包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。本专利技术所述的方法,其中,所述统计候选词的凝合度是通过计算语料中候选词的字间信息熵和词频获得。本专利技术所述的方法,其中,所述候选词的凝合度 T = 1 1 + m a x { S i ′ S i + 1 ′ ′本文档来自技高网...
一种基于大规模语料提词方法和装置

【技术保护点】
一种基于大规模语料的提词方法,其特征在于包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。

【技术特征摘要】
1.一种基于大规模语料的提词方法,其特征在于包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。2.根据权利要求1所述的方法,其特征在于:所述统计候选词的凝合度是通过计算语料中候选词的字间信息熵和词频获得。3.根据权利要求2所述的方法,其特征在于:所述候选词的凝合度 T = 1 1 ...

【专利技术属性】
技术研发人员:曹骥王富田李健张连毅武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1