一种中文复合词的提取方法及提取系统技术方案

技术编号:2830288 阅读:242 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种中文复合词的提取方法,该方法包括:获取预置的复合词集合与待处理的文本;间隔所述复合词集合与所述文本中的各词语,分别统计上述各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。还包括:将包含不具有实质意义词语的复合词过滤掉,计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词,将提取的复合词添加到所述复合词集合中。同时,本发明专利技术还提供一种中文复合词的提取系统。本发明专利技术能够提高复合词提取的召回率和准确性。

【技术实现步骤摘要】

本专利技术涉及中文信息提取
,特别是涉及一种中文复合词的提取方法及提取系统
技术介绍
中文信息提取技术是把中文文本里包含的信息进行结构化处理,变成表格式的组织形式。在提取过程中,输入原始中文文本,该中文文本中的各信息点按一定的规则被提取出来,以统一的形式集成在一起,再以固定格式输出。中文复合词提取技术是中文信息提取技术的一种,它是提取出常用的两个及两个以上的中文词语构成的语义单元。 在中文信息处理中,复合词有非常广阔的应用前景,复合词能够增大文本分析粒度,在大规模文本检索中,使用复合词索引的系统比使用普通词语作为索引的系统,在索引性能上有显著的提高,并且复合词相对于普通词语的歧义更小,在机器翻译中使用复合词可以使翻译更加准确。正因为复合词具有以上优点,将中文复合词提取技术应用到竞价广告、窄告系统的用户关键词推荐中,可以提高相关系统的分析粒度和翻译的准确性,具有很强的商业应用前景。 目前,现有的中文复合词提取技术是将待处理的文本切段整理,建立索引,判断复合词的稳定性,复合词汇总判别后再提取。具体步骤参阅图1。 步骤S101、将待处理的文本进行切段整理。对待处理的文本按预置的方式切段。预置的方式可为按一定字数切段,或按固定的标点符号切段。将切段后的文本进行过滤整理,过滤掉不可能组成复合词的词语,如虚词、代词等,再将完成切段整理的文本存入相应的数据库。 步骤S102、建立索引。设计索引的数据结构,按该数据结构存放切段整理的文本。 步骤S103、使用文本中上下文熵判断词语组合左右边界的稳定性,使用共现概率判断词语组合的紧密程度。 步骤S104、根据词语组合的出现频率、稳定性、紧密程度,综合判断该组合词语是否是一个复合词,如是,则提取该复合词;如不是,则不提取。 在上述中文复合词提取技术中,对待处理的文本进行切段整理,这可能将一些复合词切断,使后续过程无法识别该复合词,造成复合词的召回率较低。在判断词语组合是否为复合词时,采用出现频率,稳定性、紧密程度三个相关参考量进行判断,但是,待处理的文本不同,复合词在该文本中的上述三个参考量有较大的差距,设置固定的参考值,会使复合词的提取存在较大的偶然性,影响复合词提取的准确率。
技术实现思路
本专利技术所要解决的技术问题是提供一种中文复合词的提取方法,该方法能够提高复合词提取的召回率和准确性。 本专利技术的另一个目的是提供一种中文复合词的提取系统,该系统能够提高复合词提取的召回率和准确性。 本专利技术公开一种中文复合词的提取方法,该方法包括获取预置的复合词集合与待处理的文本;分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。 优选的,提取该词语组合作为复合词之前,还包括将包含不具有实质意义词语的复合词过滤掉。 优选的,提取该词语组合作为复合词之前,还包括计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。 优选的,还包括将提取的复合词添加到所述复合词集合中。 优选的,获取预置的复合词集合与待处理的文本之后,还包括间隔所述复合词集合和所述文本中各词语;将所述文本中的各词语分行断开。 优选的,依据概率数据确定语句中最佳的词语组合具体为根据语句中的各词语对应的概率数据建立隐马尔可夫模型,在隐马尔可夫模型中计算各词语间的最优路径;所述最优路径对应的词语组合为最佳的词语组合。 本专利技术还公开一种中文复合词的提取系统,包括获取单元、统计单元、标注单元、确定单元、及提取单元所述获取单元,用于获取预置的复合词集合与待处理的文本;所述统计单元,用于分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;所述标注单元,用于为所述文本语句中的各词语标注其对应的概率数据;所述确定单元,用于依据概率数据确定语句中最佳的词语组合;所述提取单元,用于提取该词语组合作为复合词。 优选的,还包括过滤单元,用于将包含不具有实质意义词语的复合词过滤掉。选择单元,用于计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。 优选的,还包括间隔单元,用于间隔所述复合词集合与所述文本中的各词语,并将所述文本中的各词语分行断开。 优选的,还包括添加单元,用于将提取的复合词添加到所述复合词集合中。 与现有技术相比,本专利技术具有以下优点 本专利技术将借助预置的复合词集合,获取到该复合词集合中的复合词结构信息,再利用该复合词结构信息在文本中提取与其结构相似的复合词。这样根据复合词的组成结构信息提取的复合词,相对于现有技术,不局限于复合词的出现频率、稳定性、和紧密性,不需用户设置相关参考值进行提取,并且不受文本的局限,避免提取过程中偶然性,提取复合词的召回率和准确率相对较高。 附图说明 图1现有的中文复合词提取方法流程图; 图2为本专利技术中文复合词提取方法流程图; 图3为本专利技术训练语料组成示意图; 图4为本专利技术另一种中文复合词提取方法流程图; 图5为本专利技术中文复合词提取系统示意图; 图6为本专利技术另一种中文复合词提取系统示意图。 具体实施例方式 为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。 本专利技术根据用户对于不同种类的复合词的需求,预置一个小规模的复合词集合,该复合词集合包含用户所需的复合词。本专利技术对待处理的文本和复合词集合中词语进行分词、切分等预处理,成为可方便识别各词语的训练文本。统计上述各词语在复合词集合的各复合词构成中不同位置的概率数据,再为待处理文本的语句中各词语标注其对应的概率数据,并建立相应的数据模型,分析该数据模型,得到语句中最佳的词语组合,提取该词语组合作为复合词。具体步骤参阅图2。 步骤S201、获取预置的复合词集合与待处理的文本。复合词集合包含一定数量的用户所需类型的复合词。复合词为两个或两个以上具有实质意义的词语组成的语义单元。例如,“安全生产”,“中文信息处理”,“和谐理念”等。先将待处理文本处理成纯文本,即只包含中文词语的文本。待处理文本不是纯文本时,进行去标签、删除连接、去除非中文词语等动作,获得纯文本。 步骤S202、间隔复合词集合与文本中的各词语,作为训练语料。对复合词集合中复合词的各词语只需间隔开,对文本中的各词语需间隔开后,再分行切断,然后将这些词语合并在一起组成训练语料,具体过程参阅图3。 将复合词集合中复合词的各词语以空格间隔,整个复合词以空格结束,处理后的格式为每行一个复合词。例如,复合词“安全生产”,在分词后的格式为“安全生产”,复合词“中文信息处理”,在分词后的格式为“中文信息处理”。 在文本中的每个词语后面添加一个空格,将各词语间隔开,再将各词语分行。例如,文本中的语句“具有强大功能的滑盖手机”间隔后为“具有强大功能的滑盖手机”,分行后变成 具有 强大 功能 的 滑 盖 手机 将上述间隔处理后的所有词语合并,作为训练语料。 步骤S203、统计上述各词语在复合词集合的各复合词构成中不同位置的概率数据。一个词语在复合词中的位置可以分为四种情况不组成复合词,即复合词中不包含该本文档来自技高网
...

【技术保护点】
一种中文复合词的提取方法,其特征在于,该方法包括:获取预置的复合词集合与待处理的文本;分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率 数据确定语句中最佳的词语组合,提取该词语组合作为复合词。

【技术特征摘要】
1.一种中文复合词的提取方法,其特征在于,该方法包括获取预置的复合词集合与待处理的文本;分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。2.如权利要求1所述的提取方法,其特征在于,获取预置的复合词集合与待处理的文本之后,还包括间隔所述复合词集合和所述文本中各词语;将所述文本中的各词语分行断开。3.如权利要求1或2所述的提取方法,其特征在于,依据概率数据确定语句中最佳的词语组合具体为根据语句中的各词语对应的概率数据建立隐马尔可夫模型,在隐马尔可夫模型中计算各词语间的最优路径;所述最优路径对应的词语组合为最佳的词语组合。4.如权利要求3所述的提取方法,其特征在于,提取该词语组合作为复合词之前,还包括将包含不具有实质意义词语的复合词过滤掉。5.如权利要求4所述的提取方法,其特征在于,提取该词语组合作为复合词之前,还包括计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。...

【专利技术属性】
技术研发人员:何慧刘怀军朱鉴
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1