一种短文本的新词发现方法和系统技术方案

技术编号:2918400 阅读:242 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种从短文本中发现新词的方法,包括以下步骤:获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数量和前多条精确搜索结果记录;利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明专利技术所述方法能够发现短文本中出现的新词,即便该新词在短文本中就只出现一次,同时新词发现的准确率也很高。

【技术实现步骤摘要】

本专利技术涉及一种文本信息处理领域,特别是涉及一种从短文本中发现新词 的方法和系统。
技术介绍
在自然语言处理或计算语言学中,新词是指以前从来没有出现过的词汇, 或者是以前出现过的词汇的新用法。新词一般在词典中没有收录,因此也有不 少人把新词等同于未登录词。随着时代的进歩和经济的发展,在人们日常生活的各方各面都不断涌现出 大量的新词,尤其是随着互联网在中国的日益普及,大量网络新词层出不穷, 日常生活中产生的新词也得以更快的传播。据报道,我国每年至少出现汉语新词或新用法1000个以上。由于移动通信在中国的普及,手机短信在中国成了 男女老少都喜欢的交流方式,在手机短信中也产生了很多新词语、新说法;即时通信软件,如腾讯QQ、微软MSN、雅虎通、Google Talk、 AOL的ICQ等,都拥有庞大的用户群,每时每刻都有无数即时消息从互联网发送;在线聊天室、 BBS等也都有集聚了众多的眼球……有大量新词是通过手机短信、即时消息、 BBS等创造并传播的,从这些短文本中发现新词也具有巨大的商业价值。现有技术的一种利用搜索引擎的用户搜索日志来发现新词的方法,在大量 用户提交的搜索关键词中统计各关键词的出现频次,如果大于某个预先设定的 阈值,则作为新词输出。该技术能够比较准确、实时地发现互联网的新词,但 是该方法所需要的搜索日志一般只有商用搜索引擎公司可以获得,一般用户根 本无法使用该方法。也有学者提出了 "有意义串"的概念,有意义串一般认为是具有特定语义, 能够独立使用的语言单位,其很大一部分就是新词。现有技术中通过考査字符串的稳定性、独立性和完整性三个方面来判断字 符串是否是有意义串。有意义串的稳定性是指一个有意义串应该具有一定的使 用频次,不是偶尔出现的字符串;有意义串的独立性是指有意义串应该使用灵 活,可以在很多语用环境中出现;有意义串的完整性是指有意义串应具有完整 的语义。现有技术中,判断一个字符串是否是有意义的, 一般也可以从稳定性、独 立性和完整性三个方面考査。首先统计字符串在语料中的出现频次,如果字符 串的出现频次大于一定阈值, 一般认为字符串是稳定的;再统计字符串在语料 中所有出现位置左侧和右侧不同的字符或词语的数量,如果左右两侧不同的字 符或词语数量大于一定阈值,则认为字符串是独立的;然后判断字符串是否是 完整的,即当且仅当不存在任何字符串B,字符串A是字符串B的子串,且 字符串A的出现频次也大于预先设定的阈值,则认为字符串A是完整的。但是,基于字符串的稳定性、独立性和完整性三个方面判断字符串是否为 有意义串或新词的方法,只适合于从大规模语料中发现新词。当给定的语料只是一个较短的文本,如一篇文章, 一个段落,甚至只有一 个句子, 一条手机短信或一条即时消息时, 一般情况下该短文本中很难出现频 次较高的字符串。而现有技术基于搜索日志的新词发现方法需要大量的搜索日 志,基于字符串稳定性、独立性和完整性的新词发现方法也需要大规模的语料, 这些新词发现方法几乎都不可能发现单个短文本中的新词。例如,如果用户只 给定了一个句子"今年的足球宝贝真漂亮!",假定词典中已经包含词语今年、 的、足球、宝贝、真、漂亮,现有方法不能从单独的这个句子中发现"足球宝 贝"是一个新词。
技术实现思路
本专利技术所要解决的技术问题在于提供一种短文本的新词发现方法和系统, 能够有效地从很短的文本中发现新词。为了解决上述问题,本专利技术提供了一种短文本的新词发现方法,包括以下 步骤步骤A,获取短文本的所有连续的多个字符或词语的组合,构成候选新词隹厶.朱口 ;步骤B,利用设置的系统词典库,过滤并确定符合预先设定规则的候选新词;步骤C,将候选新词作为査询关键词,在搜索引擎中搜索,并由此统计返 回的搜索结果数量以及搜索结果记录;歩骤D,根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及搜 索结果记录,判断候选新词是否为最终新词。所述搜索为精确搜索,或者精确搜索和模糊搜索; 所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量; 所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。 所述判断候选新词是否为最终新词,包括以下步骤中的一个或者一个以上步骤的组合歩骤D1,如果精确搜索结果数量大于第一预定阈值,则将候选新词作为 最终新词输出;步骤D2,如果精确搜索结果数与模糊搜索结果数的比值大于第二预定阈 值,则将候选新词作为最终新词输出;步骤D3,如果在前多条精确搜索结果记录中候选新词左右侧不同的字符 或词语数量均大于第三预定阈值,则将候选新词作为最终新词输出。所述歩骤A还可以包括下列步骤步骤A1,设定一预定阀值,短文本中所有连续多个字符或者词语组合所 包含的字符或词语长度小于所述预定阈值。步骤A2,将所述组合限制在一个句子, 一个分句或所有以标点符号隔开 的句子单元中。所述步骤B可以包括下列步骤步骤B1,在确定符合预先设定规则的候选新词时,如果一个候选新词在 系统词典库出现,则去掉该候选新词;步骤B2,在确定符合预先设定规则的候选新词时,去掉以特定字符或词 语开始的候选新词。为实现本专利技术还提供一种短文本的新词发现系统,包括获取模块,过滤模 块、搜索模块、判断模块,其中-所述获取模块,获取短文本的所有连续的多个字符或词语的组合,构成候 选新词集合;所述过滤模块,用于利用设置的系统词典库,过滤并确定符合预先设定规则的候选新词;所述搜索模块,用于将候选新词作为査询关键词,在搜索引擎中搜索,并由此统计返回的搜索结果数量以及搜索结果记录;所述判断模块,用于根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及搜索结果记录,判断候选新词是否为最终新词。 所述搜索为精确搜索,或者精确搜索和模糊搜索; 所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量; 所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。 所述判断模块,包括第一判断模块,第二判断模块,第三判断模块,其中 所述第一判断模块,用于当精确搜索结果数量大于第一预定阈值,则将候选新词作为最终新词输出;所述第二判断模块,用于当精确搜索结果数与模糊搜索结果数的比值大于第二预定阈值,则将候选新词作为最终新词输出;所述第三判断模块,用于当前多条精确搜索结果记录中候选新词左右侧不同的字符或词语数量均大于第三预定阈值,则将候选新词作为最终新词输出。 所述的阀值分别通过预先设定而得到,或者通过语料训练而得到。 本专利技术的短文本的新词发现方法和系统与现有技术相比,具有以下优点1、采用计算机自动处理,能够有效发现短文本中的新词。2、能够有效发现那些在语料中出现频次非常低,甚至只出现一次的新词。附图说明图1是本专利技术短文本的新词发现方法的流程示意图; 图2是本专利技术短文本的新词发现系统的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本专利技术的一种短文本的新词发现方法和系统进行进一步详细说明。应 当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术的核心思想在于,当文本规模非常小,甚至只有一个句子时,能够 有效发现短文本中的新词。并且,本专利技术用搜索引擎分别精确搜索和模糊搜索短文本中的候选新词,这相当于使用了搜索引擎庞大的数据库作为语料,本文档来自技高网
...

【技术保护点】
一种短文本的新词发现方法,其特征在于,包括以下步骤:步骤A,获取短文本的所有连续的多个字符或词语的组合,构成候选新词集合;步骤B,利用设置的系统词典库,过滤并确定符合预先设定规则的候选新词;步骤C,将候选新词作为查询 关键词,在搜索引擎中搜索,并由此统计返回的搜索结果以及搜索结果记录;步骤D,根据搜索模块得到的精确搜索结果数和模糊搜索结果数,以及精确搜索结果记录,判断候选新词是否为最终新词。

【技术特征摘要】

【专利技术属性】
技术研发人员:龚才春黄玉兰
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1