当前位置: 首页 > 专利查询>清华大学专利>正文

开放领域新词发现的方法及系统技术方案

技术编号:9143157 阅读:235 留言:0更新日期:2013-09-12 04:41
本发明专利技术提出一种开放领域新词发现的方法及系统。其中,方法包括:接收待处理语料,并对语料进行格式转换和分词处理,以获得多个文本信息;提取多个文本信息的特征信息;判断多个文本信息中一部分文本信息的相邻的文本信息的组合是否为新词;如果是,则对相邻的文本信息进行新词边界标注;根据标注后的多个文本信息和特征信息估计条件随机场模型的参数;根据估计的条件随机场模型的参数对剩余文本信息进行识别,以获得剩余文本信息的新词。根据本发明专利技术实施例的方法,通过对文本信息进行新词边界标注,估计条件随机场模型的参数,并对多个文本信息进行识别以获得多个文本信息中的新词,可以对各种领域的新词进行识别,同时提高了识别的效率。

【技术实现步骤摘要】

【技术保护点】
一种开放领域新词发现的方法,其特征在于,包括以下步骤:接收待处理语料,并对所述语料进行格式转换和分词处理,以获得多个文本信息;提取所述多个文本信息的特征信息;判断所述多个文本信息中一部分文本信息的相邻的文本信息的组合是否为新词;如果是,则对所述相邻的文本信息进行新词边界标注;根据标注后的所述多个文本信息和特征信息估计条件随机场模型的参数;根据估计的所述条件随机场模型的参数对所述多个文本信息中剩余文本信息进行识别,以获得所述多个文本信息中剩余文本信息的新词。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈飞刘奕群马少平张敏金奕江张阔
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1