一种基于统计和规则的特定领域的合成词发现方法技术

技术编号:9170932 阅读:294 留言:0更新日期:2013-09-19 19:27
本发明专利技术属于计算机自然语言处理领域,涉及一种基于统计和规则的特定领域的合成词发现方法。其步骤包括:利用分词系统分词和词性标注,遍历分词结果利用停用词和构词规则过滤,遍历生成原子词的有向图,利用深度遍历排列组合可能的合成词组合并用统计指标和构词规则同时约束,生成合成词候选集供人工筛选,导入合成词进入字典文件供以后使用。本发明专利技术的优点有:建立了原子词的有向图,利用深度遍历自动探寻合成词的边界,可以识别出任意长度的合成词;构词规则便于定制和扩展,有良好的移植性;同时具有较高的准确率和召回率,提高汉语分词的准确度;生成的合成词能够更为精确的概念,这也为中文信息处理的深入研究奠定良好的基础。

【技术实现步骤摘要】

【技术保护点】
一种基于统计和规则的特定领域的合成词发现方法,其特征在于:利用现有的分词系统对领域文本进行原子词切分和词性标注;利用停用词和构词规则过滤,删除不能组成合成词的原子词;正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘毅彭涛韩波邓院林曹鹏
申请(专利权)人:瑞达信息安全产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1