【技术实现步骤摘要】
【技术保护点】
一种基于统计和规则的特定领域的合成词发现方法,其特征在于:利用现有的分词系统对领域文本进行原子词切分和词性标注;利用停用词和构词规则过滤,删除不能组成合成词的原子词;正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘毅,彭涛,韩波,邓院林,曹鹏,
申请(专利权)人:瑞达信息安全产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。