【技术实现步骤摘要】
一种中医分词算法
本专利技术涉及自然语言处理的应用
,具体是一种中医分词算法。
技术介绍
中文的特点是没有类似空格之类显示标示词的边界标志,因此,如何对词进行切分,即中文分词的研究,是中文信息处理的基础与关键。一个成熟的自动分词系统能够为语言的深入研究提供数据支持,也是句法分析、全文检索等复杂信息处理系统的前提。对于一般的文献,中文分词的算法已经比较成熟,已有多种开源中文分词软件,但对于专业领域的文献,中文分词的研究才刚起步。中医医案文献是诊疗过程的记录,是理法方药的具体体现,是继承、学习、研究中医的重要资料,信息含量大,属于专业领域的文献。根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。目前开源的分词对通用领域分词效果尚可,但是对于中医描述,偏古文的分词效果比较差。
技术实现思路
本专利技术的目的在于提供一种中医分词算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种中 ...
【技术保护点】
1.一种中医分词算法,其特征在于,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。/n
【技术特征摘要】
1.一种中医分词算法,其特征在于,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。
2.根据权利要求1所述的一种中医分词算法,其特征在于,在完成原子切分的同时还需要完成大小写、简繁体、全角半角的规范。
3.根据权利要求1所述的一种中医分词算法,其特征在于,所述语料库是基于实际使用中真实出现过的语言...
【专利技术属性】
技术研发人员:安静梅,张凯文,钱小菲,魏宇涛,
申请(专利权)人:上海国民集团健康科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。