一种中医分词算法制造技术

技术编号：24457844 阅读：28 留言：0更新日期：2020-06-10 16:05

本发明专利技术公开了一种中医分词算法，具体步骤如下：首先是对中医医案的文本进行原子切分，其次引入中医领域词典和语料库完成N‑最短路径的粗切分以覆盖尽可能多的歧义，然后通过多层隐马模型对未登录词进行识别，接着用基于类的隐马模型进行全局最优分词，最后对分词结果进行词性标注，本发明专利技术打破中医领域分词效果差的瓶颈，为健康领域的智能对话和中医知识图谱，中医辅助诊疗系统奠定基础，提升基础语义组件的效果。

A Chinese medicine segmentation algorithm

全部详细技术资料下载

【技术实现步骤摘要】
一种中医分词算法
本专利技术涉及自然语言处理的应用
，具体是一种中医分词算法。
技术介绍
中文的特点是没有类似空格之类显示标示词的边界标志，因此，如何对词进行切分，即中文分词的研究，是中文信息处理的基础与关键。一个成熟的自动分词系统能够为语言的深入研究提供数据支持，也是句法分析、全文检索等复杂信息处理系统的前提。对于一般的文献，中文分词的算法已经比较成熟，已有多种开源中文分词软件，但对于专业领域的文献，中文分词的研究才刚起步。中医医案文献是诊疗过程的记录，是理法方药的具体体现，是继承、学习、研究中医的重要资料，信息含量大，属于专业领域的文献。根据词组的统计，就会发现两个相邻的字出现的频率最多，那么这个词就很重要。就可以作为用户提供字符串中的分隔符，这样来分词。目前开源的分词对通用领域分词效果尚可，但是对于中医描述，偏古文的分词效果比较差。
技术实现思路
本专利技术的目的在于提供一种中医分词算法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种中...

【技术保护点】
1.一种中医分词算法，其特征在于，具体步骤如下：首先是对中医医案的文本进行原子切分，其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义，然后通过多层隐马模型对未登录词进行识别，接着用基于类的隐马模型进行全局最优分词，最后对分词结果进行词性标注。/n

【技术特征摘要】
1.一种中医分词算法，其特征在于，具体步骤如下：首先是对中医医案的文本进行原子切分，其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义，然后通过多层隐马模型对未登录词进行识别，接着用基于类的隐马模型进行全局最优分词，最后对分词结果进行词性标注。

2.根据权利要求1所述的一种中医分词算法，其特征在于，在完成原子切分的同时还需要完成大小写、简繁体、全角半角的规范。

3.根据权利要求1所述的一种中医分词算法，其特征在于，所述语料库是基于实际使用中真实出现过的语言...

【专利技术属性】
技术研发人员：安静梅，张凯文，钱小菲，魏宇涛，
申请(专利权)人：上海国民集团健康科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人