一种中医分词算法制造技术

技术编号:24457844 阅读:28 留言:0更新日期:2020-06-10 16:05
本发明专利技术公开了一种中医分词算法,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N‑最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注,本发明专利技术打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗系统奠定基础,提升基础语义组件的效果。

A Chinese medicine segmentation algorithm

【技术实现步骤摘要】
一种中医分词算法
本专利技术涉及自然语言处理的应用
,具体是一种中医分词算法。
技术介绍
中文的特点是没有类似空格之类显示标示词的边界标志,因此,如何对词进行切分,即中文分词的研究,是中文信息处理的基础与关键。一个成熟的自动分词系统能够为语言的深入研究提供数据支持,也是句法分析、全文检索等复杂信息处理系统的前提。对于一般的文献,中文分词的算法已经比较成熟,已有多种开源中文分词软件,但对于专业领域的文献,中文分词的研究才刚起步。中医医案文献是诊疗过程的记录,是理法方药的具体体现,是继承、学习、研究中医的重要资料,信息含量大,属于专业领域的文献。根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。目前开源的分词对通用领域分词效果尚可,但是对于中医描述,偏古文的分词效果比较差。
技术实现思路
本专利技术的目的在于提供一种中医分词算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种中医分词算法,具体步骤本文档来自技高网...

【技术保护点】
1.一种中医分词算法,其特征在于,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。/n

【技术特征摘要】
1.一种中医分词算法,其特征在于,具体步骤如下:首先是对中医医案的文本进行原子切分,其次引入中医领域词典和语料库完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注。


2.根据权利要求1所述的一种中医分词算法,其特征在于,在完成原子切分的同时还需要完成大小写、简繁体、全角半角的规范。


3.根据权利要求1所述的一种中医分词算法,其特征在于,所述语料库是基于实际使用中真实出现过的语言...

【专利技术属性】
技术研发人员:安静梅张凯文钱小菲魏宇涛
申请(专利权)人:上海国民集团健康科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1