【技术实现步骤摘要】
分词和词性识别方法、装置及电子病历的分析方法、装置
本专利技术涉及自然语言
,特别涉及一种分词和词性识别方法、装置及一种电子病历的分析方法、装置。
技术介绍
随着信息化建设的快速发展,数据呈现爆发式增长,特别是在医院等医疗机构,每天会产生大量数据及医疗记录,且很多重要数据都是以非结构化文本形式存储。对于医院中大量的人口基数所产生的医疗数据,必须有效地进行信息化、结构化,否则将会丢失其中宝贵的信息资源。那么该如何剖析、挖掘病历,转化为能被利用、有价值的“宝藏”呢?目前,随着大数据及人工智能迅速发展,通过医学语料标注及自然语言技术处理,将非结构化文本转化为结构化数据,并可将数据应用于辅助临床决策、风险预测、科研分析等任务中。其中,在将电子病历中的短语进行分词和词性识别的过程中,现有技术一般是利用HMM(隐马尔可夫)算法结合医学词性词库为短语中的各目标词语设置对应的目标词性标注,或者采用纯粹CRF++模型以及深度学习模型BiLSTM+CRF的常用深度学习实体识别框架为短语中的各目标词语设置对应的目标词性标注。但是,在 ...
【技术保护点】
1.一种分词和词性识别方法,其特征在于,包括:/n根据目标电子病历获取待识别短语语料;/n利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;/n利用预先设置的歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;/n利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注;/n其中,所述歧义词库的设置过程包括:/n通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;/n根据投票机制无监督筛选出相似 ...
【技术特征摘要】
1.一种分词和词性识别方法,其特征在于,包括:
根据目标电子病历获取待识别短语语料;
利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;
利用预先设置的歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;
利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注;
其中,所述歧义词库的设置过程包括:
通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;
根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置所述歧义词库。
2.根据权利要求1所述的方法,其特征在于,所述利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语的过程,具体包括:
利用所述电子病历后结构化系统中的分词模型,依据双向最大匹配算法对所述待识别短语语料进行切分,得到候选词语;
利用Viterb动态规划算法依据所述候选词语和所述待识别短语语料进行解码,得到最大概率词语切分结果,确定出所述目标词语。
3.根据权利要求2所述的方法,其特征在于,在所述利用所述电子病历后结构化系统中的分词模型,依据双向最大匹配算法对所述待识别短语语料进行切分,得到候选词语之后,进一步包括:
在得出未登录词时,利用条件随机场算法和所述未登录词对所述待识别短语语料进行切分,得到所述目标词语。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述医学词性词库的设置过程,具体包括:
预先在医学词典中为各医学词条设置对应的词性;
使用TIRE树将所述医学词典中的各所述医学词条和词性对应存储在数据库中,得到所述医学词性词库。
5.一种分词和词性识别装置...
【专利技术属性】
技术研发人员:何国平,王旭英,甄化春,郭亚强,尹伟东,董驰,
申请(专利权)人:医惠科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。