基于表示学习的医学新词发现处理方法技术

技术编号：27772249 阅读：16 留言：0更新日期：2021-03-23 12:53

本发明专利技术公开了基于表示学习的医学新词发现处理方法，S10，原始语料预处理；S20，分词处理；S30，频繁n‑gram挖掘；S40，n‑gram词串剪枝。本发明专利技术基于词向量表征的n‑gram模型，同时，采用融合文本描述的Skip‑gram方法表征词向量，以提升词向量表征的准确度，解决医学领域新词发现的挑战，继而针对新发疾病提出相应的预防措施和治疗方案，具有现实意义。

全部详细技术资料下载

【技术实现步骤摘要】
基于表示学习的医学新词发现处理方法
本专利技术属于语言处理
，涉及一种基于表示学习的医学新词发现处理方法。
技术介绍
近年来，随着人工智能技术的发展，基于知识图谱的认知智能的应用广泛，各类应用(包括数据分析、智慧搜索、智能推荐、自然人机交互和决策支持)都对知识图谱技术提出需求。知识图谱描述的是现实世界中实体间的关系，知识表示是对现实世界的一种抽象表达。以在医学领域的应用为例，知识图谱是从医学数据中提炼信息并加以管理、共享及应用，这是推进医学智能化的关键问题，是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。具体来说，通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素，选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接，增强知识库内部的逻辑性和表达能力，并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识；借助知识推理，推断出缺失事实，自动完成疾病诊断与治疗；质量评估则是保障数据的重要手段，提高医学知识图谱的可信度和准确度。知识表示学习是近年来的研究热点，知识表示学习目的是将研究对象的语义信息表示为低维稠密实值向量，主要面向知识图谱中的实体和关系进行表示学习目前的表示学习模型可分为三类：基于语义匹配、基于距离变换、基于融合多源信息。TransE模型作为距离变换模型的代表，将知识库中的关系看作实体间的某种平移向量。为解决TransE模型在处理复杂关系时的局限性，TransH模型提出让一个实体在不同的关系下拥有不同的表示。T...

【技术保护点】
1.基于表示学习的医学新词发现处理方法，其特征在于，包括以下步骤：/nS10，原始语料预处理；/nS20，分词处理；/nS30，频繁n-gram挖掘；/nS40，n-gram词串剪枝。/n

【技术特征摘要】
1.基于表示学习的医学新词发现处理方法，其特征在于，包括以下步骤：
S10，原始语料预处理；
S20，分词处理；
S30，频繁n-gram挖掘；
S40，n-gram词串剪枝。

2.根据权利要求1所述的方法，其特征在于，所述原始语料预处理，为对原始语料中的语句进行预处理，通过句、逗号或换行符，将语句简单划分成短句子集合。

3.根据权利要求2所述的方法，其特征在于，所述分词处理，为遍历短句，进行分词处理，分词之后形成一个有序词列。

4.根据权利要求3所述的方法，其特征在于，所述频繁n-gram挖掘，包括以下步骤：
S31，设定频率阈值，第一遍扫描数据集T，在第一次扫描结束后找出所有出现频率大于阈值的n元词串，扫描的同时记录下所有这些n元词串的位置索引；
S32，进行第二遍扫描，只扫描上一次扫描结果词所在的词序列，并且只根据上一次扫描结果记录的位置索引前后扩张一个词，探测n+1元词串是否满足要求；
S33，重复S32，最终得到出现频率高于阈值的nmax元词串，得...

【专利技术属性】
技术研发人员：张继勇，陈浩翔，
申请(专利权)人：浙江汉德瑞智能科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人