【技术实现步骤摘要】
一种融合部首信息的医疗领域因果关系抽取方法
[0001]本专利技术涉及医疗领域因果关系抽取,尤其涉及一种融合部首信息的医疗领域因果关系抽取方法。
技术介绍
[0002]目前,医疗领域的信息化建设稳步开展,现代化的医疗信息系统已经积累了海量医疗数据。随着数据的不断积累,利用自然语言处理技术和深度学习的方法挖掘医疗领域文本数据中蕴含的丰富信息,已经成为医学领域和人工智能领域交叉研究的热点。医疗领域文本数据中蕴含着大量医疗活动的记录,包含所患疾病、药物、检查和治疗结果等。这些信息是重要的临床数据,对其进行精确高效地分析和挖掘,能给建立医学知识库、构建临床诊疗系统等提供理论和技术支持。但是,医疗领域文本数据与传统的文本有许多不同的特征,如包含大量英文实体名、语义与部首高度相关等特性,这些特性给因果关系抽取来了新的挑战。此时,就需要一个能融合部首信息、丰富文本语义信息的因果关系抽取方法。
[0003]目前,人们对部首信息的研究主要集中在命名实体识别领域。汉字具有单字可成词的特点,且汉字的偏旁部首往往蕴含着重要的信息。对部首信息 ...
【技术保护点】
【技术特征摘要】
1.一种融合部首信息的医疗领域因果关系抽取方法,其特征在于包括如下步骤:步骤1:数据获取。获取医疗领域文本数据集合D={D1,D2...D
n
},D
i
表示第i个文本,1≤i≤n,n为集合D中的文本总数;步骤2:对获取的文本数据进行预处理,其基本步骤如下:步骤2.1:去除文本中的停用词、网页标签等,进行分词;步骤2.2:将文本提取成结构化数据,装入数据库;步骤3:将文本数据中的英文专业术语转化为中文,其基本步骤如下:步骤3.1:利用ASCII码值定位数据集中的英文专业术语;步骤3.2:利用谷歌翻译接口将英文专业术语转化为中文,得到仅含中文字符的数据集;步骤4:部首特征获取,其基本步骤如下:步骤4.1:通过查询在线新华字典,获取数据集中所有字符的部首,对于没有部首的汉字,将字符本身看作词;步骤4.2:将部首看作词,作为Word2Vec架构的输入,对部首进行增量训练,得到部首特征向量表示;步骤5:融合部首信息的医疗领域因果关系抽取,其基本步骤如下:步骤5.1:输入层,对于医疗领域原始文本数据,将句子输入到BERT模型中获取字符级特征,同时将部首输入到Word2Vec中进行增量训练,得到部首特征表示;步骤5.2:接收字符特征与部首特征,并通过查找嵌入字典输出两个嵌入矩阵,将字符与部首的向量维数设为相同大小,这样,一个中文...
【专利技术属性】
技术研发人员:李晓庆,朱广丽,张顺香,吴厚月,许鑫,苏明星,李健,黄菊,魏苏波,孙争艳,张镇江,赵彤,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。