医疗专用术语无监督聚类方法、装置和系统制造方法及图纸

技术编号:32860221 阅读:14 留言:0更新日期:2022-03-30 19:38
本发明专利技术公开一种专用术语无监督聚类方法、装置和系统,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词

【技术实现步骤摘要】
医疗专用术语无监督聚类方法、装置和系统
[0001]本申请是申请日为2021年8月12日,申请号为CN202110921653.3,专利技术名称为“专用术语无监督聚类方法、装置和系统”的中国专利技术专利申请的分案申请。


[0002]本专利技术涉及人工智能
,应用于专业术语文本智能聚类方向,尤其涉及一种医疗专用术语无监督聚类方法、装置和系统。

技术介绍

[0003]随着互联网技术的普及,越来越多的应用应运而生,各种“互联网+”层出不穷,而人工智能技术也伴随着互联网应用找到了很多应用场景,基于移动互联网技术的智慧服务很多,但这些应用方面的专业性和各种知识的疑难性同时对技术提出了很大挑战。比如各种疾病、化学、医药、珠宝等专业词汇非常多,门类繁杂,有些术语更加难以识别,而这些工作也是整个应用领域中最复杂、占据时间成本最多的部分。

技术实现思路

[0004]针对上述缺陷,本专利技术要解决的技术问题是如何借助人工智能技术对业务专用术语进行聚类和提取实现快速高效地建立专业数据库。
[0005]针对上述缺陷,本专利技术的目的在于提供一种专用术语无监督聚类方法、应用在服务器端,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词

单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词

单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
[0006]优选的,上述预处理包括分词、去重、删除停用词。
[0007]优选的,上述单词

单词语义矩阵S包括多个元素,单词i和单词j,元素的值S
ij
表示了当前元素对应的两个单词i和单词j是否存在语义相似性,S
ij
取值0或1。
[0008]优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
[0009]优选的,上述方法遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素S
ij
为1,否则为0。
[0010]优选的,上述方法计算单词

单词词序关系矩阵W,设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素W
ij
为1,否则为0;当上述滑动窗口滑过整个文本,得到单词

单词词序关系矩阵W。
[0011]优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
[0012]本专利技术提供一种专用术语无监督聚类方法,应用于互联网平台,基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词

单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词

单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
[0013]优选的,上述单词

单词语义矩阵S包括多个元素,单词i和单词j,元素的值S
ij
表示了当前元素对应的两个单词i和单词j是否存在语义相似性,S
ij
取值0或1。
[0014]优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
[0015]优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
[0016]优选的,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。
[0017]优选的,上述互联网平台的预处理包括分词、去重、删除停用词。
[0018]本专利技术提供一种专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平台基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词

单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词

单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
[0019]优选的,对用户上传的文本信息进行分词可以在互联网平台端服务器执行或在后台服务器的数据中心处理系统执行。
[0020]优选的,上述文本信息包括OCR的文字识别和图像识别后的文字输出。
[0021]本专利技术提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
[0022]本专利技术提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
[0023]本专利技术提供一种电子设备,包括:
[0024]处理器;以及
[0025]被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
[0026]基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词

单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词

单词的词序关系矩阵,通过无监
督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
[0027]本专利技术利用语义相似度得到了单词

单词的语义关系矩阵,实现了单词语义信息的利用。通过基于滑动窗口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗专用术语无监督聚类方法,应用在服务器端,基于语义信息和词序信息进行数据的融合处理,对疾病症状结合相关疾病形成对应的数据库,从单词类别的提取到数据的融合应用,自动实现对疾病的映射分类,包括:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词

单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词

单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。所述单词

单词的语义矩阵S包括多个元素,元素的值S
ij
表示了当前元素对应的两个单词i和j是否存在语义相似性,S
ij
取值0或1,遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素S
ij
为1,否则为0。2.根据权利要求1所述的医疗专用术语无监督聚类方法,所述预处理包括分词、去重、删除停用词。3.根据权利要求1所述的医疗专用术语无监督聚类方法,所述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。4.根据权利要求1

3之一所述的方法,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。5.根据权利要求3或4所述的方法,所述预处理包括分词、去重、删除停用词。6.一种医疗专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平...

【专利技术属性】
技术研发人员:陈冠伟
申请(专利权)人:北京好欣晴移动医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1