医疗专用术语无监督聚类方法、装置和系统制造方法及图纸

技术编号：32860221 阅读：14 留言：0更新日期：2022-03-30 19:38

本发明专利技术公开一种专用术语无监督聚类方法、装置和系统，对文本进行预处理，建立业务专用术语词汇集合，所述集合包括词汇的语义信息和词序信息，词汇由单词组成，建立单词

全部详细技术资料下载

【技术实现步骤摘要】
医疗专用术语无监督聚类方法、装置和系统
[0001]本申请是申请日为2021年8月12日，申请号为CN202110921653.3，专利技术名称为“专用术语无监督聚类方法、装置和系统”的中国专利技术专利申请的分案申请。

[0002]本专利技术涉及人工智能
，应用于专业术语文本智能聚类方向，尤其涉及一种医疗专用术语无监督聚类方法、装置和系统。

技术介绍

[0003]随着互联网技术的普及，越来越多的应用应运而生，各种“互联网+”层出不穷，而人工智能技术也伴随着互联网应用找到了很多应用场景，基于移动互联网技术的智慧服务很多，但这些应用方面的专业性和各种知识的疑难性同时对技术提出了很大挑战。比如各种疾病、化学、医药、珠宝等专业词汇非常多，门类繁杂，有些术语更加难以识别，而这些工作也是整个应用领域中最复杂、占据时间成本最多的部分。

技术实现思路

[0004]针对上述缺陷，本专利技术要解决的技术问题是如何借助人工智能技术对业务专用术语进行聚类和提取实现快速高效地建立专业数据库。
[0005]针对上述缺陷，本专利技术的目的在于提供一种专用术语无监督聚类方法、应用在服务器端，对文本进行预处理，建立业务专用术语词汇集合，所述集合包括词汇的语义信息和词序信息，词汇由单词组成，建立单词
‑
单词的语义矩阵，对语义矩阵进行模型预训练得到语义关系矩阵，计算单词
‑
单词的词序关系矩阵，通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类，将单词的语义信息和词序信息通过关系...

【技术保护点】

【技术特征摘要】
1.一种医疗专用术语无监督聚类方法，应用在服务器端，基于语义信息和词序信息进行数据的融合处理，对疾病症状结合相关疾病形成对应的数据库，从单词类别的提取到数据的融合应用，自动实现对疾病的映射分类，包括：对文本进行预处理，建立业务专用术语词汇集合，所述集合包括词汇的语义信息和词序信息，词汇由单词组成，建立单词
‑
单词的语义矩阵，对语义矩阵进行模型预训练得到语义关系矩阵，计算单词
‑
单词的词序关系矩阵，通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类，将单词的语义信息和词序信息通过关系矩阵的方式进行提取，利用IRM算法对两个关系矩阵进行无监督分类，完成单词类别的提取。所述单词
‑
单词的语义矩阵S包括多个元素，元素的值S
ij
表示了当前元素对应的两个单词i和j是否存在语义相似性，S
ij
取值0或1，遍历单词集合中的两两单词i和j，计算当前两个单词的余弦相似度，如果当前相似度大于90％，则这两个单词对应的矩阵元素S
ij
为1，否则为0。2.根据权利要求1所述的医疗专用术语无监督聚类方法，所述预处理包括分词、去重、删除停用词。3.根据权利要求1所述的医疗专用术语无监督聚类方法，所述模型预训练采用BERT模型训练得到语义关系矩阵，用BERT模型倒数第二层的输出隐向量的平均值作为编码向量，对单词集合中的每个单词进行编码。4.根据权利要求1
‑
3之一所述的方法，还包括基于提取的单词类别进行数据融合和二次加工，并将信息同步给云端数据库。5.根据权利要求3或4所述的方法，所述预处理包括分词、去重、删除停用词。6.一种医疗专用术语无监督聚类系统，包括至少一终端设备、至少一互联网平台以及至少一服务器，所述终端设备采集用户上传的文本信息，所述互联网平...

【专利技术属性】
技术研发人员：陈冠伟，
申请(专利权)人：北京好欣晴移动医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人