一种用于医疗文本的聚类方法、系统及装置制造方法及图纸

技术编号：32365123 阅读：26 留言：0更新日期：2022-02-20 03:38

本发明专利技术实施例是关于一种用于医疗文本的聚类方法、装置及系统，涉及文本数据挖掘技术领域，该方法包括：获取医疗网站问答部分的医疗标签和文本；通过标签文本来更新分词词库，用更新后的词库对医疗文本进行分词并过滤停用词来构建训练语料；利用所述训练模型对语料进行训练，得到训练后的词向量；获取待聚类医疗文本，对文本进行分词和过滤停用词；用所述聚类模型对待聚类医疗文本进行聚类得到聚类结果。本发明专利技术可以实现对医疗文本进行更加准确和具体的分类，还可以自动确定聚类后的类别数量。量。量。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于医疗文本的聚类方法、系统及装置

[0001]本专利技术涉及文本数据挖掘
，具体涉及一种用于医疗文本的聚类方法、系统及装置。

技术介绍

[0002]在互联网数据大爆炸的时代，各行各业的文本数据都在不断增长。网络中的医疗文本大多以半结构化和非结构化的形式出现，医疗工作者在面对海量的医疗文本时，使用人工去对文本进行处理、分类费时费力。在这种背景下，利用聚类技术对文本数据进行简化分析，将文本分门别类便于医疗工作者在海量的网络信息中查找有用的信息，能够有效的提高医疗工作人员的工作效率。
[0003]在医疗领域中，医疗文本具体又可以分为多种类别，其中包括：症状、治疗、检查、病因、护理、预防等等。网络中的大量文章中的类别是鱼龙混杂的，要具体对大量文本进行分类具有极其重要的现实意义。分类明确的文本可以让医生快速的对患者病情做出判断，进行对症下药，极大的提高了医生的工作效率。
[0004]文本聚类技术广泛应用于文本挖掘与信息检索等方面，它在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价...

【技术保护点】

【技术特征摘要】
1.一种用于医疗文本的聚类方法，其特征在于，包括：步骤S100：收集医疗网站问答部分的医疗标签和文本；步骤S200：通过标签文本来更新分词词库，用更新后的词库对医疗文本进行分词并过滤停用词来构建训练语料；步骤S300：利用所述训练模型对语料进行训练，得到训练后的词向量；步骤S400：获取待聚类医疗文本，对文本进行分词和过滤停用词；步骤S500：用所述聚类模型对待聚类医疗文本进行聚类得到聚类结果。2.根据权利要求1所述的医疗文本的聚类方法，其特征在于，获取医疗专业网站内的问答页面的问题标签作为医疗领域专业词汇，作为自定义词汇在对句子进行分词时使用。3.根据权利要求1所述的医疗文本的聚类方法，其特征在于，对所述训练语料进行分词和过滤停用词后输入word2vec模型进行训练，保存适用于医疗领域的词向量。4.根据权利要求1所述的医疗文本的聚类方法，其特征在于，对待聚类的医疗文本进行预处理，需要对所有文本进行分词并过滤停用词，通过使用上述计算句子中词向量的平均特征矩阵来获取句向量。5.根据权利要求1所述的医疗文本的聚类方...

【专利技术属性】
技术研发人员：金迪，李征，
申请(专利权)人：河南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人