一种基于改进tf-idf加权的word2vec医疗相似问题检索方法技术

技术编号:31702967 阅读:47 留言:0更新日期:2022-01-01 11:04
本发明专利技术涉及一种基于改进tf

【技术实现步骤摘要】
一种基于改进tf

idf加权的word2vec医疗相似问题检索方法


[0001]本专利技术属于在线医疗领域,具体涉及一种基于改进tf

idf加权的word2vec 医疗相似问题检索方法。

技术介绍

[0002]在互联网应用广泛的今天,通过检索获取医疗知识已经是常态。然而,由于知识来源不详、医疗信息优良混杂,使得传统的搜索引擎并没有满足用户的医疗需求。问答系统通过识别用户的提问意图,返回用户想要的答案,如阿里的管家“小蜜”、百度的小度,华为的小艺等,自动问答系统已应用到广泛领域。因而,基于已有的医疗问答数据自动回复用户的问题已经成为迫切需求。
[0003]Wong等人通过提取的方法,建立医疗问答对知识库,设计了enquireMe系统。 Ni等人构建了通过多轮对话来确定答案的问答系统。Cui等人通过分析大规模语料以及提取规则构建模板,创建了知识库问答。国内的相关研究开始较晚,王蕾等人结合知识库,构建了辅助诊断的问答系统。袁凯琦等人建立了医疗领域知识图谱。
[0004]在医疗问答领域,在收到用户本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于改进tf

idf加权的word2vec医疗相似问题检索方法,其特征在于,该方法包括如下步骤:S1、构造医疗问答对数据库;S2、数据预处理,对用户输入的问题和医疗问答对数据库中的问句进行分词处理;S3、分别计算用户输入的问题和医疗问答对数据库中的问句进行分词处理后的各个词项的改进tf

idf值;S4、对用户输入的问题和医疗问答对数据库中的问句进行分词处理后的各个词项进行词嵌入处理,生成词向量;S5、将每个词项的词向量与tf

idf值进行相乘,得到最终的文本向量;S6、通过余弦相似度对文本向量进行相似度计算;S7、向用户返回医疗问答对数据库中相似度较高的问答对。2.如权利要求1所述的基于改进tf

idf加权的word2vec医疗相似问题检索方法,其特征在于,所述步骤S1具体包括:首先收集医疗问答数据,通过公开的医疗相关网站爬取常见的医疗问答对数据;然后筛选,将回答无效、重复回答的不合格问答对删掉,形成问答对数据库。3.如权利要求1所述的基于改进tf

idf加权的word2vec医疗相似问题检索方法,其特征在于,所述步骤S2中采用Jieba分词工具进行分词,然后去停用词,将“是”、“的”以及语气词、助词、标点符号去掉。4.如权利要求2所述的基于改进tf

idf加权的word2vec医疗相似问题检索方法,其特征在于,所述步骤S2中将中文医疗词表THUOCL_medical加入分词工具词库,帮助区分医疗专属词汇。5.如权利要求1

4任一项所述的基于改进tf

idf加权的word2vec医疗相似问题检索方法,其特征在于,所述步骤S3具体包括:首先进行特征匹配,对于和中文医疗词表THUOCL_medical匹配的词加入特征权值的计算;其中,c
i
表示词语a
i
在中文医疗词表N中的词频,n表示中文医疗词表所有词的数量,w
i
是词语a
i
结合中文医疗词表...

【专利技术属性】
技术研发人员:刘洋张宁雨孙渊博
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1