【技术实现步骤摘要】
医学资料搜索方法、装置、电子装置及存储介质
本申请涉及人工智能
,具体涉及一种医学资料搜索方法、装置、电子装置及存储介质。
技术介绍
目前市场上有很多成功的医学产品,都拥有大量的医学文献和医学知识供病人、医学生、医生去查询以及学习使用。然而,传统的检索医学文献都是通过特定的关键词去检索对应的文献。知识库的内容数据越多,内容越丰富,响应的检索时间、准确性也会相对降低,并且耗费的成本也越高。即使检索出结果,还需要用户人为的通过自己的目的再次进行筛选,以达到找出更精准的、用户更想要的内容,这会大幅度的降低用户的体验度和兴趣。
技术实现思路
鉴于以上内容,有必要提出一种医学资料搜索方法、装置、电子装置及存储介质,可以快速检索医学资料。本申请的第一方面提供一种医学资料搜索方法,所述方法包括:接收用户输入的询问数据,其中,所述询问数据包括用户待询问的问题信息;预处理所述询问数据,得到多个分词词项,其中,所述预处理包括中文分词处理和去除停用词处理;输入所述多个分词词项至预先训练的医 ...
【技术保护点】
1.一种医学资料搜索方法,其特征在于,所述方法包括:/n接收用户输入的询问数据,其中,所述询问数据包括用户待询问的问题信息;/n预处理所述询问数据,得到多个分词词项,其中,所述预处理包括中文分词处理和去除停用词处理;/n输入所述多个分词词项至预先训练的医学疾病模型中,得到与医学相关的多个关键词;/n计算所述多个关键词中每个关键词的词权重,输出多个词权重信息;/n根据所述多个词权重信息从大至小排序,选取排在前面的预设个数词权重信息对应的关键词;及/n基于选取的关键词在数据库中进行检索,得到检索结果。/n
【技术特征摘要】 【专利技术属性】
1.一种医学资料搜索方法,其特征在于,所述方法包括:
接收用户输入的询问数据,其中,所述询问数据包括用户待询问的问题信息;
预处理所述询问数据,得到多个分词词项,其中,所述预处理包括中文分词处理和去除停用词处理;
输入所述多个分词词项至预先训练的医学疾病模型中,得到与医学相关的多个关键词;
计算所述多个关键词中每个关键词的词权重,输出多个词权重信息;
根据所述多个词权重信息从大至小排序,选取排在前面的预设个数词权重信息对应的关键词;及
基于选取的关键词在数据库中进行检索,得到检索结果。
2.如权利要求1所述的医学资料搜索方法,其特征在于,中文分词处理所述询问数据的方法包括:
基于结巴分词和统计词典构造前缀词典;
对所述查询数据进行词图扫描得到多个单独的子句,生成每个单独的子句对应的有向无环图;
采用动态规划在所述有向无环图中查找最大概率路径,找出基于词频的最大切分组合,得到多个分词词项。
3.如权利要求2所述的医学资料搜索方法,其特征在于,所述基于结巴分词和统计词典构造前缀词典包括:
定义第一字典,所述第一字典为空的python字典;
遍历统计词典的第一行,取词条作为所述第一字典的键,词频作为对应的键值;
遍历所述词条的前缀,如果所述词条的前缀对应的键不在所述第一字典里,设定所述词条的前缀为所述第一字典的键;
如果所述词条的前缀对应的键在所述第一字典里,继续遍历所述统计词典的下一行,直到遍历完所述统计词典中的最后一行,得到所述前缀词典。
4.如权利要求3所述的医学资料搜索方法,其特征在于,所述生成每个单独的子句对应的有向无环图包括:
定义第二字典,所述第二字典为空的python字典;
遍历所述多个单独的子句中的当前子句,当前子句元素的索引作为所述第二字典的一个键,对应的键值为一个python列表;
以所述索引作为子句的子串的起始索引,不断向后遍历生成不同的子串;
判断所述子串是否在所述前缀词典里且判断所述子串在所述前缀词典里的键值是否为零;
如果所述子串在前缀词典里且键值不为零,将所述子串的终止索引添加到所述python列表中;
当遍历完所述当前子句的所有子串之后,得到所述当前子句对应的有向无环图。
5.如权利要求1所述的医学资料搜索方法,其特征在于,通过多标签分类算法对所述医学疾病模型进行训练,包括:获取多个查询数据;
对每个查询数据中的一个或多个关键词进行标记;
基于标记了一个或多个关键词的查询数据及对应关键字的类别构建样本数据集;
技术研发人员:肖红丽,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。