【技术实现步骤摘要】
一种基于病位的中医病情文本关键词提取方法
本专利技术属于自然语言处理
,具体涉及一种基于病位的中医病情文本关键词提取方法。
技术介绍
中医辩证辨病常采用试探与反证、援物比类、“望、闻、问、切”四诊合参的方法对病人进行诊疗,通常问病人的病症部位,症状严重程度,病症的有无关系、病人饮食起居等,随着数字化检验的不断发展,中医诊疗中也常常包括西医检测数据,如血常规、尿常规等数据。相对于一般文本,比如人民日报、网络新闻文本等,中医病情文本具有以下特点:1)中医病情文本中主语、谓语和宾语等句子主要成分不明显,甚至缺少其中某一部分。另外,句子中并列关系明显,比如“无压痛、反跳痛”,正确的理解是“无压痛”、“无反跳痛”;2)中医病情文本中常常包括一些西医检测数据。比如体温等数据,这些数据给基于文本分析的算法带来了一些困难;3)中医病情文本中领域词比较多。比如“干湿性罗音”这个组合词在一般的文本中不会出现;4)中医病情文本关键语义信息主要以症状、病位、症状有无关系和症状严重程度等词或短语构成。常用的文本关键词提取算法是TF-IDF算法和TextRank算法。TF-IDF算法计 ...
【技术保护点】
1.一种基于病位的中医病情文本关键词提取方法,包括以下步骤:对中医病情文本分词,并基于中医病情文本分词结果生成中医病情词典;计算中医病情词典中每个词语的IDF值和TF值;根据词语的IDF值和TF值、以及词语中包含病位情况,提升词语的重要度;根据每个词语的重要度,选择排在前m位的m个词语为文本的关键词。
【技术特征摘要】
1.一种基于病位的中医病情文本关键词提取方法,包括以下步骤:对中医病情文本分词,并基于中医病情文本分词结果生成中医病情词典;计算中医病情词典中每个词语的IDF值和TF值;根据词语的IDF值和TF值、以及词语中包含病位情况,提升词语的重要度;根据每个词语的重要度,选择排在前m位的m个词语为文本的关键词。2.如权利要求1所述的基于病位的中医病情文本关键词提取方法,其特征在于,在进行中医病情文本分词时,对于待分词的病情文本集合,根据医学词典和停用词典,对病情文本集合进行分词,并去除停用词,得到分词文本集合。3.如权利要求2所述的基于病位的中医病情文本关键词提取方法,其特征在于,所述基于中医病情文本分词结果生成中医病情词典包括:统计分词文本集合中的词语,将满足出现频数属于区间[α1,α2]之间的词语添加到中医病情词典中。4.如权利要求2所述的基于病位的中医病情文本关键词提取方法,其特征在于...
【专利技术属性】
技术研发人员:姜晓红,陈广,吴健,吴朝晖,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。