当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于病位的中医病情文本关键词提取方法技术

技术编号:21548099 阅读:47 留言:0更新日期:2019-07-06 21:34
本发明专利技术公开了一种基于病位的中医病情文本关键词提取方法,包括以下步骤:对中医病情文本分词,并基于中医病情文本分词结果生成中医病情词典;计算中医病情词典中每个词语的IDF值和TF值;根据词语的IDF值和TF值、以及词语中包含病位情况,提升词语的重要度;根据每个词语的重要度,选择排在前m位的m个词语为文本的关键词。本发明专利技术虑到中医病情文本中的文本关键词大部分是病位词及病症词,以病位为基础,通过对TF‑IDF的值进行病位加权,进而提升了中医病情文本关键词提取的准确性。

A Method of Keyword Extraction Based on Patient Location in TCM Patient Text

【技术实现步骤摘要】
一种基于病位的中医病情文本关键词提取方法
本专利技术属于自然语言处理
,具体涉及一种基于病位的中医病情文本关键词提取方法。
技术介绍
中医辩证辨病常采用试探与反证、援物比类、“望、闻、问、切”四诊合参的方法对病人进行诊疗,通常问病人的病症部位,症状严重程度,病症的有无关系、病人饮食起居等,随着数字化检验的不断发展,中医诊疗中也常常包括西医检测数据,如血常规、尿常规等数据。相对于一般文本,比如人民日报、网络新闻文本等,中医病情文本具有以下特点:1)中医病情文本中主语、谓语和宾语等句子主要成分不明显,甚至缺少其中某一部分。另外,句子中并列关系明显,比如“无压痛、反跳痛”,正确的理解是“无压痛”、“无反跳痛”;2)中医病情文本中常常包括一些西医检测数据。比如体温等数据,这些数据给基于文本分析的算法带来了一些困难;3)中医病情文本中领域词比较多。比如“干湿性罗音”这个组合词在一般的文本中不会出现;4)中医病情文本关键语义信息主要以症状、病位、症状有无关系和症状严重程度等词或短语构成。常用的文本关键词提取算法是TF-IDF算法和TextRank算法。TF-IDF算法计算词的词频和逆文档频本文档来自技高网...

【技术保护点】
1.一种基于病位的中医病情文本关键词提取方法,包括以下步骤:对中医病情文本分词,并基于中医病情文本分词结果生成中医病情词典;计算中医病情词典中每个词语的IDF值和TF值;根据词语的IDF值和TF值、以及词语中包含病位情况,提升词语的重要度;根据每个词语的重要度,选择排在前m位的m个词语为文本的关键词。

【技术特征摘要】
1.一种基于病位的中医病情文本关键词提取方法,包括以下步骤:对中医病情文本分词,并基于中医病情文本分词结果生成中医病情词典;计算中医病情词典中每个词语的IDF值和TF值;根据词语的IDF值和TF值、以及词语中包含病位情况,提升词语的重要度;根据每个词语的重要度,选择排在前m位的m个词语为文本的关键词。2.如权利要求1所述的基于病位的中医病情文本关键词提取方法,其特征在于,在进行中医病情文本分词时,对于待分词的病情文本集合,根据医学词典和停用词典,对病情文本集合进行分词,并去除停用词,得到分词文本集合。3.如权利要求2所述的基于病位的中医病情文本关键词提取方法,其特征在于,所述基于中医病情文本分词结果生成中医病情词典包括:统计分词文本集合中的词语,将满足出现频数属于区间[α1,α2]之间的词语添加到中医病情词典中。4.如权利要求2所述的基于病位的中医病情文本关键词提取方法,其特征在于...

【专利技术属性】
技术研发人员:姜晓红陈广吴健吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1