The invention discloses a method and a system for word segmentation and part-of-speech indexing of ancient Chinese medicine literature, which comprises the following steps: (1) constructing a Chinese medicine word segmentation dictionary; and (2) using a Chinese medicine word segmentation dictionary for word segmentation and part-of-speech annotation; and (3) judging whether the text to be partitioned is all partitioned into words. Word segmentation results are output directly; Step (4): The text that the segmentation fails is processed again by using ansj dictionary; and the final segmentation results are obtained.
【技术实现步骤摘要】
中医药古籍文献分词和词性标引方法及系统
本专利技术涉及中医药古籍文献分词和词性标引方法及系统。
技术介绍
文献对人类的文明、社会的进步至关重要,是一切科学研究的基础。中医药文献是中国古代文献的重要组成部分,是研究古代医家临床用药经验的重要基础,不但综合了中医药的理、法、方、药等知识,还蕴藏着中医药几千年发展过程中积累的学术思想和临床用药经验,挖掘这些宝贵的文化遗产是中医药学术传承与创新的重要前提和基础。中医药理论的现代诠释,中医病证、治法、方药的现代研究,都离不开对古典医药,如“青蒿素”的发现就离不开《肘后备急方》等中医药古典文献中获取的灵感。中医药文献的整理分析是以分词和词性标注为基础的。分词是将连续字序列按照一定规范重新组合成词序列的过程,现阶段国内外有关中文分词理论、方法和技术的研究多数仍处理论或实验阶段且偏向自然语言处理和信息检索,成型可用的中文分词软件较少;而专门针对中医药分词及词性标注的软件和方法尚未见报道,由于中医药专业术语的特殊性,应用一般中文分词软件对中医药文献进行的分词结果准确率和召回率都比较低,有报道最高的盘古分词对中医文献分词的准确率也就0.735,召回率只有0.663,其他的中文分词系统的准确率和召回率、综合分类率(F1)甚至在0.5以下,如PHPAnalysis准确率只有0.312,召回率只有0.369,而且都不能针对中医药的专业特征进行特定的词性标注。这大大制约了中医药文献的利用和发掘。而且大多软件需要配置环境,对系统有特定要求,可移植性比较差,不易操作。因此,构建一种适合中医药文献特征、准确率和召回率高、能进行符合中医药专业 ...
【技术保护点】
1.中医药古籍文献分词及词性标引方法,其特征是,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。
【技术特征摘要】
1.中医药古籍文献分词及词性标引方法,其特征是,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。2.如权利要求1所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(1)构建中医药分词词典的步骤为:步骤(101):构建中医药专业术语词库;步骤(102):对中医药专业术语词库中的词进行词性分类与标记;步骤(103):采用三列式词典构建方法构建中医药分词词典。3.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(101)构建中医药专业术语词库的步骤为:从中医药古籍文献和中医药词典中提取中医药专业术语。4.如权利要求3所述的中医药古籍文献分词及词性标引方法,其特征是,所述中医药专业术语,包括:中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。5.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为:参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分,结合中医药名词术语的特征,将中医药名词分为若干类词性,构建14类分类词性表,14类分类词性包括:1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词;每类词分为若干级亚类,根据词性的级别,按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。6.如权...
【专利技术属性】
技术研发人员:付先军,李学博,王振国,陈晓康,桑晓明,鞠芳凝,周扬,陈聪,邵欣欣,
申请(专利权)人:山东中医药大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。