中医药古籍文献分词和词性标引方法及系统技术方案

技术编号:18894514 阅读:20 留言:0更新日期:2018-09-08 10:58
本发明专利技术公开了中医药古籍文献分词和词性标引方法及系统;所述方法,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。

Methods and systems of word segmentation and POS indexing in ancient Chinese medicine literature

The invention discloses a method and a system for word segmentation and part-of-speech indexing of ancient Chinese medicine literature, which comprises the following steps: (1) constructing a Chinese medicine word segmentation dictionary; and (2) using a Chinese medicine word segmentation dictionary for word segmentation and part-of-speech annotation; and (3) judging whether the text to be partitioned is all partitioned into words. Word segmentation results are output directly; Step (4): The text that the segmentation fails is processed again by using ansj dictionary; and the final segmentation results are obtained.

【技术实现步骤摘要】
中医药古籍文献分词和词性标引方法及系统
本专利技术涉及中医药古籍文献分词和词性标引方法及系统。
技术介绍
文献对人类的文明、社会的进步至关重要,是一切科学研究的基础。中医药文献是中国古代文献的重要组成部分,是研究古代医家临床用药经验的重要基础,不但综合了中医药的理、法、方、药等知识,还蕴藏着中医药几千年发展过程中积累的学术思想和临床用药经验,挖掘这些宝贵的文化遗产是中医药学术传承与创新的重要前提和基础。中医药理论的现代诠释,中医病证、治法、方药的现代研究,都离不开对古典医药,如“青蒿素”的发现就离不开《肘后备急方》等中医药古典文献中获取的灵感。中医药文献的整理分析是以分词和词性标注为基础的。分词是将连续字序列按照一定规范重新组合成词序列的过程,现阶段国内外有关中文分词理论、方法和技术的研究多数仍处理论或实验阶段且偏向自然语言处理和信息检索,成型可用的中文分词软件较少;而专门针对中医药分词及词性标注的软件和方法尚未见报道,由于中医药专业术语的特殊性,应用一般中文分词软件对中医药文献进行的分词结果准确率和召回率都比较低,有报道最高的盘古分词对中医文献分词的准确率也就0.735,召回率只有0.663,其他的中文分词系统的准确率和召回率、综合分类率(F1)甚至在0.5以下,如PHPAnalysis准确率只有0.312,召回率只有0.369,而且都不能针对中医药的专业特征进行特定的词性标注。这大大制约了中医药文献的利用和发掘。而且大多软件需要配置环境,对系统有特定要求,可移植性比较差,不易操作。因此,构建一种适合中医药文献特征、准确率和召回率高、能进行符合中医药专业术语特征的词性标注的中医药文献分词与词性标注系统和方法,突破当今制约中医药文献挖掘和知识发现的主要技术瓶颈,对于中医药的传承与创新,发挥中医药的原创优势具有十分重要的意义。
技术实现思路
本专利技术的目的是提供中医药古籍文献分词和词性标引方法及系统,能够提高中医药古籍文献分词的准确性和召回率,并能够进行符合中医药专业术语特征的词性标注,解决目前中文分词系统对中医药文献分词准确率和召回率低,无法进行中医药专业词性标注的难题,经过我们对《伤寒论》文本的分词和词性标注进行了应用,发现本分词系统较一般的中文分词系统具有更高的准确率和召回率,而且对《伤寒论》文献的词性标注,也非常接近专业人员的水平。本专利技术的第一方面,提供了中医药古籍文献分词及词性标引方法;中医药古籍文献分词及词性标引方法,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。进一步的,所述步骤(1)构建中医药分词词典的步骤为:步骤(101):构建中医药专业术语词库;步骤(102):对中医药专业术语词库中的词进行词性分类与标记;步骤(103):采用三列式词典构建方法构建中医药分词词典。进一步的,所述步骤(101)构建中医药专业术语词库的步骤为:从中医药古籍文献和中医药词典中提取中医药专业术语;所述中医药专业术语,包括:中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。进一步的,所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为:参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分,结合中医药名词术语的特征,将中医药名词分为若干类词性,构建14类分类词性表,14类分类词性包括:1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词;每类词分为若干级亚类,根据词性的级别,按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。每类词分为若干级亚类,比如中医诊法包括四诊亚类,四诊包括望诊、闻诊、问诊、切诊,望诊包括舌诊,舌诊包括舌象,舌象包括舌苔和舌质,舌苔包括苔色和苔质,最多有7级亚类。进一步的,所述步骤(103)采用三列式词典构建方法构建中医药分词词典,中医药分词词典分为三列,分别是:第1列为中医药专业词语,如贼、朱砂安神丸等;第2列为词性分类字母,如朱砂安神丸属于词性中的方剂分类中的重镇安神剂,词性分类字母为FCzzasj;第3列为词性分级标识。如方剂分类中的重镇安神剂属于分级中的第4级,标注为4。进一步的,所述步骤(2)步骤为:步骤(201):应用词袋模型对待分词文本进行关键词抽取;步骤(202):使用中医药分词词典中的已有词训练条件随机场CRF模型,使用条件随机场CRF模型发现新词,并将新词纳入中医药分词词典;步骤(203):使用分词词典中的全部已有词构建双数组Tire树;步骤(204):将待分词文本中抽取的关键词与双数组Tire树进行单串模式匹配,使用双数组Tire树来对当前抽取的关键词进行分词,得到分词结果;步骤(205):训练隐马尔科夫模型:将分词词典中每个已有词作为观察状态序列,每个词的词性作为隐含状态序列进行隐马尔科夫模型训练,得到训练好的隐马尔科夫模型;步骤(206):使用训练好的隐马尔科夫模型进行词性标注:将步骤(204)中得到的分词结果中的词序列作为观察状态序列输入到训练好的隐马尔科夫模型,通过viterbi算法产生当前观察状态序列的隐含状态序列,从而得到相应的隐藏状态,隐藏状态即为待分词文本的词性,从而完成词性标注。进一步的,步骤(3)判断待分词的文本是否全部分词成功,判断标准为:若每个分词结果都带有词性标注字母,则表示分词成功,否则,表示分词失败。本专利技术的第二方面,提供了中医药古籍文献分词及词性标引系统;中医药古籍文献分词及词性标引系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。本专利技术的第三方面,提供了一种计算机可读存储介质;一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。与现有技术相比,本专利技术的有益效果是:本专利技术对中医药古籍文献分词的召回率和准确率远远高于现有技术。本专利技术首次实现了中医药专业词性标注,为中医药文献挖掘和知识发现提供了基础。本专利技术的两次分词处理,保证了分词结果的完整性和精确性。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本专利技术的方法流程图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。如图1所示,中医药古籍文献分词及词性标引方法,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分本文档来自技高网
...

【技术保护点】
1.中医药古籍文献分词及词性标引方法,其特征是,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。

【技术特征摘要】
1.中医药古籍文献分词及词性标引方法,其特征是,包括:步骤(1):构建中医药分词词典;步骤(2):采用中医药分词词典对待分词的文本进行分词处理和词性标注;步骤(3):判断待分词的文本是否全部分词成功;对分词成功的分词结果直接输出;步骤(4):对分词失败的文本,采用ansj词典再次进行分词处理;得到最终的分词结果。2.如权利要求1所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(1)构建中医药分词词典的步骤为:步骤(101):构建中医药专业术语词库;步骤(102):对中医药专业术语词库中的词进行词性分类与标记;步骤(103):采用三列式词典构建方法构建中医药分词词典。3.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(101)构建中医药专业术语词库的步骤为:从中医药古籍文献和中医药词典中提取中医药专业术语。4.如权利要求3所述的中医药古籍文献分词及词性标引方法,其特征是,所述中医药专业术语,包括:中药药名、方剂名称、中医古籍名称、医家姓名、中医病症症状名称、中医药功效名称、穴位名称、中药用量名称、古汉语词汇以及现代医学中的专业词汇。5.如权利要求2所述的中医药古籍文献分词及词性标引方法,其特征是,所述步骤(102)对中医药专业术语词库中的词进行词性分类的步骤为:参照《中华人民共和国国家标准中医临床诊疗术语》疾病部分、证候部分或治法部分,结合中医药名词术语的特征,将中医药名词分为若干类词性,构建14类分类词性表,14类分类词性包括:1.中医理论基础、2.中医诊法、3.中药名词、4.方剂名词、5.伤寒与温病、6.中医治则、7.中医治法、8.中医药及相关学科、9.中医古籍、10.中医药机构、设备或医药卫生人员、11.人称词、12.地理名称、13.季节时间词、14.其他词;每类词分为若干级亚类,根据词性的级别,按照从低到高的顺序对词库中的中医药名词进行词性的分类和标记。6.如权...

【专利技术属性】
技术研发人员:付先军李学博王振国陈晓康桑晓明鞠芳凝周扬陈聪邵欣欣
申请(专利权)人:山东中医药大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1