一种基于中医古籍文献的短语挖掘方法和系统技术方案

技术编号:22308435 阅读:20 留言:0更新日期:2019-10-16 08:31
本发明专利技术提供所提供的基于中医古籍文献的短语挖掘方法及系统,所述挖掘方法将短语挖掘技术、面向中医古籍文献的分词方法和语言知识库相结合,通过添加中医古文的停用词表以及高质量短语并使用面向中医古籍文献的分词方法进行分词,再利用分词后的文件和词映射生成的映射文件进行两次词性引导的短语分隔,保存模型和结果,并根据模型结果生成短语挖掘结果并回标。本发明专利技术基于远程监督方法,不需要人工标注语料,也不需要人工设计提取特征,只需要利用现有的公共知识库,节省了人力物力;从大量中医古文文献中提取高质量短语,只需进行有限的浅层语言分析,易操作,效率更高;同时,更加全面的利用古籍文献,从而对中医古籍文献中的短语进行高效、智能的挖掘。

A method and system of phrase mining based on ancient Chinese Literature

【技术实现步骤摘要】
一种基于中医古籍文献的短语挖掘方法和系统
本专利技术属于信息处理及中医文献检索领域,具体涉及一种基于中医古籍文献的短语挖掘方法和系统。
技术介绍
中医是有着数千年历史的医学技术,中医文献是一种传承中医科学与技术的重要媒介。中医文献的历史决定了中医文献不同于现代其他文献的独特性。中医文献卷帙浩繁,其中,中医古籍文献涉及的专有名词数量巨大,有众多的生僻字,如何更加有效、全面的利用和阅读中医古籍文献,影响着中医的发展和传承。计算机与互联网技术的发展,改变了人们阅读文献的方式和速度。为了更快的学习和掌握中医理论,在治疗中更好的应用中医技术,也需要以更加高效的方式阅读、整理、存储中医文献。如何利用计算机与互联网技术进行中医古籍文献的挖掘,是知识工程中医领域中的重要内容。现有技术中,一般通过现有的数据挖掘技术对中医文献进行挖掘。专利号为CN201611174644.8的中国专利,公开了一种基于数据挖掘的中医医学文献分类及存储方法,通过数据挖掘技术,对中医文献中的信息进行相应编码、标识和组合。但是,该技术并没有区分中医古籍文献与其他科技文献的不同之处,不能有针对性的对具有自己特点的中医古籍文献进行数据分析与处理,无法应用于古籍文献利用和检索。
技术实现思路
本专利技术要解决的技术问题是提供一种基于中医古籍文献的短语挖掘方法及系统,通过短语挖掘与古籍分词及中医古文语言知识库的结合,充分利用现有的公共知识库,对中医古籍文献进行高效、智能的短语挖掘。为解决上述技术问题,本专利技术实施例提供一种基于中医古籍文献的短语挖掘方法,所述方法包括如下步骤:步骤S1,在现有的语言知识库基础上添加中医古文的停用词表和高质量短语,建立包含中医古文的新语言知识库;步骤S2,对中医古籍文献原始输入语料进行分词和词性标注,并将分词后的词和词性标签进行词映射并输出词映射文件;步骤S3,读入所述停用词表和高质量短语,同时读入所述词映射文件,根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化,输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件;步骤S4,基于所述分词后的词和所述词映射文件,进行两次词性引导的短语分隔;步骤S5,根据所述短语分隔生成模型,并保存短语分隔结果和模型,根据模型生成短语挖掘的单词和多词的质量结果;保存所述质量结果,并根据词映射文件生成短语挖掘结果;步骤S6,根据短语挖掘结果,将挖掘出的短语按质量评分的阈值回标到原始输入语料中。上述方案中,所述步骤S2中分词和词性标注,使用面向中医古籍文献的分词方法。上述方案中,所述步骤S2进一步包括:对分词后的词进行映射后,将中医古籍文献的原始输入语料转化为词映射后的语料,使原始中文古文语料转化为计算机能够识别的输入。上述方案中,所述步骤S4中词性引导的短语分隔,包括以下步骤:步骤S401,加载原始输入语料、停用词表、新语言知识库的质量短语;步骤S402,根据短语出现的频率挖掘出常用短语;步骤S403,将所述常用短语作为短语候选者,根据预设标准抽取特征;步骤S404,对所述短语候选者,在新语言知识库中进行匹配,若匹配成功,到则放入正样本池;否则,放入负样本池;步骤S405,根据所抽取的所述特征、正样本池和负样本池,进行第一次短语质量评估;步骤S406,将所述短语候选者返回原始输入语料中,进行短语分隔;步骤S407,根据所述词性标签和所述预设标准对进行了第一次短语质量评估的短语进行特征的改正;步骤S408,根据改正后的特征进行第二次短语质量评估;步骤S409,根据第二次短语质量评估的得分重新进行短语分隔。上述方案中,所述步骤S402挖掘出常用短语,具体为:设定词频的阈值以及短语的长度,词频高于阈值和/或短语长度低于预定长度的短语,为常用短语。上述方案中,所述步骤S403预设标准包括:词频、一致性、信息性、完整性。上述方案中,所述步骤S5短语挖掘结果包括:多词、单词和总并的结果文件。根据本专利技术的另一个方面,还提供了一种基于中医古籍文献的短评挖掘系统,所述系统包括:新语言知识库建立模块、分词及映射模块、转化模块、短语分隔模块、模型生成及应用模块、短语回标模块;其中,所述新语言知识库建立模块用于在现有的语言知识库基础上添加中医古文的停用词表和高质量短语,建立包含中医古文的新语言知识库;所述分词及映射模块用于对中医古籍文献原始输入语料进行分词和词性标注,并将分词后的词和词性标签进行词映射并输出词映射文件;所述转化模块用于读入所述停用词表和高质量短语,同时读入所述词映射文件,根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化,输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件;所述短语分隔模块用于基于所述分词后的词和所述词映射文件,进行两次词性引导的短语分隔;所述模型生成及应用模块用于根据所述短语分隔生成模型,并保存短语分隔结果和模型,根据模型生成短语挖掘的单词和多词的质量结果;还用于保存所述质量结果,并根据词映射文件生成短语挖掘结果;所述短语回标模块用于根据短语挖掘结果,将挖掘出的短语按质量评分的阈值回标到原始输入语料中。上述方案中,所述分词模块,使用面向中医古籍文献的分词方法,对所述输入语料进行分词和词性标注。上述方案中,所述模型生成及应用模块的短语挖掘结果包括:多词、单词和总并的结果文件。本专利技术上述技术方案的有益效果如下:上述方案中,所提供的基于中医古籍文献的短语挖掘方法及系统,可以从大量中医古文文献中提取高质量短语,无需人工标记,只需进行有限的浅层语言分析,易操作,效率更高;同时,基于远程监督方法,不需要人工标注语料,也不需要人工设计提取特征,只需要利用现有的公共知识库,节省了人力物力,降低了文献挖掘成本;充分利用了现有的公共知识库和中医古文的现有高质量短语的结合,以有效的方式利用大量高质量的短语,更加全面的利用古籍文献,从而对中医古籍文献中的短语进行高效、智能的挖掘。附图说明为了更加清晰的阐述本专利技术的实施例和现有的技术方案,下面将本专利技术的技术方案说明附图做简单的介绍,显而易见的,在不付出创造性劳动的前提下,本领域普通技术人员可通过以下附图获得其他的附图。图1为本专利技术实施例基于中医古籍文献的短语挖掘方法流程示意图;图2为本专利技术实施例中词映射和停用词表转化结果示例图;图3为本专利技术实施例中短语分隔流程图;图4为本专利技术实施例的短语挖掘方法具体应用时的多词输出结果图;图5为本专利技术实施例的短语挖掘方法具体应用时的单词输出结果图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术针对现有的中医古籍文献检索,提出了一种短语挖掘方法,通过短语挖掘技术、面向中医古籍文献的分词方法和中医古文的语言知识库的结合进行对于中医古籍文献的短语挖掘,所述方法基于远程监督,充分利用现有的公共知识库,不需要人工标注语料和人工设计提取特征,对中医古籍文献中的短语进行高效、智能的挖掘。下面通过具体的实施例,结合附图,对本专利技术作进一步详细的说明。第一实施例本实施例提供了一种基于中医古籍文献的短语挖掘方法,图1所示为本实施例所述短语挖掘方法的流程示意图。如图1所示,所述短语挖掘方法包括如下步骤:步骤S1,在现有的语言知识库基础上本文档来自技高网...

【技术保护点】
1.一种基于中医古籍文献的短语挖掘方法,其特征在于,所述方法包括如下步骤:步骤S1,在现有的语言知识库基础上添加中医古文的停用词表和高质量短语,建立包含中医古文的新语言知识库;步骤S2,对中医古籍文献原始输入语料进行分词和词性标注,并将分词后的词和词性标签进行词映射并输出词映射文件;步骤S3,读入所述停用词表和高质量短语,同时读入所述词映射文件,根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化,输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件;步骤S4,基于所述分词后的词和所述词映射文件,进行两次词性引导的短语分隔;步骤S5,根据所述短语分隔生成模型,并保存短语分隔结果和模型,根据模型生成短语挖掘的单词和多词的质量结果;保存所述质量结果,并根据词映射文件生成短语挖掘结果;步骤S6,根据短语挖掘结果,将挖掘出的短语按质量评分的阈值回标到原始输入语料中。

【技术特征摘要】
1.一种基于中医古籍文献的短语挖掘方法,其特征在于,所述方法包括如下步骤:步骤S1,在现有的语言知识库基础上添加中医古文的停用词表和高质量短语,建立包含中医古文的新语言知识库;步骤S2,对中医古籍文献原始输入语料进行分词和词性标注,并将分词后的词和词性标签进行词映射并输出词映射文件;步骤S3,读入所述停用词表和高质量短语,同时读入所述词映射文件,根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化,输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件;步骤S4,基于所述分词后的词和所述词映射文件,进行两次词性引导的短语分隔;步骤S5,根据所述短语分隔生成模型,并保存短语分隔结果和模型,根据模型生成短语挖掘的单词和多词的质量结果;保存所述质量结果,并根据词映射文件生成短语挖掘结果;步骤S6,根据短语挖掘结果,将挖掘出的短语按质量评分的阈值回标到原始输入语料中。2.根据权利要求1所述的短语挖掘方法,其特征在于,所述步骤S2中分词和词性标注,使用面向中医古籍文献的分词方法。3.根据权利要求2所述的短语挖掘方法,其特征在于,所述步骤S2进一步包括:对分词后的词进行映射后,将中医古籍文献的原始输入语料转化为词映射后的语料,使原始中文古文语料转化为计算机能够识别的输入。4.根据权利要求1所述的短语挖掘方法,其特征在于,所述步骤S4中两次词性引导的短语分隔,包括以下步骤:步骤S401,加载原始输入语料、停用词表、新语言知识库的质量短语;步骤S402,根据短语出现的频率挖掘出常用短语;步骤S403,将所述常用短语作为短语候选者,根据预设标准抽取特征;步骤S404,对所述短语候选者,在新语言知识库中进行匹配,若匹配成功,到则放入正样本池;否则,放入负样本池;步骤S405,根据所抽取的所述特征、正样本池和负样本池,进行第一次短语质量评估;步骤S406,将所述短语候选者返回原始输入语料中,进行短语分隔;步骤S407,根据所述词性标签和所述预设标准对进行了第一次短语质量评估的短语进行特征的改正;...

【专利技术属性】
技术研发人员:张德政夏超谢永红贾麒杨石兵栗辉
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1