一种基于中医古籍文献的短语挖掘方法和系统技术方案

技术编号：22308435 阅读：20 留言：0更新日期：2019-10-16 08:31

本发明专利技术提供所提供的基于中医古籍文献的短语挖掘方法及系统，所述挖掘方法将短语挖掘技术、面向中医古籍文献的分词方法和语言知识库相结合，通过添加中医古文的停用词表以及高质量短语并使用面向中医古籍文献的分词方法进行分词，再利用分词后的文件和词映射生成的映射文件进行两次词性引导的短语分隔，保存模型和结果，并根据模型结果生成短语挖掘结果并回标。本发明专利技术基于远程监督方法，不需要人工标注语料，也不需要人工设计提取特征，只需要利用现有的公共知识库，节省了人力物力；从大量中医古文文献中提取高质量短语，只需进行有限的浅层语言分析，易操作，效率更高；同时，更加全面的利用古籍文献，从而对中医古籍文献中的短语进行高效、智能的挖掘。

A method and system of phrase mining based on ancient Chinese Literature

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中医古籍文献的短语挖掘方法和系统
本专利技术属于信息处理及中医文献检索领域，具体涉及一种基于中医古籍文献的短语挖掘方法和系统。
技术介绍
中医是有着数千年历史的医学技术，中医文献是一种传承中医科学与技术的重要媒介。中医文献的历史决定了中医文献不同于现代其他文献的独特性。中医文献卷帙浩繁，其中，中医古籍文献涉及的专有名词数量巨大，有众多的生僻字，如何更加有效、全面的利用和阅读中医古籍文献，影响着中医的发展和传承。计算机与互联网技术的发展，改变了人们阅读文献的方式和速度。为了更快的学习和掌握中医理论，在治疗中更好的应用中医技术，也需要以更加高效的方式阅读、整理、存储中医文献。如何利用计算机与互联网技术进行中医古籍文献的挖掘，是知识工程中医领域中的重要内容。现有技术中，一般通过现有的数据挖掘技术对中医文献进行挖掘。专利号为CN201611174644.8的中国专利，公开了一种基于数据挖掘的中医医学文献分类及存储方法，通过数据挖掘技术，对中医文献中的信息进行相应编码、标识和组合。但是，该技术并没有区分中医古籍文献与其他科技文献的不同之处，不能有针对性的对具有自己特点的中医古籍文献进行数据分析与处理，无法应用于古籍文献利用和检索。
技术实现思路
本专利技术要解决的技术问题是提供一种基于中医古籍文献的短语挖掘方法及系统，通过短语挖掘与古籍分词及中医古文语言知识库的结合，充分利用现有的公共知识库，对中医古籍文献进行高效、智能的短语挖掘。为解决上述技术问题，本专利技术实施例提供一种基于中医古籍文献的短语挖掘方法，所述方法包括如下步骤：步骤S1，在现有的语言知识库基础上...

【技术保护点】
1.一种基于中医古籍文献的短语挖掘方法，其特征在于，所述方法包括如下步骤：步骤S1，在现有的语言知识库基础上添加中医古文的停用词表和高质量短语，建立包含中医古文的新语言知识库；步骤S2，对中医古籍文献原始输入语料进行分词和词性标注，并将分词后的词和词性标签进行词映射并输出词映射文件；步骤S3，读入所述停用词表和高质量短语，同时读入所述词映射文件，根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化，输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件；步骤S4，基于所述分词后的词和所述词映射文件，进行两次词性引导的短语分隔；步骤S5，根据所述短语分隔生成模型，并保存短语分隔结果和模型，根据模型生成短语挖掘的单词和多词的质量结果；保存所述质量结果，并根据词映射文件生成短语挖掘结果；步骤S6，根据短语挖掘结果，将挖掘出的短语按质量评分的阈值回标到原始输入语料中。

【技术特征摘要】
1.一种基于中医古籍文献的短语挖掘方法，其特征在于，所述方法包括如下步骤：步骤S1，在现有的语言知识库基础上添加中医古文的停用词表和高质量短语，建立包含中医古文的新语言知识库；步骤S2，对中医古籍文献原始输入语料进行分词和词性标注，并将分词后的词和词性标签进行词映射并输出词映射文件；步骤S3，读入所述停用词表和高质量短语，同时读入所述词映射文件，根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化，输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件；步骤S4，基于所述分词后的词和所述词映射文件，进行两次词性引导的短语分隔；步骤S5，根据所述短语分隔生成模型，并保存短语分隔结果和模型，根据模型生成短语挖掘的单词和多词的质量结果；保存所述质量结果，并根据词映射文件生成短语挖掘结果；步骤S6，根据短语挖掘结果，将挖掘出的短语按质量评分的阈值回标到原始输入语料中。2.根据权利要求1所述的短语挖掘方法，其特征在于，所述步骤S2中分词和词性标注，使用面向中医古籍文献的分词方法。3.根据权利要求2所述的短语挖掘方法，其特征在于，所述步骤S2进一步包括：对分词后的词进行映射后，将中医古籍文献的原始输入语料转化为词映射后的语料，使原始中文古文语料转化为计算机能够识别的输入。4.根据权利要求1所述的短语挖掘方法，其特征在于，所述步骤S4中两次词性引导的短语分隔，包括以下步骤：步骤S401，加载原始输入语料、停用词表、新语言知识库的质量短语；步骤S402，根据短语出现的频率挖掘出常用短语；步骤S403，将所述常用短语作为短语候选者，根据预设标准抽取特征；步骤S404，对所述短语候选者，在新语言知识库中进行匹配，若匹配成功，到则放入正样本池；否则，放入负样本池；步骤S405，根据所抽取的所述特征、正样本池和负样本池，进行第一次短语质量评估；步骤S406，将所述短语候选者返回原始输入语料中，进行短语分隔；步骤S407，根据所述词性标签和所述预设标准对进行了第一次短语质量评估的短语进行特征的改正；...

【专利技术属性】
技术研发人员：张德政，夏超，谢永红，贾麒，杨石兵，栗辉，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人