一种基于规则的专利摘要自动抽取和关键词标引方法技术

技术编号:4126742 阅读:518 留言:0更新日期:2012-04-11 18:40
一种基于规则的专利摘要自动抽取和关键词标引方法。主要步骤包括:根据后台知识库对专利文献全文进行特征技术词汇等关键字的自动标记,然后由各段中特征词出现的类型、次数、位置关系等判断其在文章中的功能及相互关系,再抽取其中关键的段落组成摘要,最后从摘要中提取关键词组成该文献的各个标引项。本发明专利技术的自动摘要提取和关键词标引方法由五个模块组成,即:知识库模块、特征词标记模块、段落分析与评价模块、摘要自动撰写模块、标引模块。本发明专利技术的方法可以显著提高专利数据深度加工的效率,并显著降低数据加工成本,标引结果具有很强的检索价值。

【技术实现步骤摘要】

本专利技术属于fi然语言计算机处理领域,具体涉及。
技术介绍
随着专利文献数tt的迅速增长,实现专利文献数据的査全率和査准率日益成为专利信息检索的重点和难点。长期以来,禾u用原始专利数据来完成的专利信息的检索, 往往会存在较为严重的査全率和査准率相互矛盾的问题。由于专利文献原始信息来源于 申请人:的原始提交资料,为了实现对专利技术的描述和保护,往往会引用人量直接相关 和间接相关的技术资料来描述专利技术。因此,在专利检索当屮,如果为了保证检索的 查全率,往往会同时检索出大量噪音数据,而如果为了保证检索的查准率,又往往 因为限制条件过f严格,而丢失大量有用的检索结果。 为了解决上述问题,目甜-一种通用的方法就是采用利信息深度加工的技术。 包括由专业技术人员在全面了解
技术实现思路
的基础上,按照一定加工规则,对专利文 献进行摘耍重新撰写和关键词标引,力争提取出和技术主题直接相关、具有重耍检索价 值的专利信息。而专利数据的深度加工需要耗费大量的时间、人力和物力才能完成,其 建设成本十分高昂,加工效率严重偏低。 为了解决上述问题,在专利文献深度加工过程屮,采用fi动摘要和fi动标引技 术,并辅助相应的人丁处理,可以显著提高专利文献深度加丁的丁作效率,减低成本。 中国专利申请94103485.2公开了一种汉语文献计算机自动标引技术。在对大 量句型进行系统分析研究的基础上,按照汉语的语法逻辑关系及语句结构特点,采取--些独特的技术措施,创造了一种独特的模式化标引法。使用该方法可以克服现有人 工标引方法效率低、误差大的缺点,乂可以完全消除机器标引中可能发生的误切、 漏切和由此引起的误标与漏标,从而保证了文献的准确标引以及高效率、 高准确率的检索。 屮国专利中请01138654.1公开了 一种棊于网络环境的屮文信息fi动标引系统, 公开了一种在互联网环境下基于WINDOWS或NT操作系统的中文自动标引系统。 中国专利申请2()061()024618.7公开了一种专利文献的标引方法,包括提供一相关技术主题^利文献数据库;建立该技术主题的技术分类及其对应的关键字/词;选抒 部分或全部专利文献进行标引,对每一篇专利文献,建立其与关键字/词和技术分类的 对应关系;在此步骤中,根据标引的专利文献,修正技术分类或者技术分类对应的关键字 此外,中国专利申请200410000936.0也公开了--------种计算机标引和检索的方法。 fi动摘要抽取和fi动关键词标引技术已经经过了多年的发展,但针对专利文献 数据深度加工中的特定技术方法还未见报道。中国专利申请200610024618,7中公开的专 利文献的标引方法,仅仅解决了在专利文献快速阅读和了解大意时的问题,并不能从根本上解决专利检索的问题。 本专利技术B在采用,从而可以显著提高专利文献深度加工的效率,并解决专利文献深度加工当中人力成本高昂的现 状。
技术实现思路
针对现有技术巾存在k述不足之处,木专利技术的目的在于提供一种专利摘要自动 抽取和关键词标引方法,可以实现基于规则的专利文献fi动深度加工。 本专利技术的fi动摘要提取和关键词标引方法的一般过程是根据后台知识库对专 利文献全文进行特征技术词汇等关键字的自动标记,然后由各段中特征词出现的类型、 次数、位置关系等判断其在文章中的功能及相互关系,再抽取其中关键的段落组成摘 要,最后从摘要中提取关键词组成该文献的各个标引项。通常情况下由五个功能模块来 实现的知识库模块、特征词标记模块、段落分析与评价模块、摘要自动撰写模块和标 引模块。 其巾的关键技术在于在摘要抽取和关键词标引的过程中,采用了适合于专利文献特点的fi动抽取和标弓I规则。 1、知识库模块 知识库是实现本方法的系统的基础,可采用本领域通用的方法和加丁手段建立 知识库。为了对文献解析的更加清楚,本系统构建基f不同
的科技术语知识 库,其中包括各领域科技术语名称及其IPC属性信息、同义词和近义词信息等,并同时 建立了基于不同
的工艺动词知识库。以中药领域的科技术语知识库为例,其知识库样例如下 样例一<table>table see original document page 5</column></row><table>中药正名白及中药异名;白及粉;;甘根;白根;白给;白芨;冰球子;白乌儿头;地螺丝;羊角七;千年棕;君球子; 一兜棕;白鸡儿;皲口药;利知子;白芨片;连及草;箬兰;朱兰;紫兰;紫蕙;百笠;白及粉ipc号A61K036/898 ; A61K125/00白暨豚;白旗;白鳍;白鳍豚;白江猪;A61K035/12 样例二正式词lrij义词组配词IPCPHC平滑肌瘤;平滑肌细胞瘤; LEIOMYOMA ;肿瘤;癌A61P035/0003 ; 12平滑肌肉瘤;LEIOMYOSARCOMA ;肿瘤;癌A61P035/0003 ; 12破伤风;强直症;TETANUS ;A61P021/0212葡萄膜炎;色素膜炎;眼色素层炎;色 素层炎;uveitis ;A61P027/0214葡萄球菌;STAPHYLOCOCCUS;抗菌A61P031/04Ti-葡萄球菌病A61P031/00ll葡萄胎;葡萄簇状瘤;水泡状胎块; hydatidiformmo:le ; ves1cularmole ;肿瘤;癌A61P035/0007 ; 03期前收缩;PREMATURESYSTOLE ;早 搏;心律失常A61P009/0604气管炎;tracheitis ;a61p011/0016 中药领域的工艺动词知识库样例 样例一 6加入混合粉碎浓縮加水煎煮提取过滤浸泡加水粉碎成千燥 2、特征词标记模块 该模块的功能是读入专利文本后,采用本领域中通用的正向最大匹配分词算法,根据后台知识库对文本进行特征术语标记。 3、段落分析与评价模块 在特征术语标注的基础上,进一步完成基于规则的段落分析和评价。 首先是判断分析专利文献中的功能段落,即含有专利文献的-'些特征术语,并且对检索具有重要价值的段落。其技术方法是,统计段落中标记字与非标记字的字数比率,并根据不同
设定的比率,提取出高于此比率的段落做为备选功能段落,然后再根据不同
设定的具体分析规则提取出不同类型的功能段落。 上述统计中标记字与非标记字的比率根据经验值通常设定在0.3,也可以根据不同
的特点,适当调整上述比例。 设定具休分析规则提取出不同类型的功能段落中,可以根据段落中不同句子的结构性关键词来设定规则。例如句子结构中包含[有...功效]、[有...功能]、[有...作用]、[有...疗效]、[用T]、[组方具有]等短语结构的可以判断是功效功能段落;句子结构中包含[步骤为]、[步骤是]、[步骤]、[下...步骤]、[制备]、[解决方案]、[技术方案]、 〃 [实施例...]、[制备...]、[以下...步]、[如下...步]、[解决方案...]、[技术方案...]、[生产方法...]、[技术措施...]等短语结构的可以判断是制作工艺功能段落;句子结构屮包含[包括...组分]、[下...原料]、[配比...]、[——制成]、[用量...]等短语结构的可以判断是组合物本文档来自技高网
...

【技术保护点】
一种专利文献的摘要自动抽取和关键词标引方法,利用知识库模块、特征技术词汇标记模块、段落分析与评价模块、摘要自动撰写模块和标引模块进行摘要自动抽取和关键词标引,其基本步骤如下:  (1)、建立不同技术领域中专利科技术语知识库;  (2)、采用正向最大匹配分词算法,根据后台知识库对文本进行特征术语标记;  (3)、基于标记内容对专利文献的段落进行分析和评价;  (4)、在上述基础上,自动撰写摘要并进行关键词标引;  其特征在于:在步骤3中,首先是根据知识库,统计专利文献不同段落中标记字与非标记字的字数比率,并根据该比率识别备选功能段落,然后再根据默认设定或者用户设定的句子结构性关键词规则,识别不同类型的功能段落;在步骤4中,根据不同段落的标记字与非标记字字数比率、段落功能类型和在专利文献中出现的位置信息进行摘要自动抽取;并在摘要自动抽取或者人工修改后的摘要基础上,根据段落分析与评价模块中的方法和规则来分析不同句子的具体类型,并调用知识库中已经设定好的关键词,对摘要中的关键词按不同标引项目进行抽取。

【技术特征摘要】
一种专利文献的摘要自动抽取和关键词标引方法,利用知识库模块、特征技术词汇标记模块、段落分析与评价模块、摘要自动撰写模块和标引模块进行摘要自动抽取和关键词标引,其基本步骤如下(1)、建立不同技术领域中专利科技术语知识库;(2)、采用正向最大匹配分词算法,根据后台知识库对文本进行特征术语标记;(3)、基于标记内容对专利文献的段落进行分析和评价;(4)、在上述基础上,自动撰写摘要并进行关键词标引;其特征在于在步骤3中,首先是根据知识库,统计专利文献不同段落中标记字与非标记字的字数比率,并根据该比率识别备选功能段落,然后再根据默认设定或者用户设定的句子结构性关键词规则,识别不同类型的功能段落;在步骤4中,根据不同段落的标记字与非标记字字数比率、段落功能类型和在专利文献中出现的位置信息进行摘要自动抽取;并在摘要自动抽取或者人工修改后的摘要基础上,根据段落分析与评价模块中的方法和规则来分析不同句子的具体类型,并调用知识库中已经设定好的关键词,对摘要中的关键词按不同标引项目进行抽取。2. 如权利要求1所述的方法,其特征在于所述后台知识库是为特征技术词汇标记模块提供供分词用的后台词典,后台知识库 根据技术领域进行划分,其包括各领域科技术语名称及其I:PC属性信息、同义词和近义 词信息,并同时建立了基于不同技术领域的工艺动词知识库。3. 如权利耍求1所述的方法,其特征在T:所述识别备选功能段落是根据后台知识库统计专利文献不同段落巾标记字与非标记 字的字数比率,当该比率高于0.3时,可以将该段落识别为备选功能段落。4. 如权利要求1所述的方法,其特征在于所述识别备选...

【专利技术属性】
技术研发人员:王维王进胡先勇王海虹李红梅崔征
申请(专利权)人:北京中献电子技术开发中心
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1