汉语叙词表构建系统技术方案

技术编号:10543368 阅读:182 留言:0更新日期:2014-10-15 18:17
本发明专利技术提供了一种汉语叙词表构建系统,其包括输入设备、系统处理器、存储器、输出设备。系统处理器包括数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。存储器通信连接于系统处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。输出设备通信连接于系统处理器。由此,克服原有人工方法的缺点,节省人力物力,提高汉语叙词表构建效率,能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护;能保证叙词构建的质量,可以支持所有领域的汉语叙词表的构建或信息提取;有益于图书情报与档案管理领域的信息组织和利用,并可以服务于数字图书馆。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种汉语叙词表构建系统,其包括输入设备、系统处理器、存储器、输出设备。系统处理器包括数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。存储器通信连接于系统处理器的数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙词表生成器。输出设备通信连接于系统处理器。由此,克服原有人工方法的缺点,节省人力物力,提高汉语叙词表构建效率,能够方便、快捷和低成本的实现汉语叙词表的动态构建、更新和维护;能保证叙词构建的质量,可以支持所有领域的汉语叙词表的构建或信息提取;有益于图书情报与档案管理领域的信息组织和利用,并可以服务于数字图书馆。【专利说明】汉语叙词表构建系统
本专利技术涉及数据处理技术,尤其涉及一种汉语叙词表构建系统。
技术介绍
叙词表是一种显示叙词、叙词词间语义关系的规范化动态性词汇表,其中包含有 特定许可领域的,在语义和层次关系上相关的许多词汇,从功能方面说,叙词表则是文献标 引人员和检索人员之间的思维桥梁,是自然语言(文献所用语言)和系统语言(检索系统 规范化语言)之间进行转换的一种术语控制工具,同时也是人与系统之间进行交流的媒 介。在科学技术飞速发展,网络信息化服务日益普及的今天,传统的人工构建叙词表的方 法耗时且成本昂贵。人工构建叙词表的最大的缺点是无法解决制表专家们自身存在的"知 识获取瓶颈"问题,也不利于叙词表的及时更新与维护。人工构建的叙词表应用到网络化、 数字化的环境时,其自身存在的更新度不够造成词表内容在时效性、叙词术语规模和质量 等方面的缺失,使其难以在数字网络化环境中各类用户中使用和推广,即已经无法满足图 书情报与档案管理领域的专业人员、以及检索用户的需要,此外,图书情报与档案管理领域 的数字化文献数据每年以海量规模的数据量递增,已有领域技术不断更新和发展增加的文 献数据、新领域技术的出现产生的文献数据都导致新术语层出不穷的产生。因此,改造和 更新已有叙词表,对新出现的
或专业则需重新构建新的行业
叙词表。目 前构建叙词表是国内外图书情报与档案管理业界的共识,可参考文献,Robert M.Losee, 叙词表构建与使用的判定方法研究,信息处理与管理,2007(4) :958-968 (Decisions in Thesaurus Construction and Use. Information Processing&Management), 2007(4):958-968.)。如何高效、快速的构建汉语叙词表是图书情报与档案管理领域亟待解决的实际需求。 从已公开的文献和实际应用中,还未见到汉语叙词表构建系统装置的报道。目 前,国内对于叙词表生成
的研究缺乏,如:杜慧平,何琳,侯汉清,基于聚类分析的 自然语言叙词表自动构建,国家图书馆学刊,2007, 3:44-49 ;徐瑞芳,李晓雯,侯汉清,叙词 表词间关系处理规则的比较研究,情报科学,2009 (1) :89-93 ;袁旭,常春,面向构建的叙 词表相关关系获取途径研究,情报科学,2013, 31 (1) :68-72 ;这些文献均是仅局限在对叙 词表生成过程中某一阶段的局部研究,且没有完整意义上的系统性开发工作;另一篇文 献(刘华,沈玉兰,曾建勋,中国、美国和英国叙词表编制国家标准比较研究,图书情报工 作,2009, 53(22) :72-75)的研究工作以追踪报道国外的叙词表研究编制情况为主;另两篇 文献(刘伟,周杰,网络环境下叙词表编制系统中的并发机制研究,图书情报工作,2011, 55(22) :11-14):赵建华,赵健国等,汉语叙词表微机编制管理系统的开发,情报学报, 1995:184-193)本质上均是计算机辅助人工录入、编制和维护叙词表的技术,即利用计算机 的数据库技术辅助编制和处理词表,实现词表结构构建和基本的编辑功能,而并不是针对 叙词表内容本身的构建技术的实现。国外关于叙词表构建技术的研究工作相对成熟,从上 世纪70年代就已经开始相关研究工作,但是,由于语言之间固有的表述差异,使得完全复 制国外的叙词表构建技术和方法是不可取的,因此,针对汉语叙词表的构建研究和开发工 作是一项具有现实意义的工作。
技术实现思路
针对
技术介绍
中存在的不足,本专利技术的目的在于提供一种汉语叙词表构建系统, 其能克服原有人工方法的缺点,节省人力物力,提高汉语叙词表的构建效率,能够方便、快 捷和低成本的实现汉语叙词表的动态构建、更新和维护。 本专利技术的另一目的在于提供一种汉语叙词表构建系统,相比人工构建汉语叙词表 的方法,其更能保证汉语叙词表构建的质量,可以支持所有基于数字化文献领域的汉语叙 词表的构建或信息提取。 本专利技术的再一目的在于有益于图书情报与档案管理领域的信息组织和利用,并可 以服务于数字图书馆。 为了实现上述目的,本专利技术提供了一种汉语叙词表构建系统,其包括输入设备、系 统处理器、存储器、以及输出设备。 输入设备输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出。 系统处理器包括:数据处理器,通信连接于输入设备且接收由输入设备输出的原 始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如 果所接收的原始数据文件属于不符合数据处理器处理的非规范化的原始数据文件,则将该 原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性 标注并输出规范文本数据,如果所接收的原始数据文件属于符合数据处理器处理的规范化 的原始数据文件,则对该原始数据文件直接行进分词和词性标注并输出规范文本数据;叙 词识别与抽取器,通信连接于数据处理器且接收数据处理器输出的分词和词性标注的规范 文本数据,以基于国家标准GB13190-91汉语叙词表编制规则进行组词、叙词的识别与抽 取、并生成和输出抽取的叙词,抽取的叙词作为选定叙词集合;叙词关系识别与抽取器,通 信连接于数据处理器以及叙词识别与抽取器并接收数据处理器输出的规范文本数据和叙 词识别与抽取器输出的选定叙词集合,以基于国家标准GB13190-91汉语叙词表编制规则 对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取,并将各个叙词 的叙词相关关系和属分关系输出;以及叙词表生成器,通信连接于叙词识别与抽取器以及 叙词关系识别与抽取器,接收叙词识别与抽取器输出的选定叙词集合、接收叙词关系识别 与抽取器输出的各个叙词的叙词相关关系和属分关系,以基于国家标准GB13190-91汉语 叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表。 存储器通信连接于系统处理器的数据处理器、叙词识别与抽取器、叙词关系识别 与抽取器、叙词表生成器,存储数据处理器、叙词识别与抽取器、叙词关系识别与抽取器、叙 词表生成器各自输出的结果。 输出设备通信连接于系统处理器的数据处理器、叙词识别与抽取器、叙词关系识 别与抽取器、叙词表生成器,并接收和输出数据处理器所输出的规范文本数据、叙词识别 与抽取器所输出的选定叙词集合、叙词关系识别与抽取器所输出的叙词相关关系和属分关 系、叙词表生成器所输出的叙词表。 本专利技术的有益效果如下: 通过本专利技术提供的汉语叙词表本文档来自技高网
...
汉语叙词表构建系统

【技术保护点】
一种汉语叙词表构建系统,其特征在于,包括:输入设备(1),输入构建汉语叙词表所需的原始数据文件并将原始数据文件输出;系统处理器(2),包括:数据处理器(21),通信连接于输入设备(1)且接收由输入设备(1)输出的原始数据文件,提供原始数据文件的存储地址,对所接收的原始数据文件进行规范性判断,如果所接收的原始数据文件属于不符合数据处理器(21)处理的非规范化的原始数据文件,则将该原始数据文件进行转换以生成规范文本数据文件且对规范文本数据文件进行分词和词性标注并输出规范文本数据,如果所接收的原始数据文件属于符合数据处理器(21)处理的规范化的原始数据文件,则对该原始数据文件直接行进分词和词性标注并输出规范文本数据;叙词识别与抽取器(22),通信连接于数据处理器(21)且接收数据处理器(21)输出的分词和词性标注的规范文本数据,以基于国家标准GB13190‑91汉语叙词表编制规则进行组词、叙词的识别与抽取、并生成和输出抽取的叙词,抽取的叙词作为选定叙词集合;叙词关系识别与抽取器(23),通信连接于数据处理器(21)以及叙词识别与抽取器(22)并接收数据处理器(21)输出的规范文本数据和叙词识别与抽取器(22)输出的选定叙词集合,以基于国家标准GB13190‑91汉语叙词表编制规则对选定叙词集合中的各个叙词进行叙词相关关系和属分关系的识别和抽取,并将各个叙词的叙词相关关系和属分关系输出;以及叙词表生成器(24),通信连接于叙词识别与抽取器(22)以及叙词关系识别与抽取器(23),接收叙词识别与抽取器(22)输出的选定叙词集合、接收叙词关系识别与抽取器(23)输出的各个叙词的叙词相关关系和属分关系,以基于国家标准GB13190‑91汉语叙词表编制规则对叙词、叙词之间的关系进行组合、排序,以生成并输出叙词表;存储器(3),通信连接于系统处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24),存储数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24)各自输出的结果;以及输出设备(4),通信连接于系统处理器(2)的数据处理器(21)、叙词识别与抽取器(22)、叙词关系识别与抽取器(23)、叙词表生成器(24),并接收和输出数据处理器(21)所输出的规范文本数据、叙词识别与抽取器(22)所输出的选定叙词集合、叙词关系识别与抽取器(23)所输出的叙词相关关系和属分关系、叙词表生成器(24)所输出的叙词表。...

【技术特征摘要】

【专利技术属性】
技术研发人员:曾文乔晓东朱礼军张均胜
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1