当前位置: 首页 > 专利查询>王忠周专利>正文

汉语文献计算机自动标引新技术制造技术

技术编号:2891826 阅读:246 留言:0更新日期:2012-04-11 18:40
本发明专利技术开发了计算机程序控制的汉语文献的自动化标引,名称为汉语文献计算机自动标引新技术。本发明专利技术是汉语信息处理技术的突破,突出特点是:不需建立叙词库,不受新增词限制,更能适应当代科技高速发展的需要;可避免一般自动标引方法中由于汉语容易出现字、词的“误切”和“漏切”所造成的“误标”和“漏标”;标引速度快,准确率高,5分钟可完成1500条文摘的标引,准确率接近100%。(*该技术在2014年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术开发了计算机程序控制的汉语文献的自动标引。本专利技术完全可以取代目前普遍使用的汉语文献人工标引方法,实现准确和高效率的自动化标引与自动化检索。目前使用的人工标引方法效率低,误差大,而完全依赖于电子计算机智能,目前尚不能完成对汉语文献中自然语言的字、词恰当“切分”,更不能对主题词给出“联符”、“职符”和“加权”,无法避免字、词的“误切”和“漏切”,也就无法解决文献标引中的“误标”和“漏标”,大大影响了文献的查准率。因此,实现计算机准确高效的自动标引一直是国内外研究的重要课题。目前正在研究中的自动标引方法一般都需要建立叙词库,而且受新增词的限制,所以未能付诸实用。目前仍普遍采用费时、费力、误差较大的人工标引方法,这与当前科学技术迅猛发展的形势极不适应。纵观国内外关于自动标引的研究现状可以发现,没有文献工作的标准化就没有文献标引和检索工作的自动化。本专利技术通过对大量汉语文献的分析发现,各种文献中对于同一主题事物的同一方面问题(即同一主题内容)可能有多种不同结构的描述语句,而且各种语句中的虚词、连词及其它功能词也各不相同,这种语序结构上的极大混乱给计算机的识别带来很大困难。为此,本专利技术在对大量句型进行系统分析研究的基础上,按照汉语的语法逻辑关系及语句结构特点,采取一些独特的技术措施,创造了一种独特的“模式化标引法”,即,“汉语文献计算机自动标引新技术”(也称“WBB模式化标引法”)。使用本专利技术完全可以克服现有人工标引方法效率低、误差大的缺点,又可以完全消除机器标引中可能发生的“误切”、“漏切”和由此引起的“误标”与“漏标”,从而保证了文献的准确标引以及高效率、高准确率的检索。采用本专利技术的“模式化标引法”在5分钟内可以完成对1500条文摘的标引工作,劳动效率提高近万倍,标引准确率接近100%。能对各种汉语文献(可以是简体字,也可以是繁体字)进行准确的自动化标引。同时也设计了“紧缩比较检索法”。并设计出能对各种汉语文献实现准确标引及检索的计算机模块。采用本专利技术后,全国各系统、各部门的文献管理部门只需要一名专业人员对文献进行选题,录入人员利用本专利技术便可顺利完成文献标引与建库工作。因此,本专利技术既是汉语信息处理技术中的一项重大突破,也是实现文献和信息管理体制改革的一项重大措施。本专利技术的“模式化标引法”是通过使用形式化的自然语言(而不是纯叙词)的句型模式典型“抽词句”表达文献主题并通过“定位抽词”实现自动标引的方法。因此,要实现计算机自动标引,既要充分发挥计算机本身的功能,又要根据汉语的特点,对标引对象(文献或文摘)进行微规范化处理,使其有利于计算机识别。本专利技术的这种微规范化处理方法非常简便易行。本专利技术的主要内容包括典型抽词句的设计、定位原理和定位方法、以及模式化自动定位抽词标引法。1、根据汉语的语义、句法和语句的结构类型,从大量文献中选取了若干具有代表性的自然语言描述句作为典型“抽词句”。本专利技术在对大量汉语文献中主题描述句结构和类型进行系统分析和反复比较的基础上,选择出若干具有代表性的、符合汉语自然语言习惯的、既便于编写者使用又有利于计算机识别的自然语言描述句作为模式化的典型“抽词句”。文献作者(或文摘编写者)在编写文献(或文摘)时,只要在相应的“抽词句”句型的空栏处填入所需抽出的标引词或短语,该文献(或文摘)就具备了使用本专利技术的程序实现计算机自动标引的基本条件。这样做的优点是①使文献作者(或编辑)有比较明确而又易于掌握的主题描述句固定句型模式,编写方便,不会遗漏主题要素项目,保证标引和检索词齐全。②文献作者最能把握文献的主题内容,给出最恰当的标引词(包括叙词和自由词),特别是对专业性较强、隐含概念较深的文献,不致于漏掉隐含主题。③由于模式化“抽词句”中所需抽出的标引词都在固定位置上,可以填入任意新增词而不受叙词表规范的限制,在标引中不存在词汇滞后现象,特别适合当代科学技术速迅发展与新事物新名词不断增加的文献自动标引要求。主要“抽词句”句型包括“书名号自动定位抽词句”句型《-》是-,-,-。(J1)本-为《-》,-,-。(J2)“三字自动定位抽词句”句型XX了-的-,XX用-。(J3)XX用-法XX-。(J4)本文以-为原料,用-法制备-。(J5)XX了-在-方面的-。(J6)综述了-的-。(J7)研究了-对-的影响(或作用)。(J8)研究了-与-的关系。(J9)报导了-。(J10)作者用-(工艺),制备-,原料用-,进行-。(J11)实验用-和-,合成-,设备用-,-。 (J12)本文用-,分析了-,用-仪器,-。(J13)2、针对上述典型“抽词句”句型,本专利技术设计了一种独特的“模式化自动定位法”,即分别对“抽词句”中不抽出的符号、字、词或短语给出位置号,以确定标引内容所在位置的方法,其中包括“书名号自动定位法”给出位置号的方法①对基本句型模式1(J1)《-----》是----,----,----。W1 W2从“《 》是”开始到本句中的句号“。”,为一个完整“抽词句”句型,用J1表示;“《 》是”称为J1中的“起始抽词标识”,其位置号用W1表示;句号“。”称为J1的“终止抽词标识”,其位置号用W2表示;②对基本句型模式2(J2)本---为《---》,---,---。W1 W2 W3从“本”字开始到本句中的句号“。”,为完整的“抽词句”,用J2表示;J2中的“本”字称为J2的“起始抽词标识”,其位置号用W1表示;J2中的“为《 》”位置号用W2表示;J2中的句号“。”为J2的“终止抽词标识”,其位置号用W3表示;“三字自动定位法”给出位置号的方法(以两种句型为例说明,不限制本专利技术)①对基本句型模式3(J3)XX了-----的-----,XX用-----。W1 W2 W3 W4从“XX了”开始到句号“。”为一个完整的“抽词句”,用J3表示;开头的“XX了”称为J3的“起始抽词标识”,其位置号用W1表示;“的”字位置号用W2表示;“XX用”的位置号用W3表示;句号“。”称为“终止抽词标识”,其位置号用W4表示;②对基本句型模式4(J4)本文用-----法,制备-----。W1 W2 W3从“本文用”开始到句号“。”为一个完整抽词句,用J4表示;“本文用”称为J4的“起始抽词标识”,其位置号用W1表示;“制备”的位置号用W2表示;句号“。”称为“终止抽词标识”,其位置号用W3表示;本专利技术规定,在上述典型“抽词句”中空栏处填入的内容也就是所需抽出的标引词或短语,“抽词句”中的“X”为任意汉字。在编写汉语文献时,可将“抽词句”放在文献摘要(题解、简介、文摘)、前言或文献任何描述部分,但最好放在文献或文摘开头,这样可以大大提高标引速度。选用上述相应的句型后,将所需抽出的标引词或短语(字数可为1-80个汉字)填入该句型的空栏处即可。3、“模式化自动定位抽词”的方法本专利技术的模式化自动定位抽词标引法是通过“模式化自动定位抽词法”实现的,其自动定位抽词法分为两大类,即“书名号自动定位抽词法”和“三字自动定位抽词法”,下面分别描述其自动定位抽词过程“书名号自动定位抽词法”的自动抽词①对基本句型模式1(J1)的自动定位抽词S1 S2 S3《----》是----,----,----。W1 W2本文档来自技高网...

【技术保护点】
一种按选定的典型“抽词句”根据由计算机程序控制的“模式化自动定位法”给出位置号,进行“模式化自动定位抽词”,给出“隐式标引”结果(给出“联符”、“职符”和“加权”)和“显式标引”结果的“汉语文献计算机自动标引新技术”;。

【技术特征摘要】

【专利技术属性】
技术研发人员:王忠周鲍爱华王崇廉王军梅
申请(专利权)人:王忠周鲍爱华王崇廉王军梅
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1