【技术实现步骤摘要】
本专利技术涉及一种利用计算机对科技术语自动识别和抽取的方法,特别是涉及一种利用计 算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。
技术介绍
随着信息技术的发展,人们掌握的科技文献越来越多,而手工进行加工处理显然已经成 为不可能,因此自动化技术的引入是必然的趋势。然而,要对这些信息进行自动文摘、自动 标引、自动分类甚至是机器翻译等加工处理,科技术语是一大障碍。自动识别并抽取文献中 的科技术语,是一件非常紧迫、也是一件非常有意义的工作中国专利申请03148989.3公开了一种从双语语料库中自动抽取多词翻译等价单元的方 法。该专利技术方法采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡 量标准;在对齐的过程中同时识别多词单元。该专利技术方法的改进使得算法能有效地同时抽取 高频和低频双语多词翻译等价单元,提高抽取的正确率和降低计算复杂度。该方法是一种基 于共现概率的方法,而且仅限于中英对齐语料库,并没有对中文文献进行深入的研究。中国专利申请200710121839.0公开了一种专业术语抽取方法和系统,按照专利文献所属 领域的不同将专利文献划分 ...
【技术保护点】
一种科技术语抽取方法,包括以下步骤: 步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中; 步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语; 步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。
【技术特征摘要】
1、一种科技术语抽取方法,包括以下步骤步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语;步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。2、 如权利要求1所述的方法,其特征在于所述语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所 组成;所述科技术语的特点包括字符串重复出现的频次、字符串分词信息的完整度、字符串成 词概率、在文献中出现位置等因素的综合。3、 如权利要求l所述的方法,其特征在于所述步骤B中,进一步包括以下步骤 步骤B1,以专利领域文献库为单位,根据统计的方法,寻找重复出现的字串,并记录重复字串的特征;步骤B2,根据文档率和总频次以及出现位置计算重复串的特征值,计算方法如下特征 值分为两部分,文档内特征值Wi和文档间特征值Wg;步骤B3,设定一阈值,将小于该阈值的重复串删除; 所述方法中的阈值由语料训练得到; 步骤B4,对重复串进行分词,获取其中的实词串; 所述方法中的实词包括名词、动词、形容词、副词词类。;步骤B5,结合词法规则,对实词串进行头部和尾部校验,以进一步确定术语的合法边界, 直到头部和尾部均校验完毕;文档内特征值由文档内部的分布情况计算,文档间特征值主要根据重复串在文档集合中 出现的情况计算,所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置, 最后的特征值为二者的乘积w = WixWg。4、 如权利要求3所述的方法,其特征在于-所述重复字符串的特征值是由若干章节内的特征值的总和为所述若千章节之一的重复串特征值为-其中,Wp为所述章节的特征值,Wipf为词频特征值,Wipd为共现因子;在一个章节内,词频特征值代表一个词语的特征值,即,频率越高,特征值越大,艮P:在一个章节内,用共现因子对词语的共现程度进行评估,假设两个重复串共现距离分别 是dl,d2,d3......dm,那么两个词语的共现因子可以定义为-y=i 5、 如权利要求2所述的方法,其特征在于文档间特征值表示如果某重复串的分布在文档集合中是均匀的,说明该重复串在很多文 本中出现,故认为其代表某一文本的能力较弱,该重复串的文档间特征值应为0;如果该词 只在一个文本中出现,这时认为该重复串代表这一文本的能力强,其文档间特征值则最大。6、 如权利要求2所述的方法,其特征在于-采用均方差来评估一个重复串在各个文档中的分布情况假设重复串T在文档集合中的特征值分别是wk (k=l,2,...|D...
【专利技术属性】
技术研发人员:王进,张素兰,贾学杰,任丽,王永生,张迁,王婷婷,
申请(专利权)人:北京中献电子技术开发中心,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。