一种通用自动术语提取方法技术

技术编号:28872611 阅读:34 留言:0更新日期:2021-06-15 23:05
本发明专利技术公开了一种通用自动术语提取方法,包括词语属性阐释和术语提取流程,词语属性阐释框架包括3个模块:从语料到窗口、从窗口到短语、从短语到术语,分别对应术语提取流程中的语料预处理、候选词筛选、术语提取3个步骤;术语提取流程包括3个模块,预处理,候选词筛选和术语获取。本发明专利技术面向的“术语”至少满足的要求是能够承载较大信息量的概念并在语料对应的领域内存在良好传播,提取的术语可以用于建立知识图谱、文章推荐、用户画像等常见的算法和产品任务。

【技术实现步骤摘要】
一种通用自动术语提取方法
本专利技术属于知识工程的知识获取领域,主要目的是从给定语料中辨识与提取术语;使用该专利技术,能够将所谓的“术语”划定为满足某些属性要求的词语并确定提取流程,而后可解释、可控制地提取之。此专利技术面向的“术语”至少满足的要求是能够承载较大信息量的概念并在语料对应的领域内存在良好传播,提取的术语可以用于建立知识图谱、文章推荐、用户画像等常见的算法和产品任务。
技术介绍
在传统媒介和互联网中存在着大量的非结构化文本,从这些文本数据中提取出有用的领域概念是自然语言处理中一项极为重要的任务。自动术语抽取(AutomaticTerminologyExtraction,ATE)即是在一定规模、语言的语料中,提取出在领域尺度上具有重要性的词汇,以形成一个能够描绘领域骨架的核心词汇表(Vocabulary)的工作。ATE是自然语言处理(NaturalLanguageProcessing,NLP)领域中实际价值相当高的方向,但ATE又是一个争议较大,远未解决的问题。现有的ATE方法大都做了过多的简化,而忽略了语言的丰富性和复杂性,本文档来自技高网...

【技术保护点】
1.一种通用自动术语提取方法,其特征在于,包括一套词语属性阐释系统和一套术语提取流程,词语属性阐释框架有3个模块:从语料到窗口、从窗口到短语、从短语到术语,分别对应术语提取流程中的语料预处理、候选词筛选、术语提取3个步骤;术语提取流程包括3个模块:预处理,候选词筛选和术语获取。/n

【技术特征摘要】
1.一种通用自动术语提取方法,其特征在于,包括一套词语属性阐释系统和一套术语提取流程,词语属性阐释框架有3个模块:从语料到窗口、从窗口到短语、从短语到术语,分别对应术语提取流程中的语料预处理、候选词筛选、术语提取3个步骤;术语提取流程包括3个模块:预处理,候选词筛选和术语获取。


2.如权利要求1所述的通用自动术语提取方法,其特征在于,所述词语属性阐释框架的3个模块具体如下:
1)从语料到窗口即预处理:
窗口是语料上无需具备特定的关联性而连续出现的单词;
窗口取长度从1到最大设定长度的所有滑动窗口,每种长度下的窗口按其相似性做归并,包括词性的相似性归并和词形的相似性归并;
2)从窗口到短语即候选词筛选:
短语是出现一定次数、符合搭配习惯和词性特征的窗口;
搭配上,短语按凝合度来连续地衡量搭配程度,搭配程度越高则成词性越强;词性上,短语分为名词短语、动词短语、形容词短语,而绝大部分的术语提取工作中所认可的潜在术语均为名词短语;
由于词频取值是离散的自然数,因此出现次数极少的窗口在统计中会导致参数的不稳定,取大于某一词频的窗口;
3)从短语到术语即术语获取:
术语是具有概念承载性、良好传播性及其它重要属性的短语;
概念承载性与良好传播性是术语的核心属性:前者是表示术语相对非术语会承载更深刻的概念,而由于业余者将被排除出大规模展开讨论的范围,这种领域内对概念的差异把握使术语在文档间以几何分布的方式差异分布;后者是表示术语相对非术语会有更通畅的领域传播,此情形下术语在文档间能够服从几何分布;
概念承载性和良好传播性是使一个短语成为术语的基本要求,但实际任务中,其它方面的属性也会影响领域人员对一个短语是否为术语的判断;这些属性分为内部与外部两类属性,分别基于短语本身和短语之间的关系;
以下表1中,加粗者为必要的;
表1



在该词语属性阐释方案下,将语料分割统计为不同的窗口,其中能够稳定成词的短语,再满足概念承载性和良好传播性要求,就是术语。


3.如权利要求1所述的通用自动术语提取方法,其特征在于,所述术语提取流程3个模块如下:
1)预处理:
1-1)语料清洗:
去除语料中的格式和公式文本。
语料清洗步骤如下:
(1)使用正则表达式去除语料中的html标签;
(2)使用正则表达式去除语料中的数学公式;
1-2)分词:
采用相应语言的分词工具进行分词;
1-3)词性标注及其校正:
采用相应的词性标注工具,按词语序列标注词性;而后统计长度为2的滑动窗口的词性,并将同一词语序列的不同词性标注校正为出现次数最大者;
词性校正步骤如下:
(1)用分词的结果序列做第一轮词性标注;
(2)取长度为2的滑动窗口,统计每个滑动窗口出现的词性序列,将滑动窗口的词性序列归并到出现次数最多的序列;
(3)用长度为2的滑动窗口再次遍历原语料,使用归并后的词性序列校正第一轮标注的词性;
1-4)词形还原
对具有不同时态和语态的的西文语言如英语,应结合词语的词性进行词性还原;
词形还原的步骤:英文的名词复数还原为单数,形容词比较级和最高级还原为迎为原形,其他词性不做处理;中文无需进行词性还原。
2)候选词筛选:
2-1)频次分析与窗口获取;
统计语料分词后的总词数,统计不同长度的滑动窗口数;
选择一个截断词频,放弃该截断词频以下的窗口;另外,不同长度的滑动窗口自下而上搜索获得,
以(wm,...,wn)表示长度为n-m+1(n≥m)的滑动窗口,而#(wm,...,wn)表示滑动窗口(wm,...,wn)在语料中出现的频次;若n>m,则显然有:
#(wm+1,...,wn),#(wm,...,wn-1)

#(wm,...,wn)

#(wm-1,...,wn),#(wm,...,wn+1)
对于给定语料中的任意一对存在包含关系的滑动窗口,恒有#母序列≥#子序列成立,且易知等号在常规文本中难以成立。因此当截断词频大于1时,采用自动搜索算法,不断增加长度,到某级不再出现词频满足条件的序列则自动停止搜索;
窗口获取的步骤:
(1)分别遍历语料,获取长度为1到n的所有窗口;
(2)统计计每个窗口出现的频数,选取窗口数量在设定词频阈值之上的部分;
2-2)碎片筛除;
由于滑动窗口法会得到一些词语碎片,无法使用凝合度方法过滤或者不稳定搭配,需要进行搭配分析以过滤这些窗口;若ABC的词频与AB的词频近似相等,那么,当出现AB时,一定有C随后出现,AB将不再被单独考虑为一个词组;至于是否将ABC作为词组,则要相应地看ABC和所有ABCD或DABC的关系;若AB后第三个词的分布十分均匀且多样,那么所有的ABC被认为是固定搭配,而AB被认为是固定搭配;
碎片筛除步骤:
(1)遍历长度为l和长度为l+1的窗口,找出长度为l+1的窗口的所有母序列(长度为l)及其出现频数;
(2)计算l+1窗口的频数和其l窗口母序列的频数比,若频数比大于阈值0.9,则从候选窗口去除该母序列;
2-3)标点和词性过滤并得到名词短语
对于特定长度的术语,采用词性序列统计法;对变长度的序列进行考虑,则由名词的位置和名词的占比筛除非候选词:首尾均非实词的词组作为非术语候选词处理,名词占比低于特定阈值的词语亦作为非术语候选词处理;
与词性过滤相平行,利用自然语言处理工具的名词短语提取功能,直接从已完成预处理的语料中提出所有合法的名词短语;
词性过滤和提取名词短语的结构取交集,得到候选名词短语。
获取英文名词短语步骤:
(1)去除掉所有含有标点的窗口;
(2)词性过滤,从所有窗口序列中,选出首尾不为虚词且至少含有一个名词的窗口,得到窗口集合S1;
(3)对于英文,使用短语句法分析器选出所有的名词短语集合S2;
(4)对S1和S2取交集,得到候选名词短语集合S;
获取中文名词短语步骤:
(1)去除掉所有含有标点的窗口;
(2)选出首尾不为虚词且至少含有一个名词的窗口,得到窗口集合S1;
(3)使用句法依存分析标记每个词的词性,和它依存的中心词;
(4)如果某个词和它的中心词连续出现没有间隔...

【专利技术属性】
技术研发人员:胡乔徐恩峤
申请(专利权)人:集智学园北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1