一种术语的筛选方法技术

技术编号:11383588 阅读:111 留言:0更新日期:2015-05-01 08:37
一种术语的筛选方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选;将经过多次筛选后,剩余的候选术语作为新的术语。本发明专利技术通过词频、互信息、左右熵、独立性和结构上对候选术语进行多次筛选,减少了人工处理的工作量,确保得到的术语可靠性和准确性较高。

【技术实现步骤摘要】

本专利技术属于数据挖掘
,尤其是一种术语的筛选方法。背景
术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定,领域术语提取效果比较差。
技术实现思路
本专利技术的目的之一是提供一种术语的筛选方法,以解决现有技术中对于领域术语提取效果比较差的问题。在一些说明性实施例中,所述术语的筛选方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选;将经过多次筛选后,剩余的候选术语作为新的术语。与现有技术相比,本专利技术的说明性实施例包括以下优点:本专利技术通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选,确保得到的术语可靠性和准确性较高。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是按照本专利技术的说明性实施例的流程图。具体实施方式在以下详细描述中,提出大量特定细节,以便于提供对本专利技术的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本专利技术的理解。本专利技术中所采用的术语“语素”是指语言数据中的不可拆分的最小单位,对应为一个字或一个单词。如图1所示,公开了一种术语的筛选方法,包括:S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;S12、对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选;S13、将经过多次筛选后,剩余的候选术语作为新的术语。本专利技术通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选,确保得到的术语可靠性和准确性较高。以下对上述方法进行详细说明:例如:原始语料“中华人民共和国”进行切分,首先以两个语素单位进行切分,可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语,再以三个语素单位进行切分,可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语,再以4个语素单位进行切分,可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语,再以5个语素单位进行切分,可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语,再以6个语素单位进行切分,可以获得“中华人民共和”、“华人民共和国”两个候选术语,以7个语素单位进行切分,即得到候选术语“中华人民共和国”。以上共获得21个候选术语。以上的切分过程是为了便于更快的理解本专利技术的说明性实施例的示例,原始语料可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切分单位,例如最大切分单位为10个语素。在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选的过程中,包括:将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选术语滤除,并将剩余的候选术语作为一鉴术语。具体包括:通过以每个候选术语在原始语料中进行扫描,统计出该候选术语的出现次数,即为该候选术语的词频。在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:将每个所述一鉴术语分割为任意长度的两部分,并计算出两部分的互信息的最小值,作为该一鉴候选术语的互信息;将所述互信息低于第二阈值的一鉴术语滤除,并将剩余的一鉴术语作为二鉴术语。例如:分析的候选术语C的长度为l个语素单位,以第k个语素位置,进行拆分,得到的前部为c1~ck,后部为ck+1~cl。按照如下公式进行互信息的计算:MI=I(c1c2...cl)=min(I((c1c2...ck),(ck+1ck+2...cl)))=min(log2P(c1c2...cl)P(c1c2...ck)·P(ck+1ck+2...cl))]]>其中,c1c2…cl分别对应为候选术语C中相应位置的语素,P(c1c2…cl)为该候选术语C在原始语料中的出现概率,P(c1c2…ck)为候选术语C的前部在原始语料中的出现概率,P(ck+1ck+2…cl)为候选术语C的后部在原始语料中的出现概率,该出现概率的获得方法与上述相同,在此不再赘述。在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:分析出每个所述二鉴术语的左右熵;其中,所述左右熵为每个所述二鉴术语的左熵和右熵中的最大值;将所述左右熵低于第三阈值的二鉴术语滤除,并将剩余的二鉴术语作为三鉴术语。具体包括:按照如下公式进行计算:LH(C)=-Σ∀l∈LP(lC|C)·log2P(lC|C)]]>其中,LH(C)为候选术语C的左熵,L表示出现在候选术语C左侧的词汇集合,P(lC|C)为词汇l出现在候选术语C左侧的条件概率;RH(C)=-Σ∀r∈RP(Cr|C)·log2P(Cr|C)]]>其中,RH(C)为候选术语C的右熵,R表示出现在候选术语C右侧的词汇集合,P(Cr|C)为词汇r出现在候选术语C右侧的条件概率;LRH=max(LH(C),RH(C))其中,LRH为候选术语C的左右熵,通过对其左熵和右熵取较大值获得。在一些说明性实施例本文档来自技高网...
一种术语的筛选方法

【技术保护点】
一种术语的筛选方法,其特征在于,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选;将经过多次筛选后,剩余的候选术语作为新的术语。

【技术特征摘要】
1.一种术语的筛选方法,其特征在于,包括:
对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其
中,每个所述候选术语由至少二个语素组成;
对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域
多个维度依次进行筛选;
将经过多次筛选后,剩余的候选术语作为新的术语。
2.根据权利要求1所述的筛选方法,其特征在于,所述对获得的所述
候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行
筛选的过程中,包括:
将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选
术语滤除,并将剩余的候选术语作为一鉴术语。
3.根据权利要求2所述的筛选方法,其特征在于,所述对获得的所述
候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行
筛选的过程中,还包括:
将每个所述一鉴术语分割为任意长度的两部分,并计算出两部分的互信
息的最小值,作为该一鉴候选术语的互信息;
将所述互信息低于第二阈值的一鉴术语滤除,并将剩余的一鉴术语作为
二鉴术语。
4.根据权利要求3所述的筛选方法,其特征在于,所述对获得的所述
候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行
筛选的过程中,还包括:
分析出每个所述二鉴术语的左右熵;其中,所述左右熵为每个所述二鉴
术语的左熵和右熵中的较大值;
将所述左...

【专利技术属性】
技术研发人员:江潮张芃
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1