一种术语的筛选方法技术

技术编号：11383588 阅读：111 留言：0更新日期：2015-05-01 08:37

一种术语的筛选方法，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选；将经过多次筛选后，剩余的候选术语作为新的术语。本发明专利技术通过词频、互信息、左右熵、独立性和结构上对候选术语进行多次筛选，减少了人工处理的工作量，确保得到的术语可靠性和准确性较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘
，尤其是一种术语的筛选方法。背景
术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异，一些特定领域的专业术语不断扩大与更新，因此按照传统的人工搜集领域术语的方式已无法满足实际需求，自动抽取领域术语(ATE，Automatic Term Extraction)已成为了必然。实际应用中，领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。目前，业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定，领域术语提取效果比较差。
技术实现思路
本专利技术的目的之一是提供一种术语的筛选方法，以解决现有技术中对于领域术语提取效果比较差的问题。在一些说明性实施例中，所述术语的筛选方法，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选；将经过多次筛选后，剩余的候选术语作为新的术语。与现有技术相比，本专利技术的说明性实施例包括以下优点：本专利技术通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选，确保得到的术语可靠性和准确性较高。附图说明此...
一种术语的筛选方法

【技术保护点】
一种术语的筛选方法，其特征在于，包括：对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其中，每个所述候选术语由至少二个语素组成；对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选；将经过多次筛选后，剩余的候选术语作为新的术语。

【技术特征摘要】
1.一种术语的筛选方法，其特征在于，包括：
对原始语料以语素为单位进行任意长度的切分，获得若干候选术语，其
中，每个所述候选术语由至少二个语素组成；
对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域
多个维度依次进行筛选；
将经过多次筛选后，剩余的候选术语作为新的术语。
2.根据权利要求1所述的筛选方法，其特征在于，所述对获得的所述
候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行
筛选的过程中，包括：
将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选
术语滤除，并将剩余的候选术语作为一鉴术语。
3.根据权利要求2所述的筛选方法，其特征在于，所述对获得的所述
候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行
筛选的过程中，还包括：
将每个所述一鉴术语分割为任意长度的两部分，并计算出两部分的互信
息的最小值，作为该一鉴候选术语的互信息；
将所述互信息低于第二阈值的一鉴术语滤除，并将剩余的一鉴术语作为
二鉴术语。
4.根据权利要求3所述的筛选方法，其特征在于，所述对获得的所述
候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行
筛选的过程中，还包括：
分析出每个所述二鉴术语的左右熵；其中，所述左右熵为每个所述二鉴
术语的左熵和右熵中的较大值；
将所述左...

【专利技术属性】
技术研发人员：江潮，张芃，
申请(专利权)人：语联网武汉信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人