一种基于概念符号的文本领域的获取系统及方法技术方案

技术编号：4939129 阅读：205 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于概念符号的文本领域的获取系统及方法。该系统包括：一用于表达词语概念和领域类别的概念符号集、一存储词语及其概念符号的词语知识库、一分词处理器、一语句语义分析器、一领域判别器。该方法包括以下步骤：（１）把输入文本切分为段落、语句、词语；（２）对语句进行语义分析，得到语句的概念类别和语义块；（３）根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语；（４）对激活词语的领域概念符号进行综合评分，取得分最高的领域概念符号作为语句的领域；（５）对段落中的语句按照其领域概念符号进行合并，得到句群及其领域；（６）根据文本标题、句群在文本中出现频次和位置得到文本的领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及利用计算机科学与技术对文本进行语言文字信息处理的领域，特别涉及。
技术介绍
文本分类技术是利用计算机，根据一定的规则、知识和步骤，把一篇文本归为一个或多个领域类别的方法和过程。文本分类的一般方法是将文本表示成特征向量，当两篇文本的特征向量的"夹角"小于某个角度时，它们被归为同一类别。一般选取词语作为文本特征构成文本的特征向量，特征向量的构造方法多采用TF*IDF方法或由此衍生的TF*IWF方法，TF*IDF即用词语在文档中的出现频率和在文档集合中出现频率的倒数之乘积作为特征向量中该特征词语对应的取值。文本分类的K近邻方法、贝叶斯方法、支持向量机、神经网络、决策树等都是以文本的向量空间模型为基础的统计方法，在分类之前要求有事先分类好的大量文本集进行参数优化训练，训练后可以将新文本归入到某一定义好的类别中。中国专利文件(公开号 CN100353361 )公开了一种新的面向文本分类的特征向量权重的方法和装置，在 TF*IWF方法的基础上引入了 DBV和TF的n词方根，通过按词语频率选取各分类领域的不同特征词数(50、 100、 200、 500、 1000、 1500、 2000、 2500、 3000、 3500、 4000)的实验，发现取3500词时其实验系统性能较好。由于文本分类方法要求事先知道文本的领域类别集合和分类标准，在分类类别不确定和训练文本集获取困难的情况下，文本分类方法将很难实施。因此，又出现了文本聚类技术。常用的文本聚类方法的典型代表是K-Means算法，即首先从文本集中任选K个文本作为聚类中心，其...

【技术保护点】
一种基于概念符号的文本领域的获取系统，其特征在于，所述获取系统包括：　一领域概念符号集，用于表达词语概念和领域类别，并向领域判别器提供所需的领域概念符号；　一词语知识库，用于存储词语及其概念符号，并向分词处理器和语句语义分析器提供所需的词语及其概念符号；　一分词处理器，用于把输入文本切分为段落、语句、词语，并送入语句语义分析器；　一语句语义分析器，用于对语句进行语义分析，得到语句的概念类别和构成语句的语义块，包括：语义块的角色、边界和内部构成；　一领域判别器，用于根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语；然后根据语句中的激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分，取得分最高的领域概念符合作为语句的领域；接着对段落中的语句按照其领域概念符号进行合并，得到句群及其领域；最后根据输入文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。

【技术特征摘要】

【专利技术属性】
技术研发人员：韦向峰，黄曾阳，张全，缪建明，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：11[]

全部详细技术资料下载我是这个专利的主人