一种基于概念符号的文本领域的获取系统及方法技术方案

技术编号:4939129 阅读:205 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于概念符号的文本领域的获取系统及方法。该系统包括:一用于表达词语概念和领域类别的概念符号集、一存储词语及其概念符号的词语知识库、一分词处理器、一语句语义分析器、一领域判别器。该方法包括以下步骤:(1)把输入文本切分为段落、语句、词语;(2)对语句进行语义分析,得到语句的概念类别和语义块;(3)根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语;(4)对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符号作为语句的领域;(5)对段落中的语句按照其领域概念符号进行合并,得到句群及其领域;(6)根据文本标题、句群在文本中出现频次和位置得到文本的领域。

【技术实现步骤摘要】

本专利技术涉及利用计算机科学与技术对文本进行语言文字信息处理的领域,特别 涉及。
技术介绍
文本分类技术是利用计算机,根据一定的规则、知识和步骤,把一篇文本归为 一个或多个领域类别的方法和过程。文本分类的一般方法是将文本表示成特征向量, 当两篇文本的特征向量的"夹角"小于某个角度时,它们被归为同一类别。 一般选 取词语作为文本特征构成文本的特征向量,特征向量的构造方法多采用TF*IDF方法 或由此衍生的TF*IWF方法,TF*IDF即用词语在文档中的出现频率和在文档集合中 出现频率的倒数之乘积作为特征向量中该特征词语对应的取值。文本分类的K近邻 方法、贝叶斯方法、支持向量机、神经网络、决策树等都是以文本的向量空间模型 为基础的统计方法,在分类之前要求有事先分类好的大量文本集进行参数优化训练, 训练后可以将新文本归入到某一定义好的类别中。中国专利文件(公开号 CN100353361 )公开了一种新的面向文本分类的特征向量权重的方法和装置,在 TF*IWF方法的基础上引入了 DBV和TF的n词方根,通过按词语频率选取各分类 领域的不同特征词数(50、 100、 200、 500、 1000、 1500、 2000、 2500、 3000、 3500、 4000)的实验,发现取3500词时其实验系统性能较好。由于文本分类方法要求事先知道文本的领域类别集合和分类标准,在分类类别 不确定和训练文本集获取困难的情况下,文本分类方法将很难实施。因此,又出现 了文本聚类技术。常用的文本聚类方法的典型代表是K-Means算法,即首先从文本 集中任选K个文本作为聚类中心,其它文本根据与聚类中心的特征向量"距离"划 归到距离最近的那个聚类中;然后再以K个类中所有文本的特征向量的均值作为新 的聚类中心,所有文本又根据与聚类中心的距离再聚类,如此迭代计算直到评价函 数收敛为止。但是,文本自动聚类得到的领域类别非常粗糙,由于缺乏分类指导其 结果很难适应实际的需求。而且同一个文本聚类方法,对某个文本集效果较好,对 另一个文本集效果却可能很差,即文本聚类的实用性和稳定性都存在缺点。综上,文本分类的统计方法需要大量的事先分类好的训练语料,这往往是分类 时所难以提供的。而文本聚类虽然能克服这一缺点,但聚类结果却很难与分类的实际需求相结合。
技术实现思路
为了克服上述现有技术中的问题,本专利技术提供了一种基于概念符号的文本领域 的获取系统及方法,该系统及方法具有分类标准可配置和分类方法规则化的特点, 可以在没有训练语料的情况下获得文本的基本领域分类,并可以根据实际需要定制 文本的分类类别,可用于文本的自动聚类。为了达到上述目的,本专利技术提供的一种基于概念符号的文本领域的获取系统, 如图1所示,包括一领域概念符号集,用于表达词语概念和领域类别,并向领域判别器提供所需 的领域概念符号。一词语知识库,用于存储词语及其概念符号,并向分词处理器和语句语义分析 器提供所需的词语及其概念符号。一分词处理器,用于把输入文本切分为段落、语句、词语,并送入语句语义分 析器。一语句语义分析器,用于对语句进行语义分析,得到语句的概念类别和构成语 句的语义块,包括语义块的角色、边界和内部构成。一领域判别器,用于根据领域概念符号集和词语知识库中的语义概念符号得到 语句中的激活词语;然后根据语句中的激活词语的语义块类型、领域概念符号关系、 出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域 概念符合作为语句的领域;接着对段落中的语句按照其领域概念符号进行合并,得 到句群及其领域;最后根据输入文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。其中,所述语义块的角色类型分为特征语义块E、作用者语义块A、对象语义 块B及内容语义块C;所述特征语义块类型E分为两种类型a)全局特征语义块 Eg,是语句第一级层次中的特征语义块E; b)局部特征语义块E/,是语义块中嵌套 语句S'时嵌套语句S'的特征语义块E。其中,所述领域概念符号集包括以下高层节点符号"71,72"表示心理活动及精神状态;"8"表示人类思维活动;"a, b"表示专业 及追求活动(第二类劳动);"d"表示理念活动;"q6"表示第一类劳动;"q7"表示 业余活动;"q8"表示信仰活动;"6m"表示本能活动,其中m=0~5; "3228a"表示 灾祸,其中a=8~b; "503,50a"表示状态,其中a=8 b;领域概念高层节点表示的领域71,72心理活动及精神状态8人类思维活动a, b专业及追求活动(第二类劳动)d理念活动q6第一类劳动q7业余活动q8信仰活动6m (m=0 5)本能活动3228a (a=8 b)灾祸503, 50a(a=8 b)状态以及所述高层节点向下延伸的更具体的领域概念节点符号。其中,所述领域判别器按如下方法确定语句S的领域首先,从句类分析的结 果中获得激活词语所处语义块的类型;然后,按全局特征语义块Eg〉局部特征语义 块E/〉内容语义块C〉(对象语义块B或作用者语义块A)的语义块类型顺序依次确定语句S的领域;当同一类型语义块中有多个激活词语(WhW2,.,.,Wn)时,假设激活词语对应的领域概念符号分别为(D,,D2,…,D。),那么根据如下计算公式计算每一 个领域概念符号在语句中的得分S(Di)= Rel(i)+Fre(i)+Pos(i) , 1必n; 其中,Rel(i)表示第i个领域概念符号Di在语句中与其它领域概念符号 Dj(j戎l5j^i)的关系得分;Fre(i)表示第i个领域概念符号D,在语句S中的出现频次, 频次越高其值越大;Pos(i)表示第i个领域概念符号Di在语句S中的出现位置,位 置越靠后其值越大。将得分s(Di)最高的第i个领域概念符号Di作为语句S的领域。其中,所述领域判别器判断文本领域的原则还包括如果文本中有标题,那么 标题的领域作为文本的领域;如果文本中没有标题,那么文本中最先出现的频次最 多的句群领域作为文本的领域。本专利技术提供的一种基于概念符号的文本领域的获取方法,如图2所示,包括以 下步骤(1)分段分句分词分词处理器把输入文本切分为段落、语句、词语。 一个输入文本在计算机中被作为一个字符串T。以字符串T中的"回车、换行"符为切分点,把文本T切分为若干个段落P。以段落P中的"句号、问号、叹号和分号"等字符为切分点,把段落P切分成若干个语句S。语句S由汉字和其他字符构成。设A、 B、 C是语句S中出现的汉字,若"AB"是词语知识库中的词语,则"ABC"切分为"AB/C";同理,若"BC"是词中的词语,则"ABC"切分为"A/BC"。如果"AB"和"BC"都是词库中的词语,那么按 照左切分原则切分为"A/BC";如果"ABC"是词库中的词语,那么按照最大词长 原则切分为"/ABC/"。于是,语句S被切分为若干个词语W,分词结束。(2) 语句语义分析语句语义分析器对语句进行语义分析,得到语句的概念类 别和构成语句的语义块,包括语义块的角色、边界和内部构成。对于每一个语句S,分析语句得到其语义类别(句类)代码SCode,格式代码 SFomat,句类表达式SExpression,构成语句的语义块的种类、范围、在句类表达式 中的具体名称等等本文档来自技高网
...

【技术保护点】
一种基于概念符号的文本领域的获取系统,其特征在于,所述获取系统包括: 一领域概念符号集,用于表达词语概念和领域类别,并向领域判别器提供所需的领域概念符号; 一词语知识库,用于存储词语及其概念符号,并向分词处理器和语句语义分析器提 供所需的词语及其概念符号; 一分词处理器,用于把输入文本切分为段落、语句、词语,并送入语句语义分析器; 一语句语义分析器,用于对语句进行语义分析,得到语句的概念类别和构成语句的语义块,包括:语义块的角色、边界和内部构成;  一领域判别器,用于根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语;然后根据语句中的激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符合作为语句的领域;接着对段落中的语句按照其领域概念符号进行合并,得到句群及其领域;最后根据输入文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。

【技术特征摘要】

【专利技术属性】
技术研发人员:韦向峰黄曾阳张全缪建明
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1