一种语义化文本描述方法及系统技术方案

技术编号:10905432 阅读:99 留言:0更新日期:2015-01-14 14:37
本发明专利技术公开了一种语义化文本描述方法及系统,该方法包括以下步骤:将整个文本文档中各个语义段落进行段落级语义分析;对各个段落级语义汇总语义信息;对每个段落进行语义维度化描述;进行文档特征描述;文档特征描述维度互校正。本发明专利技术中,使自然语言段落间的起承转合体现在语义空间和维度特征上,会存在相邻段落间语义向量和维度的较强的关联性,通过增强相关维度,抑制无关维度的计算,增强核心语义特征,并起到抑制噪声的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种语义化文本描述方法及系统,该方法包括以下步骤:将整个文本文档中各个语义段落进行段落级语义分析;对各个段落级语义汇总语义信息;对每个段落进行语义维度化描述;进行文档特征描述;文档特征描述维度互校正。本专利技术中,使自然语言段落间的起承转合体现在语义空间和维度特征上,会存在相邻段落间语义向量和维度的较强的关联性,通过增强相关维度,抑制无关维度的计算,增强核心语义特征,并起到抑制噪声的效果。【专利说明】 一种语义化文本描述方法及系统
本专利技术涉及数据网络
,尤其涉及一种语义化文本描述方法及系统。
技术介绍
文本与讯息的意义大致相同,指有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益,因此,由文本内容分析,可以推断文本提供者的意图和目的。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。
技术实现思路
为了解决
技术介绍
中存在的技术问题,本专利技术提出了一种语义化文本描述方法及系统,抑制无关维度的计算,增强核心语义特征,并起到抑制噪声的效果。 本专利技术提出的一种语义化文本描述方法,包括以下步骤: 将整个文本文档中各个语义段落进行段落级语义分析; 对各个段落级语义汇总语义信息; 对每个段落进行语义维度化描述; 进行文档特征描述; 文档特征描述维度互校正。 优选地,所述将整个文本文档中各个语义段落进行段落级语义分析,具体为对文本文档中每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性。 优选地,所述对各个段落级语义汇总语义信息,具体为:汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数为约束条件,来挑选尽可能涵盖全文语义的若干个句组组成全文摘要。 优选地,所述对每个段落进行语义维度化描述包括时间序列、地区分布维度。 优选地,所述进行文档特征描述,具体包括计算文档特征参数,并用来描述该文档。 优选地,所述文档特征描述维度互校正,具体包括对相邻语义段落的维度分析矢量、维度矢量做矫正:根据词语语义关联、维度关联进行平方和互乘,然后开方,并处以维度和,作为矫正后的值。 本专利技术提出的一种语义化文本描述系统,包括: 分析模块,用于将整个文本文档中各个语义段落进行段落级语义分析; 汇总模块,与所述分析模块连接,用于对各个段落级语义汇总语义信息; 维度化描述模块,与所述汇总模块连接,用于对每个段落进行语义维度化描述; 特征描述模块,与所述维度化描述模块连接,用于进行文档特征描述; 互校正模块,与所述特征描述模块连接,用于文档特征描述维度互校正。 优选地,所述分析模块具体用于将整个文本文档中各个语义段落进行段落级语义分析,为对文本文档中每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性。 优选地,所述汇总模块具体用于汇总成段落和整个篇章的语义侧重点,利用语义侧重点,结合篇章特点,以字数为约束条件,来挑选尽可能涵盖全文语义的若干个句组组成全文摘要。 优选地,所述互校正模块,具体用于对相邻语义段落的维度分析矢量、维度矢量做矫正:根据词语语义关联、维度关联进行平方和互乘,然后开方,并处以维度和,作为矫正后的值。 本专利技术中,使自然语言段落间的起承转合体现在语义空间和维度特征上,会存在相邻段落间语义向量和维度的较强的关联性,通过增强相关维度,抑制无关维度的计算,增强核心语义特征,并起到抑制噪声的效果。 【专利附图】【附图说明】 图1为本专利技术实施例提出的一种语义化文本描述方法流程图; 图2为本专利技术实施例提出的一种语义化文本描述系统结构图。 【具体实施方式】 如图1所示,本专利技术实施例提出了一种语义化文本描述方法及系统,包括以下步骤: 步骤101,将整个文本文档中各个语义段落进行段落级语义分析。具体为对文本文档中每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性等。 步骤102,对各个段落级语义汇总语义信息。具体为:汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。 步骤103,对每个段落进行语义维度化描述。包括时间序列、地区分布等多维度描述。 步骤104,进行文档特征描述。计算文档特征参数,并用来描述该文档;通过该特征参数,可以检索、调用该文档。其中,对于文档层面的描述,主要特征参数为文档语义向量、维度矢量以及文档语义流动图。 文档特征包括:能够确实标识文本内容、将目标文本与其他文本相区分的能力、个数适中、分离要比较容易实现。在中文文档中可以采用字、词或短语作为表示文本的文档特征。由于词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,采用词作为文档特征,作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取:用映射或变换的方法把原始特征变换为较少的新特征;从原始特征中挑选出一些最具代表性的特征;根据专家的知识挑选最有影响的特征;用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。 步骤105,文档特征描述维度互校正。对相邻语义段落的维度分析矢量、维度矢量做矫正:根据词语语义关联、维度关联进行平方和互乘,然后开方,并处以维度和,作为矫正后的值,使相关联的维度特征被增强,而无定义维度关联的维度会被适当削弱。 如图2所示,本专利技术实施例提出了一种语义化文本描述系统,包括:分析模块10,用于将整个文本文档中各个语义段落进行段落级语义分析;汇总模块20,与所述分析模块10连接,用于对各个段落级语义汇总语义信息;维度化描述模块30,与所述汇总模块20连接,用于对每个段落进行语义维度化描述;特征描述模块40,与所述维度化描述模块30连接,用于进行文档特征描述;互校正模块50,与所述特征描述模块40连接,用于文档特征描述维度互校正。 所述分析模块10具体用于将整个文本文档中各个语义段落进行段落级语义分析,为对文本文档中每句话作语义本文档来自技高网
...

【技术保护点】
一种语义化文本描述方法,其特征在于,包括以下步骤:将整个文本文档中各个语义段落进行段落级语义分析;对各个段落级语义汇总语义信息;对每个段落进行语义维度化描述;进行文档特征描述;进行文档特征描述维度互校正。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾岩
申请(专利权)人:安徽华贞信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1