文本内容显著性区域的局部特征抽取方法及系统技术方案

技术编号:14766453 阅读:92 留言:0更新日期:2017-03-08 10:53
本发明专利技术涉及一种文本内容显著性区域的局部特征抽取方法及系统。该方法包括:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的crc64,作为每一单句的局部特征;将M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。本发明专利技术通过将一篇文本内容转换成M个crc64字符表示,有利于创建基于单句的内容检索系统和基于内容的局部特征集的内容消重系统。

【技术实现步骤摘要】

本专利技术属于数据处理
,具体涉及一种文本内容显著性区域的局部特征抽取方法及系统
技术介绍
随着互联网中文本内容在传播过程中多次修改和精编,其内容检索如果按照关键词来进行召回,存在召回结果中存在大量杂质的问题;如果按照标题/正文内容段/句来进行检索,则存在召回结果遗漏的问题。
技术实现思路
本专利技术的目的在于解决上述的技术问题而提供一种文本内容显著性区域的局部特征抽取方法及系统。为实现上述目的,本专利技术采用如下技术方案:一种文本内容显著性区域的局部特征抽取方法,包括以下步骤:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的crc64,作为每一单句的的局部特征;将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。本专利技术的目的还在于提供一种文本内容显著性区域的局部特征抽取系统,包括:单句挑选模块,用于按预设挑选规则从资讯文本中的显著性区域中选出M个单句;分词模块,用于对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;分词结果选择模块,用于从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;合并模块,用于将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;单句局部特征计算模块,用于计算每一单句的长文本的crc64,作为每一单句的的局部特征;文本局部特征形成模块,用于将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。本专利技术基于文本内容的显著性区域的局部特征来进行召回,这样可保证了召回结果的准确性和全面性;同样针对基于文本内容的消重系统,可以根据文本内容显著性区域的局部特征集的匹配数量来进行。附图说明图1出示了本专利技术的文本内容显著性区域的局部特征抽取方法的流程图;图2出示了本专利技术的的分词结果的示意图图3出示了本专利技术的文本内容显著性区域的局部特征抽取系统的原理结构图。具体实施方式下面,结合实例对本专利技术的实质性特点和优势作进一步的说明,但本专利技术并不局限于所列的实施例。参见图1所示,一种文本内容显著性区域的局部特征抽取方法,包括以下步骤:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的crc64,作为每一单句的的局部特征;将所述M个单句的局部特征合并成一个数字表的特征集,作为该资讯文本的局部特征。本专利技术通过从资讯文本中的显著性区域中选出M个单句(M为自然数),然后对单句分别分词,对选出的实体词与短语按预设权重进行挑选,选出N个权重排列在前的实体词与短语后,对权重排列在前的实体词与短语按汉语拼音排序合并成一个长文本,然后计算长文本的crc64作为每一单句的的局部特征,计算出M个单句的crc64后,将该M个单句的crc64作为资讯文本的局部特征,这样通过crc64局部特征的数字性表示,就可以创建每一资讯文本的局部特征集,这样在就可实现利用该每一资讯文本的局部特征集,在文本检索进行召回时,就保证了召回结果的准确性和全面性;对基于文本内容的消重系统而言,同样可根据该文本内容显著性区域的局部特征集的匹配数量来进行。需要说明的是,本专利技术中,所述资讯文本的显著性区域一般是指视觉重点区域和\\或文本内容表述习惯的重点区域,可以根据需要进行调整。所述资讯文本的所述显著性区域的单句是指资讯文本的标题、段首句、段尾句,重点句等。由于本专利技术是对文本内容的显著性区域的文章的标题,段首句,段尾句,重点句等进行处理,这些显著性区域也存在被修改的状况,则通过考虑该显著性区域的单句的局部性特征,而通过局部性特征关注该显著性区域中的实体名称和重点词,具有更高的精度和全面性,从而就可以避免单字/单词的修改导致其局部性特征不一致。具体的,在挑选资讯文本的的显著性区域的单句时,可以根据资讯文本内容的段落,单句位置和单句长度来确定。其中,在挑选时,选出的单句的长度是一个段落的资讯文本的单句平均长度的3倍。需要说明的是,本专利技术中,所述一个段落的资讯文本的单句平均长度是根据一个段落中每个单句的长度之和除以该段落中单句的数量确定的。本专利技术中,所述实体词通常为人名、地名、专用名词、以及权重排序在前的关键词等,所述实体词、短语可以是基于现有语言词典来划分,具体的也可以根据需要进行调整或修正。本专利技术中,从单句的分词结果中挑选实体词和短语时,是依照实体词和短语的权重排序,然后挑选权重最高的N个实体词和短语。其中,所述实体词和短语每一个分别预定有一个相应的权重值,在分词后本专利技术方法可自动按预定的实体词与短评的权重值进行排序,从而形成一个由高到低的实体词和短语的权重排序,这样方便后续选出N个相应的实体词和短语,其中,N为自然数。具体实现上时,可以是通过分词后在分词结果中直接将选出的实体词和短语按权重排序。具体的,分词结果会提供每个分词的词性、权重和其他属性,如地名属性与人名属性等;对于名词,会标明该词是人名或者地名等属性,对于“十三五”等形式的文本,会表示该文本是否为短语。这样对于分词结果,就可以从分词中挑选相应的实体词和短语,并依据权重排序。例如,一段资讯文本:“十三五”是科技创新在房地产行业突破的关键期,要推进住宅产业化和新型建造,为老百姓建造长寿命、好性能、绿色低碳的百年住宅。应用本专利技术方法分词后,其分词结果为见图2所示。分词后,在分词结果中见图2,每一个分词被赋予一个权重值,如科技为0.002,创新为0.003,关键为0.002,进行权重排序后结果见图2中右列,按分词的结果进行排序,形成1、2、3……的排序顺序,如老百姓权重为0.149,则排在第一位,其次是房地产,权重为0.088,再次为建造0.007,其它非实体词或短语的权重为0,这样,实现了将对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;方便从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语进行处理。本专利技术的目的还在于提供一种文本内容显著性区域的局部特征抽取系统,参见图3所示,包括:单句挑选模块,用于按预设挑选规则从资讯文本中的显著性区域中选出M个单句;分词模块,用于对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;分词结果选择模块,用于从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;合并模块,用于将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;单句局部特征计算模块,用于计算每一单句的长文本的crc64,作为每一单句的的局部特征;文本局部特征形成模块,用于将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。关于文本内容显著性区域的局部特征抽取系统的详细说明及实施方式,请详细见本说明书中关于文本内容显著性区域的局部特征抽取方法本文档来自技高网...
文本内容显著性区域的局部特征抽取方法及系统

【技术保护点】
一种文本内容显著性区域的局部特征抽取方法,其特征在于,包括以下步骤:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的 crc64,作为每一单句的的局部特征;将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。

【技术特征摘要】
1.一种文本内容显著性区域的局部特征抽取方法,其特征在于,包括以下步骤:按预设挑选规则从资讯文本中的显著性区域中选出M个单句;对每一单句分别分词,从分词结果中选出每一单句的实体词与短语并按预设权重排序;从每一单句的实体词与短语中选出N个权重排列在前的实体词与短语;将每一单句中选出的N个实体词和短语按汉语拼音序排序,分别合并成一长文本;计算每一单句的长文本的crc64,作为每一单句的的局部特征;将所述M个单句的局部特征合并成一个特征集,作为该资讯文本的局部特征。2.根据权利要求1所述文本内容显著性区域的局部特征抽取方法,其特征在于,选出的单句的长度是资讯文本一个段落中的单句平均长度的3倍。3.根据权利要求1或2所述文本内容显著性区域的局部特征抽取方法,其特征在于,所述显著性区域的单句包括指资讯文本的标题、段首句、段尾句,重点句。4.根据权利要求2所述文本内容显著性区域的局部特征抽取方法,其特征在于,所述单句平均长度是根据资讯文本的一个段落中的每个单句的长度之和除以该段落中单句的数量确定的。5.一种文本内容显著性区域的局部特征抽取系统,其特征在于...

【专利技术属性】
技术研发人员:李红全
申请(专利权)人:天津海量信息技术股份有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1