文本处理方法及装置制造方法及图纸

技术编号:21833275 阅读:22 留言:0更新日期:2019-08-10 18:13
本申请公开了一种文本处理方法及装置。该方法包括获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;根据所述词频和所述词频总和,计算得到所述词的词权重。本申请解决了短文本处理效果不佳的技术问题。通过本申请可较好地识别出短文本中的重点词汇。此外,本申请适用于自然文本处理场景。

Text Processing Method and Device

【技术实现步骤摘要】
文本处理方法及装置
本申请涉及文本处理领域,具体而言,涉及一种文本处理方法及装置。
技术介绍
自然语言处理中的短文本的特点是语句比较短、词汇量比较少。专利技术人发现,对于短文本处理效果不佳。进一步,无法识别出短文本中的重点词汇。针对相关技术中短文本处理效果不佳的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本处理方法及装置,以解决短文本处理效果不佳的问题。为了实现上述目的,根据本申请的一个方面,提供了一种文本处理方法。根据本申请的文本处理方法包括:获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;根据所述词频和所述词频总和,计算得到所述词的词权重。进一步地,所述方法用于处理短文本中出现频率高但无意义词的权重。进一步地,获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档包括:获取短文本语料,按照每行部署一条短文本的格式部署每条短文本并将所有所述短文本作为一个目标文档。进一步地,统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和包括:统计所述目标文档中每个词出现的词频WF;统计所述目标文档中所有词的词频总和DF;根据所述词频和所述词频总和,计算得到所述词的词权重包括:计算词权重WW=ln(DF/WF)。进一步地,用于处理短文本中出现频率高但无意义词包括如下的一种或多种:语气词、助词、代词为了实现上述目的,根据本申请的另一方面,提供了一种文本处理装置。根据本申请的文本处理装置,包括:获取模块,用于获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;统计模块,用于统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;计算模块,用于根据所述词频和所述词频总和,计算得到所述词的词权重。进一步地,用于处理短文本中出现频率高但无意义词的权重。进一步地,所述获取模块,用于获取短文本语料,按照每行部署一条短文本的格式部署每条短文本并将所有所述短文本作为一个目标文档。进一步地,所述统计模块用于,统计所述目标文档中每个词出现的词频WF;统计所述目标文档中所有词的词频总和DF;根据所述词频和所述词频总和,计算得到所述词的词权重包括:计算词权重WW=ln(DF/WF)。进一步地,用于处理短文本中出现频率高但无意义词包括如下的一种或多种:语气词、助词、代词。在本申请实施例中文本处理方法及装置,采用获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档的方式,通过统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和,达到了根据所述词频和所述词频总和,计算得到所述词的词权重的目的,从而实现了可较好地识别出短文本中的重点词汇的技术效果,进而解决了短文本处理效果不佳的技术问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请一实施例的文本处理方法流程示意图;图2是根据本申请另一实施例的文本处理方法流程示意图;图3是根据本申请实施例的文本处理装置结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。如图1所示,该方法包括如下的步骤S102至步骤S106:步骤S102,获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;获取得到短文本语料作为文本输入。可以预先收集短文本语料。按照预设格式是指将所述短文本语料按照设定的格式对每一条短文本进行部署。同时,将所有所述短文本作为一个目标文档。需要注意的是,将所述所有所述短文本作为一个目标文档时并不会将每个短文本单独进行处理,而是将所有短文本当成是一个文本进行处理。步骤S104,统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;在所述目标文档中统计出每个词出现的词频和所述目标文档中所有词的词频总和。需要注意的是,在本申请的实施例中并不对所述目标文档中每个词出现的词频的统计方法进行具体限定,只要能够词频统计需求即可。还需要注意的是,在本申请的实施例中并不对所述目标文档中所有词的词频总和的统计方法进行具体限定,只要能够词频统计总和需求即可。步骤S106,根据所述词频和所述词频总和,计算得到所述词的词权重。根据所述词频和所述词频总和,从而计算出所述词的词权重。根据得到的所述词权重作为短文本中关键词的词权重。从以上的描述中,可以看出,本申请实现了如下技术效果:在本申请实施例中,采用获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档的方式,通过统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和,达到了根据所述词频和所述词频总和,计算得到所述词的词权重的目的,从而实现了可较好地识别出短文本中的重点词汇的技术效果,进而解决了短文本处理效果不佳的技术问题。根据本申请实施例,作为本实施例中的优选,用于处理短文本中出现频本文档来自技高网
...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;根据所述词频和所述词频总和,计算得到所述词的词权重。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;根据所述词频和所述词频总和,计算得到所述词的词权重。2.根据权利要求1所述的文本处理方法,其特征在于,用于处理短文本中出现频率高但无意义词的权重。3.根据权利要求1所述的文本处理方法,其特征在于,获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档包括:获取短文本语料,按照每行部署一条短文本的格式部署每条短文本并将所有所述短文本作为一个目标文档。4.根据权利要求1所述的文本处理方法,其特征在于,统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和包括:统计所述目标文档中每个词出现的词频WF;统计所述目标文档中所有词的词频总和DF;根据所述词频和所述词频总和,计算得到所述词的词权重包括:计算词权重WW=ln(DF/WF)。5.根据权利要求1所述的文本处理方法,其特征在于,用于处理短文本中出现频率高但无意义词包括...

【专利技术属性】
技术研发人员:靳彦召
申请(专利权)人:北京零秒科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1