文本处理方法及装置制造方法及图纸

技术编号：21833275 阅读：22 留言：0更新日期：2019-08-10 18:13

本申请公开了一种文本处理方法及装置。该方法包括获取短文本语料，按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档；统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和；根据所述词频和所述词频总和，计算得到所述词的词权重。本申请解决了短文本处理效果不佳的技术问题。通过本申请可较好地识别出短文本中的重点词汇。此外，本申请适用于自然文本处理场景。

Text Processing Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法及装置
本申请涉及文本处理领域，具体而言，涉及一种文本处理方法及装置。
技术介绍
自然语言处理中的短文本的特点是语句比较短、词汇量比较少。专利技术人发现，对于短文本处理效果不佳。进一步，无法识别出短文本中的重点词汇。针对相关技术中短文本处理效果不佳的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本处理方法及装置，以解决短文本处理效果不佳的问题。为了实现上述目的，根据本申请的一个方面，提供了一种文本处理方法。根据本申请的文本处理方法包括：获取短文本语料，按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档；统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和；根据所述词频和所述词频总和，计算得到所述词的词权重。进一步地，所述方法用于处理短文本中出现频率高但无意义词的权重。进一步地，获取短文本语料，按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档包括：获取短文本语料，按照每行部署一条短文本的格式部署每条短文本并将所有所述短文本作为一个目标文档。进一步地，统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和包括：统计所述目标文档中每个词出现的词频WF；统计所述目标文档中所有词的词频总和DF；根据所述词频和所述词频总和，计算得到所述词的词权重包括：计算词权重WW＝ln(DF/WF)。进一步地，用于处理短文本中出现频率高但无意义词包括如下的一种或多种：语气词、助词、代词为了实现上述目的，根据本申请的另一方面，提供了一种文本处理装置。根据本申请的文本处理装置，包括：获取模块，...

【技术保护点】
1.一种文本处理方法，其特征在于，包括：获取短文本语料，按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档；统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和；根据所述词频和所述词频总和，计算得到所述词的词权重。

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取短文本语料，按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档；统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和；根据所述词频和所述词频总和，计算得到所述词的词权重。2.根据权利要求1所述的文本处理方法，其特征在于，用于处理短文本中出现频率高但无意义词的权重。3.根据权利要求1所述的文本处理方法，其特征在于，获取短文本语料，按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档包括：获取短文本语料，按照每行部署一条短文本的格式部署每条短文本并将所有所述短文本作为一个目标文档。4.根据权利要求1所述的文本处理方法，其特征在于，统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和包括：统计所述目标文档中每个词出现的词频WF；统计所述目标文档中所有词的词频总和DF；根据所述词频和所述词频总和，计算得到所述词的词权重包括：计算词权重WW＝ln(DF/WF)。5.根据权利要求1所述的文本处理方法，其特征在于，用于处理短文本中出现频率高但无意义词包括...

【专利技术属性】
技术研发人员：靳彦召，
申请(专利权)人：北京零秒科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人