文本分析方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：20242385 阅读：18 留言：0更新日期：2019-01-29 23:21

本公开实施例公开了一种文本分析方法、装置、电子设备及可读存储介质，所述方法包括：利用预设关键词对文本进行匹配，得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本，其中，所述预设关键词属于多个目标类别，并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别；针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量；根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量；计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别，可以真实反映文本的观点倾向，提高文本分析的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本分析方法、装置、电子设备及可读存储介质
本公开涉及计算机领域，具体涉及一种文本分析方法、装置、电子设备及可读存储介质。
技术介绍
在互联网平台上，有大量文本信息存在，例如，各种用户发帖、评论信息等。但是，这些文本都是自然语言，比较难以区分其具体的主题倾向。如果可以对这些用户评论进行大数据分析，则对找到具备特定特性的文本，对于发现用户的需求和关注点，从而进行有针对性的运营，具有非常重要的意义。
技术实现思路
为了解决相关技术中的问题，本公开实施例提供一种文本分析方法、装置、电子设备及可读存储介质。第一方面，本公开实施例中提供了一种文本分析方法，包括：利用预设关键词对文本进行匹配，得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本，其中，所述预设关键词属于多个目标类别，并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别；针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量；根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量；计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。结合第一方面，本公开在第一方面的第一种实现方式中，所述针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量，包括：根据预设规则增大所述匹配文本中与所述预设关键词相同的分词的向量。结合第一方面，本公开在第一方面的第二种实现方式中，所述文本向量为词频-逆文档频率向量。结合第一方面，本公开在第一方面的第三种实现方式中，所述根据属于每一目标类别的全部匹配文本的文本向量计算每一目...

【技术保护点】
1.一种文本分析方法，其特征在于，包括：利用预设关键词对文本进行匹配，得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本，其中，所述预设关键词属于多个目标类别，并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别；针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量；根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量；计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。

【技术特征摘要】
1.一种文本分析方法，其特征在于，包括：利用预设关键词对文本进行匹配，得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本，其中，所述预设关键词属于多个目标类别，并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别；针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量；根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量；计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。2.根据权利要求1所述的方法，其特征在于，所述针对每一条子文本进行分词，并根据分词结果为每一条文本生成文本向量，包括：根据预设规则增大所述匹配文本中与所述预设关键词相同的分词的向量。3.根据权利要求1所述的方法，其特征在于，所述文本向量为词频-逆文档频率向量。4.根据权利要求1所述的方法，其特征在于，所述根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量，包括：通过对属于每一目标类别的全部匹配文本的文本向量求和取平均值来计算每一目标类别的目标文本向量。5.根据权利要求4所述的方法，其特征在于，所述计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别，包括：计算每一条非匹配文本的文本向量与所述目标文本向量的相似度作为第一相似度，将所述第一相似度最大的目标文本向量所属的目标类别作为该条非匹配文本的备选类别。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：计算每一条非匹配文本的文本向量与全部非匹配文本的平均文本向量的相似度作为第二相似度；检测所述第一相似度与所述第二相似度的比值是否大于预设阈值；响应于所述第一相似度与所述第二相似度的比值大于预设阈值的检测结...

【专利技术属性】
技术研发人员：龚建，
申请(专利权)人：拉扎斯网络科技上海有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人