基于神经网络的文本特征判断方法、装置和存储介质制造方法及图纸

技术编号：23533760 阅读：26 留言：0更新日期：2020-03-20 08:00

本发明专利技术实施例公开了一种基于神经网络的文本特征判断方法、装置和存储介质，该方法包括为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种；获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成；根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图；将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板；获取待识别文本，根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征。本方案实现了对文本内容的深度分析，得出的文本特征精准度高，同时提高了判断效率。

Method, device and storage medium of text feature judgment based on Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的文本特征判断方法、装置和存储介质
本申请实施例涉及计算机
，尤其涉及一种基于神经网络的文本特征判断方法、装置和存储介质。
技术介绍
随着社交网络、电子商务、移动互联网等技术的发展，博客、论坛以及社会服务网络如大众点评上产生了大量的用户参与的，对于诸如人物、事件、产品等有价值的带有情绪色彩的文本评论数据信息，这些文本评论数据信息迅速膨胀，无不表达了人们的各种情感色彩和情感倾向性，如喜、怒、哀、乐和批评、赞扬等。对此类文本评论数据信息进行充分挖掘和深入分析，可以更好地理解网民的观点和立场，以便更好的辅助舆情管控、商业决策、观点搜索、信息预测、情绪管理等各个领域的决策。现有技术中，在对文本进行处理以判断文本特征(如文本所代表的情绪特征)时，精准度较低，判断效果以及判断效率较差。
技术实现思路
本专利技术实施例提供了一种基于神经网络的文本特征判断方法、装置、设备和存储介质，提高了文本特征判断结果的准确度，处理效率高，处理效果良好，实现了对文本的深入挖掘和分析。第一方面，本专利技术实施例提供了一种基于神经网络的文本特征判断方法，该方法包括：为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种；获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成；根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图；>将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板；获取待识别文本，根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征。第二方面，本专利技术实施例还提供了一种基于神经网络的文本特征判断装置，该装置包括：数据生成模块，用于为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种；训练集获取模块，用于获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成；坐标图生成模块，用于根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图；模板生成模块，用于将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板；文本特征确定模块，用于获取待识别文本，根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征。第三方面，本专利技术实施例还提供了一种设备，该设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本专利技术实施例所述的基于神经网络的文本特征判断方法。第四方面，本专利技术实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本专利技术实施例所述的基于神经网络的文本特征判断方法。本专利技术实施例中，通过为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种，获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成，根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图，将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板，获取待识别文本，根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征，实现了对文本内容的深度分析，得出的文本特征精准度高，同时提高了判断效率。附图说明图1为本专利技术实施例提供的一种基于神经网络的文本特征判断方法的流程图；图2为本专利技术实施例提供的另一种基于神经网络的文本特征判断方法的流程图；图3为本专利技术实施例提供的另一种基于神经网络的文本特征判断方法的流程图；图4为本专利技术实施例提供的一种曲线坐标图的第一示意图；图5为本专利技术实施例提供的另一种基于神经网络的文本特征判断方法的流程图；图6为本专利技术实施例提供的一种曲线坐标图的第二示意图；图7为本专利技术实施例提供的一种曲线坐标图的第三示意图；图8为本专利技术实施例提供的一种基于神经网络的文本特征判断装置的结构框图；图9为本专利技术实施例提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本专利技术实施例，而非对本专利技术实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本专利技术实施例相关的部分而非全部结构。图1为本专利技术实施例提供的一种基于神经网络的文本特征判断方法的流程图，本实施例可适用于对文本特征进行判断，如针对一段评论数据可以判断出其对应的情绪特征，该方法可以由计算设备如服务器计算机来执行，具体包括如下步骤：步骤S101、为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种。其中，标识字符为用户评论或记录使用的字符，可以是汉字字符、标点字符、数字字符和英文字符中的至少一种，并不限于上述列举的字符还可包括其他任何能够录入并显示的内容。其中，标识信息为起到标识作用的数据，每个标识字符被分配有唯一对应的标识信息，示例性的，如序号1至10000，每个序号分别对应一标识字符，如标识字符“天”、“地”、“人”分别对应标识信息1、2、3。其中，字符标识关联数据可以以映射表或数据库中字段关联的方式存储，即将标识字符和分配的标识信息进行关联，当确定标识字符后可唯一的确定该标识字符所对应的标识信息。步骤S102、获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成。其中，文本训练集为进行学习训练的文本所组成的结合，文本训练集中包含多个训练文本，每个训练文本有多个标识字符组成，示例性的，训练文本可以是通过网络获取的评论数据，如对一个新闻、娱乐事件或电影电视剧等的评论数据。步骤S103、根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图。其中，如前所述，每个训练文本由多个标识字符组成，字符标识关联数据中记录了每个标识字符以及对应的标识信息。在一个实施例中，根据字符标识关联数据生成每个所述训练文本对应的曲线坐标图，其中，曲线坐标图标记有该段训练文本中每个字符出现的次数以及对应的标识信息。步骤S104、将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板。在训练过程中，可以对文本特征进行设定，如设定十个文本特征等级，针对不同的训练文本分别匹配对应的唯一文本特本文档来自技高网...

【技术保护点】
1.基于神经网络的文本特征判断方法，其特征在于，包括：/n为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种；/n获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成；/n根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图；/n将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板；/n获取待识别文本，根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征。/n

【技术特征摘要】
1.基于神经网络的文本特征判断方法，其特征在于，包括：
为标识字符分配标识信息，生成字符标识关联数据，所述标识字符包括汉字字符、标点字符、数字字符和英文字符中的至少一种；
获取文本训练集，所述文本集包括多个训练文本以及每个训练文本对应的训练文本特征，每个所述训练文本由一个或多个所述标识字符组成；
根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图；
将所述曲线坐标图作为输入，对应的训练文本特征作为输出，利用神经网络进行训练得到文本特征判断模板；
获取待识别文本，根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征。

2.根据权利要求1所述的方法，其特征在于，所述为标识字符分配标识信息，生成字符标识关联数据，包括：
确定预设数量的不同标识字符，为每个所述标识字符分配唯一的标识序号；
将每个所述标识字符和对应的标识序号关联存储生成字符标识关联表或字符标识关联矩阵。

3.根据权利要求1所述的方法，其特征在于，所述根据所述字符标识关联数据生成每个所述训练文本对应的曲线坐标图，包括：
确定所述训练文本中包含的每个训练标识字符；
根据所述字符标识关联数据确定每个训练标识字符对应的标识信息；
对所述每个训练标识字符的标识信息进行统计，生成所述训练文本对应的曲线坐标图，所述曲线坐标图的横坐标为标识信息，纵坐标为每个训练标识字符出现的次数。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述文本特征判断模板包括：
不同的特征曲线坐标图以及各自对应的文本特征，所述文本特征包括情绪特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述文本特征判断模板对所述待识别文本进行判断确定文本特征，包括：
确定所述待识别文本中的标识字符，并依据所述字符标识关联数据生成对应的曲线坐标图；
将所述待识别文本对应的曲线坐标图和所述文本特征判断模板中的特征曲线坐标图进行比对；
依据...

【专利技术属性】
技术研发人员：邓立邦，
申请(专利权)人：广东智媒云图科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人