一种文本情感测量方法和装置制造方法及图纸

技术编号:23983729 阅读:40 留言:0更新日期:2020-04-29 12:32
本发明专利技术公开了一种文本情感测量方法和装置,包括:对所测量对象的文本文字数据进行收集;对收集的对象数据进行数据预处理,将对象数据转换为适用于策略模型学习的格式化数据;对格式化数据进行模型训练、验证评估,得到策略模型;根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入文本情感测量模型中,得出预测结果。本发明专利技术根据检测对象的在不同情感状态下所表现出的状态(如文本评论的倾向性)不同,设计一个文本情感自动化测量的方法和装置,该方法和装置可为人工测量提供参考,进而提升测量准确率和效率。

A method and device of text emotion measurement

【技术实现步骤摘要】
一种文本情感测量方法和装置
本专利技术涉及人工智能
,具体涉及一种文本情感测量方法和装置。
技术介绍
随着移动应用的发展,信息数据量的爆炸增长,大数据时代正式到来,对于人类人格/性格/情感的测量方式越来越广泛。如:根据面部表情、肢体动作、语音信号以及文本评论来测量人物情感。目前图像、语音识别测量已趋近成熟,但在文本情感测量方面较为匮乏,无论是在心理学的学术领域,还是在私营部门,都对这一领域有着浓厚的兴趣。例如,许多雇主希望更多地了解潜在雇员的个性,以便更好地管理公司文化。另一方面,通过人工智能与大数据的结合得出的结果有可能比目前可用的测量方法更准确,这一点可以从以下事实得到证明:由训练有素的心理学家进行的情感测量的复测错误率目前徘徊在50%左右;即,在两种不同的情况下进行两次测量,得到不同的分类的概率大约是二分之一;其准确率较低、人工测量成本较高。
技术实现思路
针对当前文本情感测量研究较少且人工测量成本较高的问题,本专利技术提供一种文本情感测量方法和装置,通过该文本情感测量方法和装置可为人工测量提供参考,进而提升测量准确率。本专利技术公开了一种文本情感测量方法,包括:对所测量对象的文本文字数据进行收集;对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;对所述格式化数据进行模型训练、验证评估,得到策略模型;根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。作为本专利技术的进一步改进,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。作为本专利技术的进一步改进,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。作为本专利技术的进一步改进,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:选取多个机器学习模型和/或深度学习模型;计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。作为本专利技术的进一步改进,还包括:对所述预测结果进行可视化;通过进行预测的文本文字数据,进一步优化所述策略模型。本专利技术还公开了一种文本情感测量装置,包括:数据收集模块,用于对所测量对象的文本文字数据进行收集;数据预处理模块,用于对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;模型训练模块,用于对所述格式化数据进行模型训练、验证评估,得到策略模型;对象文本情况测量模块,用于根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。作为本专利技术的进一步改进,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。作为本专利技术的进一步改进,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。作为本专利技术的进一步改进,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:选取多个机器学习模型和/或深度学习模型;计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。作为本专利技术的进一步改进,还包括:数据可视化模块,用于对所述预测结果进行可视化;模型优化模块,用于通过进行预测的文本文字数据,进一步优化所述策略模型。与现有技术相比,本专利技术的有益效果为:本专利技术根据检测对象的在不同情感状态下所表现出的状态(如文本评论的倾向性)不同,设计一个文本情感自动化测量的方法和装置,该方法和装置可为人工测量提供参考,进而提升测量准确率和效率。附图说明图1为本专利技术一种实施例公开的文本情感测量方法和装置的框架流程图;图2为本专利技术实施例1公开的文本情感测量方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图对本专利技术做进一步的详细描述:如图1所示,本专利技术提供一种文本情感测量方法,包括:步骤1、对所测量对象的文本文字数据进行收集、统计整理;其中,文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息,对象上下文信息包括:对象位置上下文信息和对象时间上下文信息;统计整理指对测量出的数据格式化进行储存,储存方式以数据库、表格等形式借助计算机存储机制存储。步骤2、对收集的对象数据进行数据预处理,将对象数据转换为适用于策略模型学习的格式化数据;其中,由于真实世界中,数据通常是不完整、不一致或分布不均的,如缺少某些感兴趣的属性值、包含代码或名称的差异或乐观情感比例大于抑郁情感比例;以上的数据缺点会极大的影响到数据分析的结果,故必须要对数据进行预处理。本专利技术所采用的数据预处理包括:数据清洗、数据集成、数据归约和数据变化;其中:数据清洗包括缺失值处理、光滑噪声数据、识别或删除离群点;其中,缺失值处理包括删除缺失值、均值填补法、热卡填充法、K-有序最邻近、基于贝叶斯的方法等;数据集成指使用多个数据存储体进行统一存储,对象数据往往分布于不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程;数据集成包含实体识别、冗余属性识别,其中,实体识别用来统一不同源数据的矛盾之处,常见形式包含:同名异义、异名同义、单位统一;冗余属性识别的常见形式包含:同一属性多次出现、同一属性命名不一致导致重复等;数据归约指用指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容),通过数据规约可降低无意义数据对建模的影响,提高建模准确性,节省模型训练时间,降低存储成本;数据归约包括:属性规约和数值规约;数据变化指对数据进行规范化处理,将数据转为适用于策略模型学习的形式。步骤3、对格式化数据进行模型训练、验证评估,得到策略模型;其中,上述步骤分为训练、验证两步,根据机器学习模型优缺点,选择适合对象场景的最佳模型;通用方法为选取多个模型,计算各自模型的在统计数据上的误差,选择误差最小的模型;模型训练中通过参数调整使得模型表现最优。其中:本专利技术推荐常用的模型方法大体分为机器学习、深度学习两大类。常用机器学习模型包括决策树算法(C4.5本文档来自技高网...

【技术保护点】
1.一种文本情感测量方法,其特征在于,包括:/n对所测量对象的文本文字数据进行收集;/n对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;/n对所述格式化数据进行模型训练、验证评估,得到策略模型;/n根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;/n对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。/n

【技术特征摘要】
1.一种文本情感测量方法,其特征在于,包括:
对所测量对象的文本文字数据进行收集;
对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;
对所述格式化数据进行模型训练、验证评估,得到策略模型;
根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;
对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。


2.如权利要求1所述的文本情感测量方法,其特征在于,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;
所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。


3.如权利要求1所述的文本情感测量方法,其特征在于,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。


4.如权利要求1所述的文本情感测量方法,其特征在于,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:
选取多个机器学习模型和/或深度学习模型;
计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。


5.如权利要求1所述的文本情感测量方法,其特征在于,还包括:
对所述预测结果进行可视化;
通过进行预测的文本文字数据,进一步优化所述策略模型。


6.一种文本情感测量装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:何泾沙侯自强朱娜斐李想杨玥葛加可张琨滕达李文欣韩松
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1