This application provides a text-based personality data analysis method and system. The method includes: deploying distributed data storage system through source data module, storing active data in the distributed data storage system, processing the source data by word segmentation module, annotating part of speech, and obtaining uncluttered metadata database; and dimension scoring module for sex. The lattice analysis data is scored according to three dimensions, and the scoring assignment values of the three dimensions are K1, K2 and K3. According to the weighted values of the three dimensions of the personality analysis data corresponding to the subject obtained from the metadata base, and the scoring results of the personality analysis data, the personality attribution of the corresponding subject of the personality analysis data is determined by the judgment module. This application is based on text information to reduce complex realistic elements to three dimensions for analysis, to analyze people's individual or group personality in three dimensions, and to predict the overall characteristics according to a small number of samples.
【技术实现步骤摘要】
一种基于文本的性格数据分析方法及系统
本申请涉及数据分析
,特别地,涉及一种基于文本的性格数据分析方法和系统。
技术介绍
信息化社会背景下,基于互联网及移动互联网产生的在线沟通日益成为人与人之间沟通的主要方式,也成为人们获取信息、做出判断、表达自我的核心方式,更逐渐成为掌握、预测个体未来思想发展及群体舆论发酵的方式。最接近的现有技术是基于大数据的用户画像构建技术。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”,而标签是通过对用户信息进行分析得出的高度精炼的特征标识。用户画像可用来精准营销,分析产品潜在客户,针对特定群体利用短信、邮件等方式进行营销;还可以用来用户的统计排名,比如统计中国大学购买书籍人数TOP10、全国各城市奶爸指数等;还可以用来进行效果评估、完善产品运营、提升服务质量等;还可以对服务或产品进行私人定制,即通过个性化的服务某类群体甚至每一位用户。如某公司想推出一款面向5-10岁儿童的玩具,通过用户画像进行分析,发现形象=“喜洋洋”、价格区间=“中等”的偏好比重最大,那 ...
【技术保护点】
1.一种基于文本的性格数据分析方法,其特征在于,包括:通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。
【技术特征摘要】
1.一种基于文本的性格数据分析方法,其特征在于,包括:通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。2.根据权利要求1所述的方法,其特征在于,所述部署分布式数据存储系统,具体包括:在多台计算机上部署分布式数据存储系统,所述分布式数据存储系统存储分布式数据库,对每台所述计算机设备的分布式数据库进行分段管理;将所有计算机设备及分段管理的信息形成数据矩阵,与事件元数据信息库结合形成数据调用的索引库。3.根据权利要求1所述的方法,其特征在于,所述对所述源数据进行分词处理,具体包括:所述分词处理基于字符串匹配的机械分词算法进行分词,将待分的字符串与机器词典中的词条进行匹配,可采用正向最大匹配、逆向最大匹配和/或最少切分法;所述分词处理还可以将分词与词性标注结合;所述分词处理还可以为双向匹配法,将正向最大匹配法和逆向最大匹配法组合:根据标点对文档进行粗划分,把文档分解成若干个句子;对所述句子分别用正向最大匹配法和逆向最大匹配法进行扫描切分:如果两种分词方法得到的匹配结果相同,则分词正确;否则,按最小集处理。4.根据权利要求1所述的方法,其特征在于,所述对性格分析数据按照三个维度进行评分,所述三个维度包括理性/感性维度、真实/修饰维度和激烈/平和维度。5.根据权利要求4所述的方法,其特征在于,对所述性格分析数据按照理性/感性维度进行评分,具体包括:将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;从所述M个词中找出表达逻辑关系的助词,每有一个表达逻辑关系的助词,则计数加1;若逻辑词不完整,则计数加0.5;得到逻辑词语的赋值得分为X1;将所述性格分析数据中的关键词与元数据库中关键词云表比对,确定所述性格分析数据的主题,并调取所述主题的核心关键词与所述性格分析数据的关键词进行比对,将所述性格分析数据关键词包含于所述主题的核心关键词的个数记为Y1;将元数据库中所述主题下平均每M个词出现的逻辑词数量记为A1,平均每篇内容出现的关键词数量记为B1;将X1与Y1的和与A1与B1的和的商作为所述性格分析数据的理性/感性维度评分赋值K1:若K1大于1则偏理性,K1小于1则偏感性。6.根据权利要求4所述的方法,其特征在于,对所述性格分析数据按照真实/修饰维度进行评分,具体包括:将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;从所述M个词中找出表达转折关系的助词,每有一个表达转折关系的助词,则计数加1,得到转折词语的赋值得分...
【专利技术属性】
技术研发人员:李唳天,
申请(专利权)人:北京掌沃云视媒文化传媒有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。