调研样本判断方法及系统、灰名单生成方法及系统技术方案

技术编号:15289860 阅读:102 留言:0更新日期:2017-05-10 17:00
本公开是关于一种调研样本判断方法及系统、灰名单生成方法及系统,该调研样本判断方法包括:接收一调研样本,并对调研样本中的每个题目的解答内容进行分词处理;对分词处理得到的词语进行情感倾向分析,并根据情感倾向分析的结果标注具有情感倾向的词语,以得到标注词语;根据各题目的解答内容包含的标注词语确定每个题目的解答内容的情感倾向值;配置每个题目的加权系数,根据每个题目的加权系数以及对应的解答内容的情感倾向值获得调研样本的情感倾向值;以及判断调研样本的情感倾向值是否为一预设值,在调研样本的情感倾向值为预设值的情况下,调研样本为无效样本。本公开提高了调研样品的回收质量。

Method and system for judging research sample, grey list generating method and system

The public is a research sample judgement method and system, grey list generation method and system, the research sample judgment method includes: receiving a sample survey, and answer content to each topic in the study of word segmentation; emotional tendency analysis of word segmentation processing, and marked with emotional tendency according to the word sentiment analysis results, in order to get the annotation words; according to the tendency of emotion words to determine the content of each topic marking the answer answer content of each topic contains a value weighted coefficient; configuration of each topic, the value of emotional tendency to obtain research sample values according to the emotional tendency of each topic weighted coefficients and the corresponding solutions of the content; and the emotional tendency research sample value is a predetermined value, the value of the value in the research sample of the emotional tendency In the case, the sample is invalid. The present invention improves the recovery quality of the sample.

【技术实现步骤摘要】

本公开涉及数据处理
,具体而言,涉及一种调研样本判断方法、调研样本判断系统、灰名单生成方法以及灰名单生成系统。
技术介绍
随着移动互联网的普及,大数据在产品的发展中扮演着越来越重要的角色。通过选定目标人群并提前利用在线调研的方式进行产品调研,这对提高产品的各方面价值起到了非常大的作用。在线调研目前被频繁地利用在新产品定位(推出新产品,进入新市场)、品牌曝光(提升销量与复购率)、市场洞悉(洞悉市场先机、了解消费倾向、购物行为与态度)、满意度反馈(获取售后反馈,提升用户满意度)等方面。在大数据时代,如何在繁多的样本中寻找到有价值的样本数据对提高调研质量尤为重要。目前,为了提高调研问卷的回收率和吸引力,发布调查问卷的平台通常会给予问卷答题者一定的奖励(如,现金奖励、平台优惠券、各种平台的电子现金奖励等)。然而,在线调研对问卷答题者仅设置有较小的安全防御,当遇到较大奖励的问卷时,黄牛答题者会频繁且低质量地回答问卷,这将导致发布调查问卷的平台无法按预期回收有效的答题样本,另外,也可能会使用户丧失对发布调查问卷的平台的信任感。目前,通常以在调研问卷中加入陷阱题的方式解决调研样本质量低的问题。陷阱题可以为常识题目,当问卷答题者答错时,问卷答题者所作出的答题样本将被视为无效样本,并且不会发放问卷奖励。然而,这种加入陷阱题的方式形式单一,并且具有一定的规律性,容易被黄牛答题者识别,这导致有效样本的问卷答题者不能按预期获得应有的奖励。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。专
技术实现思路
本公开的目的在于提供一种调研样本判断方法及系统、灰名单生成方法及系统,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种调研样本判断方法,包括:接收一调研样本,并对所述调研样本中的每个题目的解答内容进行分词处理;对所述分词处理得到的词语进行情感倾向分析,并根据所述情感倾向分析的结果标注具有情感倾向的词语,以得到标注词语;根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值;配置每个所述题目的加权系数,根据每个所述题目的加权系数以及对应的解答内容的情感倾向值获得所述调研样本的情感倾向值;以及判断所述调研样本的情感倾向值是否为一预设值,在所述调研样本的情感倾向值为所述预设值的情况下,所述调研样本为无效样本。在本公开的一种示例性实施例中,所述根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值包括:对每个所述题目的解答内容进行分段处理以及分句处理;判断所述分段处理得到的段落的首尾句是否包含所述标注词语;在判断出所述分段处理得到的段落的首尾句包含所述标注词语时,结合所述首尾句包含的所述标注词语确定所述段落的情感倾向值,以计算出每个所述题目的解答内容的情感倾向值;在判断出所述分段处理得到的段落的首尾句不包含所述标注词语时,获取所述段落中所有句包含的所述标注词语,并根据所有句包含的所述标注词语确定所述段落的情感倾向值,以计算出每个所述题目的解答内容的情感倾向值。在本公开的一种示例性实施例中,根据所有句包含的所述标注词语确定所述段落的情感倾向值包括:判断每一句的句式,所述句式的结构包括转折结构和/或递进结构;在判断出句子的句式为所述转折结构时,结合所述转折结构中的转折部分的所述标注词语确定所述句子的情感倾向值;在判断出句子的句式为递进结构时,根据所述该句子中所有的所述标注词语确定所述该句子的情感倾向值。根据本公开的一个方面,提供一种灰名单生成方法,包括:根据上述任意一项所述的调研样本判断方法获取无效样本;将所述无效样本的答题者的客户端IP以及答题时间保存至一存储元件;获取一指定时间内所述存储元件记录的各无效样本的数据;判断各所述无效样本的数据是否满足一预设无效样本灰名单判断规则;以及在判断出一所述无效样本的数据满足所述预设无效样本灰名单判断规则的情况下,建立包括所述该无效样本的答题者的客户端IP的无效样本灰名单。在本公开的一种示例性实施例中,还包括:在所述无效样本灰名单中,删除存储时长超过一预设更新时间的客户端IP。根据本公开的一个方面,提供一种调研样本判断方法,包括:接收一包括陷阱题的解答内容的调研样本,并判断所述陷阱题的解答内容是否正确;在判断出所述陷阱题的解答内容正确的情况下,判断所述调研样本的答题者的客户端IP是否包括在根据上述任意一项所述的灰名单生成方法生成的无效样本灰名单中;在判断出所述调研样本的答题者的客户端IP包括在根据上述任意一项所述的灰名单生成方法生成的无效样本灰名单中的情况下,结合上述任意一项所述的调研样本判断方法判断所述该调研样本是否为无效样本;以及在判断出所述该调研样本不是无效样本的情况下,所述该调研样本为有效样本。根据本公开的一个方面,提供一种调研样本判断系统,包括:分词处理单元,用于接收一调研样本,并对所述调研样本中的每个题目的解答内容进行分词处理;词语情感分析单元,用于对所述分词处理得到的词语进行情感倾向分析,并根据所述情感倾向分析的结果标注具有情感倾向的词语,以得到标注词语;解答内容情感分析确定单元,用于根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值;调研样本情感倾向获得单元,用于配置每个所述题目的加权系数,根据每个所述题目的加权系数以及对应的解答内容的情感倾向值获得所述调研样本的情感倾向值;以及无效样本判断单元,用于判断所述调研样本的情感倾向值是否为一预设值,在所述调研样本的情感倾向值为所述预设值的情况下,所述调研样本为无效样本。在本公开的一种示例性实施例中,所述根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值包括:对每个所述题目的解答内容进行分段处理以及分句处理;判断所述分段处理得到的段落的首尾句是否包含所述标注词语;在判断出所述分段处理得到的段落的首尾句包含所述标注词语时,结合所述首尾句包含的所述标注词语确定所述段落的情感倾向值,以计算出每个所述题目的解答内容的情感倾向值;在判断出所述分段处理得到的段落的首尾句不包含所述标注词语时,获取所述段落中所有句包含的所述标注词语,并根据所有句包含的所述标注词语确定所述段落的情感倾向值,以计算出每个所述题目的解答内容的情感倾向值。在本公开的一种示例性实施例中,根据所有句包含的所述标注词语确定所述段落的情感倾向值包括:判断每一句的句式,所述句式的结构包括转折结构和/或递进结构;在判断出句子的句式为所述转折结构时,结合所述转折结构中的转折部分的所述标注词语确定所述句子的情感倾向值;在判断出句子的句式为递进结构时,根据所述该句子中所有的所述标注词语确定所述该句子的情感倾向值。根据本公开的一个方面,提供一种灰名单生成系统,包括:根据上述任意一项所述的调研样本判断系统;保存装置,用于将所述无效样本的答题者的客户端IP以及答题时间保存至一存储元件;获取装置,用于获取一指定时间内所述存储元件记录的各无效样本的数据;判断装置,用于判断各所述无效样本的数据是否满足一预设无效样本灰名单判断规则;以及灰名单本文档来自技高网
...
调研样本判断方法及系统、灰名单生成方法及系统

【技术保护点】
一种调研样本判断方法,其特征在于,包括:接收一调研样本,并对所述调研样本中的每个题目的解答内容进行分词处理;对所述分词处理得到的词语进行情感倾向分析,并根据所述情感倾向分析的结果标注具有情感倾向的词语,以得到标注词语;根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值;配置每个所述题目的加权系数,根据每个所述题目的加权系数以及对应的解答内容的情感倾向值获得所述调研样本的情感倾向值;以及判断所述调研样本的情感倾向值是否为一预设值,在所述调研样本的情感倾向值为所述预设值的情况下,所述调研样本为无效样本。

【技术特征摘要】
1.一种调研样本判断方法,其特征在于,包括:接收一调研样本,并对所述调研样本中的每个题目的解答内容进行分词处理;对所述分词处理得到的词语进行情感倾向分析,并根据所述情感倾向分析的结果标注具有情感倾向的词语,以得到标注词语;根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值;配置每个所述题目的加权系数,根据每个所述题目的加权系数以及对应的解答内容的情感倾向值获得所述调研样本的情感倾向值;以及判断所述调研样本的情感倾向值是否为一预设值,在所述调研样本的情感倾向值为所述预设值的情况下,所述调研样本为无效样本。2.根据权利要求1所述的调研样本判断方法,其特征在于,所述根据各所述题目的解答内容包含的所述标注词语确定每个所述题目的解答内容的情感倾向值包括:对每个所述题目的解答内容进行分段处理以及分句处理;判断所述分段处理得到的段落的首尾句是否包含所述标注词语;在判断出所述分段处理得到的段落的首尾句包含所述标注词语时,结合所述首尾句包含的所述标注词语确定所述段落的情感倾向值,以计算出每个所述题目的解答内容的情感倾向值;在判断出所述分段处理得到的段落的首尾句不包含所述标注词语时,获取所述段落中所有句包含的所述标注词语,并根据所有句包含的所述标注词语确定所述段落的情感倾向值,以计算出每个所述题目的解答内容的情感倾向值。3.根据权利要求2所述的调研样本判断方法,其特征在于,根据所有句包含的所述标注词语确定所述段落的情感倾向值包括:判断每一句的句式,所述句式的结构包括转折结构和/或递进结构;在判断出句子的句式为所述转折结构时,结合所述转折结构中的转折部分的所述标注词语确定所述句子的情感倾向值;在判断出句子的句式为递进结构时,根据所述该句子中所有的所述标注词语确定所述该句子的情感倾向值。4.一种灰名单生成方法,其特征在于,包括:根据权利要求1至3中任一项所述的调研样本判断方法获取无效样本;将所述无效样本的答题者的客户端IP以及答题时间保存至一存储元件;获取一指定时间内所述存储元件记录的各无效样本的数据;判断各所述无效样本的数据是否满足一预设无效样本灰名单判断规则;以及在判断出一所述无效样本的数据满足所述预设无效样本灰名单判断规则的情况下,建立包括所述该无效样本的答题者的客户端IP的无效样本灰名单。5.根据权利要求4所述的灰名单生成方法,其特征在于,还包括:在所述无效样本灰名单中,删除存储时长超过一预设更新时间的客户端IP。6.一种调研样本判断方法,其特征在于,包括:接收一包括陷阱题的解答内容的调研样本,并判断所述陷阱题的解答内容是否正确;在判断出所述陷阱题的解答内容正确的情况下,判断所述调研样本的答题者的客户端IP是否包括在根据权利要求4或5所述的灰名单生成方法生成的无效样本灰名单中;在判断出所述调研样本的答题者的客户端IP包括在根据权利要求4或5所述的灰名单生成方法生成的无效样本灰名单中的情况下,结合权利要求1至3中任一项所述的调研样本判断方法判断所述该调研样本是否为无效样本;以及在判断出所述该调研样本不是无效样本的情况下,所述该调研样本为有效样本。7.一种调研样本判断系统,其特征在于,包括:分词处理单元,用于接收一调研样本,并对所述调研样本中的每个题目的解答内容进行分词处理;词...

【专利技术属性】
技术研发人员:刘姗
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1