当前位置: 首页 > 专利查询>厦门大学专利>正文

基于机器学习的调查问卷自动生成方法技术

技术编号:17162133 阅读:67 留言:0更新日期:2018-02-01 20:24
基于机器学习的调查问卷自动生成方法,涉及机器学习。使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;对种子问题集进行语义聚类构建语义上相似的问题集合;对问题集合进行极性匹配;删除不合适的问题;计算关键短语的权重;选择覆盖最大权重关键短语的最小独立问题集合产生问卷。所述方法生成的调查问卷,其中的问题简单,清晰,具体,公正,易于理解。

Automatic generation method of questionnaire based on machine learning

The method of automatic generation of questionnaire based on machine learning involves machine learning. The use of common patterns of sequential pattern mining algorithm to find problems, each problem is removed by sentence, noun phrase, or key phrases; input topic, get the correlation between topic and key phrases, seed problems covering the graph set; in semantic clustering sets of semantically similar problems on seed set the problem set for polarity; matching; delete inappropriate; weighting key phrases; choose the smallest independent coverage of maximum weight key phrases generate a set of questionnaire. The questionnaire generated by the method is simple, clear, concrete, fair and easy to understand.

【技术实现步骤摘要】
基于机器学习的调查问卷自动生成方法
本专利技术涉及机器学习,尤其是涉及基于机器学习的调查问卷自动生成方法。
技术介绍
民意调查在现代社会并不罕见。第一个为人所知的民意调查例子是在大约200年前组织的,它成功地预测了1824年美国总统选举的结果。从那时起,组织民意调查以衡量公众意见和证明经验成为一个惯例,从电子游戏的市场表现到总统工作的支持率,民意调查涵盖了广泛的主题。调查结果为新闻事件中的每个人提供有价值的信息和其他感兴趣的话题,并促进政策和其他决定的制定。民意调查会向从目标人群中抽取出来的选民发出一系列的问题,目的是基于样本选民的答案推断一般性。因此,调查问卷的设计至关重要。按照惯例,调查问卷是由具有专业知识的专业人士创建的。几乎每个国家都有民意调查机构来组织选举。较多的电视网络也会定期进行民意调查。但是,在未知的话题上,民意调查并不总能可靠地预测公众的意见。例如,2016年唐纳德·特朗普的当选标志着调查预测最大的失败。最近,在线社交媒体网站已成为在线用户发布和交流思想和观点的占主导地位的平台,吸引了研究人员来研究公众意见,尤其是在线辩论论坛为公众意见的挖掘提供了有价值的信息。从民意调查的角度来看,辩论论坛是一个问题的集合,那么给定任意的话题,是否有可能从在线辩论论坛自动产生调查问卷?但是,调查问卷中问题的选择并不简单。在调查问卷中有一些撰写问题的准则,例如,民意调查应该提出“足够的问题,以便涵盖议题的所有方面”。每个问题的措词应该仔细组织,以使被访者的真实感受得到揭示。尽可能保持调查问卷的简短也是一个黄金准则。然而,目前还没有已知的计算解决方案。专利技术内容本专利技术的目的是针对现有的上述技术所存在的问题,提供基于机器学习的调查问卷自动生成方法。本专利技术包括以下步骤:1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;2)输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;3)对种子问题集进行语义聚类构建语义上相似的问题集合;4)对问题集合进行极性匹配;5)删除不合适的问题;6)计算关键短语的权重;7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷。在步骤1)中,所述使用序列模式挖掘算法(Prefixspan)找出问题中常见的句型,删除问题的句型,剩下的部分用POS-tagger得到名词性短语,即该问题的关键短语,删除问题的句型对于满足几个句型的问题,删除最长的句型;在步骤2)中,所述输入话题,根据给定话题得到相关关键短语,若问题主体或用户对问题的评论中包含关键短语,则将该问题加入种子问题集。在步骤3)中,所述对种子问题集进行语义聚类构建语义上相似的问题集合,使用近邻传播算法(AP)进行语义聚类,算法中节点间传递的消息为两类:吸引度(R={r(i,j)})和归属度(A={a(i,j)}),两个信息的更新过程如下:其中,相似度函数s(i,j)定义如下,使用SF(q)={k,k∈Tq}表示问题q中的关键短语:构成一个基于双层主题敏感问题图(BITSQG)的框架;第一层是问题图,表示问题之间的等价性,根据聚类的结果,将同一类中的问题两两连接;第二层由与给定主题相关的关键短语组成,其中每个节点被分配一个权重,权重的计算在步骤6)介绍;若问题q主体或用户对问题q的评论中包含关键短语k,则将弧a(q,k)添加到BITSQG中。在步骤4)中,所述对问题集合进行极性匹配,对问题进行极性匹配的原因是,可能问题q1的赞同观点与问题q2的反对观点相同,即极性相反的情况;将问题视为二元分类任务,给定两个问题q,q',训练分类器使得若Pq与Pq'匹配,则输出为正,即极性相同;若Pq与Nq'匹配,则输出为负,即极性相反;使用4个领域的特征:文本、投票情况、人口统计学和情感倾向,从每个领域得出两个特征,分别表示输出为正和负的可能性;1)文本由问题q与持相应观点的评论组成,若文本字段相似,则这两个问题可能是相同话题的,使用余弦相似性比较文本的相似性,f1是与正输出相关的特征,f2是与负输出相关的特征:f1=cosine(Pq,Pq')+cosine(Nq,Nq')f2=cosine(Pq,Nq')+cosine(Nq,Pq')2)假设用户会坚持一个立场,若用户对q1持赞同观点,对q2持反对观点,这两个问题可能是极性相反的话题,f3是与正输出相关的特征,f4是与负输出相关的特征:f3=|{u|u∈Pq,u∈Pq'}|+|{u|u∈Nq,u∈Nq'}|f4=|{u|u∈Pq,u∈Nq'}|+|{u|u∈Nq,u∈Pq'}|3)将个人的投票立场推广到群体投票立场,对于具有类似人口特征的用户,意见分布是稳定的,对所有组的立场向量计算余弦相似性并求和,其中ps(q,g)=|{u|u∈g,u∈Pq}|表示持赞同观点的人数,cs(q,g)=|{u|u∈g,u∈Nq}|表示持反对观点的人数,f5是与正输出相关的特征,f6是与负输出相关的特征:f5=Σgcosine([ps(q,g),cs(q,g)],[ps(q',g),cs(q',g)])f6=Σgcosine([ps(q,g),cs(q,g)],[cs(q',g),ps(q',g)])4)利用问题中的情感词语来匹配立场,通过FBS词典提取出负面意见词,n(q)是问题q中负面意见词的数量,求余是为了避免双重否定的句子,f7是与正输出相关的特征,f8是与负输出相关的特征:f7=1-[n(q)-n(q')]%2f8=[n(q)-n(q')]%2。在步骤5)中,所述删除不合适的问题,使用估计响应区间选择不合适的问题,对于问题q,定义|Pq|为投赞同票的人数,|Nq|为投反对票的人数,n(q)=|Pq∪Nq|,则问题q的估计响应区间定义如下:I(q)=[σ(q)-MOE(q),σ(q)+MOE(q)]其中,σ(q)=|Pq|/(|Pq∪Nq|),若I(q)∩I(q')=φ则表示这两个问题的响应区间不重叠,则断开这两个问题的连接。在步骤6)中,所述计算关键短语的权重,表示关键短语与话题的相关性,而相关性取决于话题与关键短语是否共同出现在问题文本中,或者一个在问题文本中,一个在评论中,每个关键短语k与给定主题o的相关性wo(k)定义为:wo(k)=w1×|Q(o)∩Q(k)|+w2×(|Q(o)∩C(k)|+|Q(k)∩C(o)|)其中,Q(o)表示问题中包含话题o的问题集,C(k)是在评论中包含关键短语k的问题集,w1,w2是系数。在步骤7)中,所述选择覆盖最大权重关键短语的最小独立问题集合产生问卷,一个独立的问题集是一组没有两个节点相邻的问题,其涵盖的主题o的关键短语的权重之和被定义如下,a(q,k)表示问题q包含关键短语k:wo(S)=∑q∈S,a(q,k)w(k)oS是覆盖最大权重关键短语的最小独立问题集合,当且仅当(1)S是独立的问题集合;(2)不存在独立的集合S'使得Wo(S')>Wo(S);(3)不存在独立的集合S',其中Wo(S')=Wo(S),而|S'|>|S|。本专利技术使用贪心算法来选择调查问卷的问题。从空集开始每次从问题集Q中选择覆盖权重最大的问题q*加入独立集S,执行如下操作:S←S∪{q*}Q←Q-{q*}K←K-{k本文档来自技高网...
基于机器学习的调查问卷自动生成方法

【技术保护点】
基于机器学习的调查问卷自动生成方法,其特征在于包括以下步骤:1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;2)输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;3)对种子问题集进行语义聚类构建语义上相似的问题集合;4)对问题集合进行极性匹配;5)删除不合适的问题;6)计算关键短语的权重;7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷。

【技术特征摘要】
1.基于机器学习的调查问卷自动生成方法,其特征在于包括以下步骤:1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;2)输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;3)对种子问题集进行语义聚类构建语义上相似的问题集合;4)对问题集合进行极性匹配;5)删除不合适的问题;6)计算关键短语的权重;7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷。2.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤1)中,所述使用序列模式挖掘算法找出问题中常见的句型,删除问题的句型,剩下的部分用POS-tagger得到名词性短语,即该问题的关键短语,删除问题的句型对于满足几个句型的问题,删除最长的句型。3.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤2)中,所述输入话题,根据给定话题得到相关关键短语,若问题主体或用户对问题的评论中包含关键短语,则将该问题加入种子问题集。4.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤3)中,所述对种子问题集进行语义聚类构建语义上相似的问题集合,使用近邻传播算法进行语义聚类,算法中节点间传递的消息为两类:吸引度(R={r(i,j)})和归属度(A={a(i,j)}),两个信息的更新过程如下:其中,相似度函数s(i,j)定义如下,使用SF(q)={k,k∈Tq}表示问题q中的关键短语:构成一个基于双层主题敏感问题图(BITSQG)的框架;第一层是问题图,表示问题之间的等价性,根据聚类的结果,将同一类中的问题两两连接;第二层由与给定主题相关的关键短语组成,其中每个节点被分配一个权重,权重的计算在步骤6)介绍;若问题q主体或用户对问题q的评论中包含关键短语k,则将弧a(q,k)添加到BITSQG中。5.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤4)中,所述对问题集合进行极性匹配,对问题进行极性匹配的原因是,可能问题q1的赞同观点与问题q2的反对观点相同,即极性相反的情况;将问题视为二元分类任务,给定两个问题q,q',训练分类器使得若Pq与Pq'匹配,则输出为正,即极性相同;若Pq与Nq'匹配,则输出为负,即极性相反;使用4个领域的特征:文本、投票情况、人口统计学和情感倾向,从每个领域得出两个特征,分别表示输出为正和负的可能性。6.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤4)中,1)文本由问题q与持相应观点的评论组成,若文本字段相似,则这两个问题可能是相同话题的,使用余弦相似性比较文本的相似性,f1是与正输出相关的特征,f2是与负输出相关的特征:f1=cosine(Pq,Pq')+cosine(Nq,Nq')f2=cosine(Pq,Nq')+cosine(Nq,Pq')2)假设用户会坚持一个立场,若用户对q1持赞同观点,对q2...

【专利技术属性】
技术研发人员:林琛杨颖林灵婷
申请(专利权)人:厦门大学厦门大学深圳研究院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1