The method of automatic generation of questionnaire based on machine learning involves machine learning. The use of common patterns of sequential pattern mining algorithm to find problems, each problem is removed by sentence, noun phrase, or key phrases; input topic, get the correlation between topic and key phrases, seed problems covering the graph set; in semantic clustering sets of semantically similar problems on seed set the problem set for polarity; matching; delete inappropriate; weighting key phrases; choose the smallest independent coverage of maximum weight key phrases generate a set of questionnaire. The questionnaire generated by the method is simple, clear, concrete, fair and easy to understand.
【技术实现步骤摘要】
基于机器学习的调查问卷自动生成方法
本专利技术涉及机器学习,尤其是涉及基于机器学习的调查问卷自动生成方法。
技术介绍
民意调查在现代社会并不罕见。第一个为人所知的民意调查例子是在大约200年前组织的,它成功地预测了1824年美国总统选举的结果。从那时起,组织民意调查以衡量公众意见和证明经验成为一个惯例,从电子游戏的市场表现到总统工作的支持率,民意调查涵盖了广泛的主题。调查结果为新闻事件中的每个人提供有价值的信息和其他感兴趣的话题,并促进政策和其他决定的制定。民意调查会向从目标人群中抽取出来的选民发出一系列的问题,目的是基于样本选民的答案推断一般性。因此,调查问卷的设计至关重要。按照惯例,调查问卷是由具有专业知识的专业人士创建的。几乎每个国家都有民意调查机构来组织选举。较多的电视网络也会定期进行民意调查。但是,在未知的话题上,民意调查并不总能可靠地预测公众的意见。例如,2016年唐纳德·特朗普的当选标志着调查预测最大的失败。最近,在线社交媒体网站已成为在线用户发布和交流思想和观点的占主导地位的平台,吸引了研究人员来研究公众意见,尤其是在线辩论论坛为公众意见的挖掘提供了有价值的信息。从民意调查的角度来看,辩论论坛是一个问题的集合,那么给定任意的话题,是否有可能从在线辩论论坛自动产生调查问卷?但是,调查问卷中问题的选择并不简单。在调查问卷中有一些撰写问题的准则,例如,民意调查应该提出“足够的问题,以便涵盖议题的所有方面”。每个问题的措词应该仔细组织,以使被访者的真实感受得到揭示。尽可能保持调查问卷的简短也是一个黄金准则。然而,目前还没有已知的计算解决方案。专利技 ...
【技术保护点】
基于机器学习的调查问卷自动生成方法,其特征在于包括以下步骤:1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;2)输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;3)对种子问题集进行语义聚类构建语义上相似的问题集合;4)对问题集合进行极性匹配;5)删除不合适的问题;6)计算关键短语的权重;7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷。
【技术特征摘要】
1.基于机器学习的调查问卷自动生成方法,其特征在于包括以下步骤:1)使用序列模式挖掘算法找出问题中常见的句型,每个问题去掉句型,得到名词性短语,即关键短语;2)输入话题,得到话题与关键短语的关系图,得覆盖所述关系图的种子问题集;3)对种子问题集进行语义聚类构建语义上相似的问题集合;4)对问题集合进行极性匹配;5)删除不合适的问题;6)计算关键短语的权重;7)选择覆盖最大权重关键短语的最小独立问题集合产生问卷。2.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤1)中,所述使用序列模式挖掘算法找出问题中常见的句型,删除问题的句型,剩下的部分用POS-tagger得到名词性短语,即该问题的关键短语,删除问题的句型对于满足几个句型的问题,删除最长的句型。3.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤2)中,所述输入话题,根据给定话题得到相关关键短语,若问题主体或用户对问题的评论中包含关键短语,则将该问题加入种子问题集。4.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤3)中,所述对种子问题集进行语义聚类构建语义上相似的问题集合,使用近邻传播算法进行语义聚类,算法中节点间传递的消息为两类:吸引度(R={r(i,j)})和归属度(A={a(i,j)}),两个信息的更新过程如下:其中,相似度函数s(i,j)定义如下,使用SF(q)={k,k∈Tq}表示问题q中的关键短语:构成一个基于双层主题敏感问题图(BITSQG)的框架;第一层是问题图,表示问题之间的等价性,根据聚类的结果,将同一类中的问题两两连接;第二层由与给定主题相关的关键短语组成,其中每个节点被分配一个权重,权重的计算在步骤6)介绍;若问题q主体或用户对问题q的评论中包含关键短语k,则将弧a(q,k)添加到BITSQG中。5.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤4)中,所述对问题集合进行极性匹配,对问题进行极性匹配的原因是,可能问题q1的赞同观点与问题q2的反对观点相同,即极性相反的情况;将问题视为二元分类任务,给定两个问题q,q',训练分类器使得若Pq与Pq'匹配,则输出为正,即极性相同;若Pq与Nq'匹配,则输出为负,即极性相反;使用4个领域的特征:文本、投票情况、人口统计学和情感倾向,从每个领域得出两个特征,分别表示输出为正和负的可能性。6.如权利要求1所述基于机器学习的调查问卷自动生成方法,其特征在于在步骤4)中,1)文本由问题q与持相应观点的评论组成,若文本字段相似,则这两个问题可能是相同话题的,使用余弦相似性比较文本的相似性,f1是与正输出相关的特征,f2是与负输出相关的特征:f1=cosine(Pq,Pq')+cosine(Nq,Nq')f2=cosine(Pq,Nq')+cosine(Nq,Pq')2)假设用户会坚持一个立场,若用户对q1持赞同观点,对q2...
【专利技术属性】
技术研发人员:林琛,杨颖,林灵婷,
申请(专利权)人:厦门大学,厦门大学深圳研究院,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。