一种问卷信息处理方法技术

技术编号:37054328 阅读:14 留言:0更新日期:2023-03-29 19:31
本发明专利技术提供一种问卷信息处理方法,属于信息处理技术领域,所述方法包括如下步骤,先将填好的电子问卷进行图片化,然后及时保存问卷的数据,进行图片识别出问卷的具体内容,然后分析电子问卷的选项内容得到问卷的具体权重数据。本发明专利技术通过电子问卷进行图片处理,避免了需要访问电子问卷的生成系统或者服务器,可以直接外部进行问卷收集和处理,可以不用把没有必要的一些数据存储到服务器,减少了中间的数据传输,可以实现高效收集电子问卷数据,返回的直接为权重比列数据,均是有用的数据,处理的效率更高,直接从网页端就进行数据的处理,避免了服务器的访问。避免了服务器的访问。避免了服务器的访问。

【技术实现步骤摘要】
一种问卷信息处理方法


[0001]本专利技术涉及领域,尤其涉及一种问卷信息处理方法。

技术介绍

[0002]在日常生活中,常常涉及需要让用户填写调查问卷,以通过调查问卷来评估某一指标。相关技术中,通常是首先由评估专家研究出一套指标体系,设计相应的问卷和计算模型,评估人员将问卷以电子或纸质的方式发送给用户填写,并通过手动的方式将纸质版问卷和/或电子版问卷汇总到不同的第三方数据统计分析软件中,依据相关计算模型进行评估。
[0003]现有电子问卷系统由最早的HTML表单专用网页问卷,到通用HTML网页问卷编辑器,再到通用问卷编程语言,经历了三个阶段的发展。通用的HTML网页问卷编辑器,用户可以自行编写问卷、添加题目和设置题目的跳转和校验逻辑、然后发布问卷以及回收问卷数据。但是这些电子问卷的生成方式慢,效率低,同时不能生成不同的问卷。因此衍生出了一种表格式的电子问卷,而在问卷处理时,需要及时的获取用户填报的内容,如果进行数据存储的方式,则需要数据库进行大量数据的存储,然后后期再对数据处理,过程非常麻烦。因此,本方案设计了一种表格式问卷信息处理方法。

技术实现思路

[0004]本专利技术的目的在于提供一种问卷信息处理方法,解决现有的技术问题。
[0005]因此需要设计一种处理方式,其更加的简单,每个用户已提交后就将用户处理好的数据提交服务器。
[0006]为了实现上述目的,本专利技术采用的技术方案如下:一种问卷信息处理方法,处理的问卷为表格式问卷,所述方法包括如下步骤:步骤1:将电子问卷界面进行截屏,然后对截屏的问卷进行表格识别,并将表格方框描绘出来;步骤2:将电子问卷截屏转换为DOCX,解压DOCX后获取XML格式的底层文件,利用XML节点获取所有文本、文本属性及单元格属性,建立文本集合Text;步骤3:构建本体模型,根据相关领域创建语义模型,建立表格标题关键字;步骤4:过滤干扰字符,利用表格标题关键字的字号属性过滤干扰字符,并利用特殊关键字过滤字号属性识别失效的干扰字符;步骤5:根据电子问卷表格标题关键字查找属于本体模型的表头内容,确定表头所有文本,利用单元格长度属性将表头按列分割,并将表头的列数作为表格列数;步骤6:还原表格结构,利用单元格长度属性获取表格每行的列数,若列数小于表头列数,则从上一行中高度异常的单元格中取出换行节点或段落节点后的文本,插入该行中,并将该行内同一单元格内的拆分字符拼接成完整的字符串,利用单元格高度属性与长度属性判断表格结束位置;
步骤7:抽取表格数据,识别电子问卷的题目和选项数据,然后根据题目和选项的权重进行问卷信息统计。
[0007]进一步地,步骤1的具体过程为,用户填完电子问卷,点击提交时,则网页自动对所填报的所有页面进行截图,截取的页面图片即为需要处理的图片式的电子问卷,然后对图片式的电子问卷进行预处理,得到图片上表格的方框横线条,然后将表格方框的横线条进行画黑,实现表格的还原。
[0008]进一步地,步骤2的具体过程为,转换为DOCX,还原文本行的结构,且表格结构部分还原,保留字符间的相对位置,解压DOCX后获取XML格式的底层文件,利用XML获取原文档中的文本字符串、文本属性、单元格长度属性和单元格高度属性,判断XML中的字符格式,将所有全角字符转为半角字符,并还原字符间的连接关系,构建Text文本集合。
[0009]进一步地,步骤3的具体过程为,根据不同的电子问卷领域建立不同的本体模型,本体模型包含若干个等级,每个一级概念下包含若干二级概念。
[0010]进一步地,步骤5的具体过程为,根据表格标题关键字确定表头所有文本的过程包括确定表格标题关键字所在位置,按照XML中的字符顺序从表格标题关键字的下一个单元格开始查找首次出现在本体模型中的二级概念,获取相应名词所在单元格的高度,统计文本集合第一次出现该单元格高度的字符与最后一次出现该单元格高度的字符,将两个字符之间的所有文本作为表头内容;从表格标题关键字位置开始查找本体模型的方式为:若表格标题关键字不位于单元格中,按照字符顺序找到第一个位于单元格内的本体模型二级概念,名词所在行即为表头,若表格标题关键字位于单元格内,判断当前字符所在单元格的长度是否等于表格标题关键字所在的单元格长度,若长度变化且存在本体模型二级概念,则该单元格所在表格行为表头;表头内容分列的过程包括:获取表头每个单元格长度,单元格长度的种类即为表头的列数,查询与该字符绑定的单元格长度属性节点,单元格长度相同的文本划分为同列,单元格长度不同的文本划分为不同列;表头第k个字符为,其所在单元格长度为,第1行第j列的单元格为,其长度为,若,则字符属于单元格,该字符也表示为。
[0011]进一步地,步骤6的具体过程为,为避免期刊分栏造成字符及单元格遍历顺序混乱,区分表格相邻行的方式为:下一行的起始位置通过上一行最后一个字符按顺序遍历,若字符所在的单元格长度小于上一行所有单元格长度和的一半,则该字符为下一行的起始字符;(1)式(1)中,c
n
为表格中除表头外的第n个字符,为表格中第i行第1列的单元
格,w
n
为第n个字符所在单元格长度,为第行所有单元格的长度和,J为表头列数;获取该字符所在单元格高度,将高度定为表格行的高度,获取高度单元格内的最后一个字符,确定该表格行的所有文本。
[0012]进一步地,步骤7的具体过程为,利用本体模型识别表格标题,判断表头中属于本体模型的名词,将名词作为字典的键,与名词同列的其他行文本作为字典的值,逐一输出到数据库,然后对每个题目赋给权重,并确定每个选项与对应填电子问卷者从事行业的相关性来确定选项的权重系数,然后识别用户填的数据,汇总整个电子问卷各个点的权重数据并传给服务器。
[0013]本专利技术由于采用了上述技术方案,具有以下有益效果:本专利技术通过电子问卷进行图片处理,避免了需要访问电子问卷的生成系统或者服务器,可以直接外部进行问卷收集和处理,不用把没有必要的一些数据存储到服务器,减少了中间的数据传输,可以实现高效收集电子问卷数据,返回的直接为权重比列数据,均是有用的数据,处理的效率更高,直接从网页端就进行数据的处理,避免了服务器的访问。
附图说明
[0014]图1是本专利技术方法流程图。
具体实施方式
[0015]为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本专利技术进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本专利技术的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本专利技术的这些方面。
[0016]如图1所示,一种问卷信息处理方法,处理的问卷为表格式问卷,所述方法包括如下步骤:步骤1:将电子问卷界面进行截屏,然后对截屏的问卷进行表格识别,并将表格方框描绘出来。用户填完电子问卷,点击提交时,则网页自动对所填报的所有页面进行截图,截取的页面图片即为需要处理的图片式的电子问卷,然后对图片式的电子问卷进行预处理,得到图片上表格的方框横线条,然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问卷信息处理方法,其特征在于:处理的问卷为表格式问卷,所述方法包括如下步骤:步骤1:将电子问卷界面进行截屏,然后对截屏的问卷进行表格识别,并将表格方框描绘出来;步骤2:将电子问卷截屏转换为DOCX,解压DOCX后获取XML格式的底层文件,利用XML节点获取所有文本、文本属性及单元格属性,建立文本集合Text;步骤3:构建本体模型,根据相关领域创建语义模型,建立表格标题关键字;步骤4:过滤干扰字符,利用表格标题关键字的字号属性过滤干扰字符,并利用特殊关键字过滤字号属性识别失效的干扰字符;步骤5:根据电子问卷表格标题关键字查找属于本体模型的表头内容,确定表头所有文本,利用单元格长度属性将表头按列分割,并将表头的列数作为表格列数;步骤6:还原表格结构,利用单元格长度属性获取表格每行的列数,若列数小于表头列数,则从上一行中高度异常的单元格中取出换行节点或段落节点后的文本,插入该行中,并将该行内同一单元格内的拆分字符拼接成完整的字符串,利用单元格高度属性与长度属性判断表格结束位置;步骤7:抽取表格数据,识别电子问卷的题目和选项数据,然后根据题目和选项的权重进行问卷信息统计。2.根据权利要求1所述的一种问卷信息处理方法,其特征在于:步骤1的具体过程为,用户填完电子问卷,点击提交时,则网页自动对所填报的所有页面进行截图,截取的页面图片即为需要处理的图片式的电子问卷,然后对图片式的电子问卷进行预处理,得到图片上表格的方框横线条,然后将表格方框的横线条进行画黑,实现表格的还原。3.根据权利要求1所述的一种问卷信息处理方法,其特征在于:步骤2的具体过程为,转换为DOCX,还原文本行的结构,且表格结构部分还原,保留字符间的相对位置,解压DOCX后获取XML格式的底层文件,利用XML获取原文档中的文本字符串、文本属性、单元格长度属性和单元格高度属性,判断XML中的字符格式,将所有全角字符转为半角字符,并还原字符间的连接关系,构建Text文本集合。4.根据权利要求1所述的一种问卷信息处理方法,其特征在于:步骤3的具体过程为,根据不同的电子问卷领域建立不同的本体模型,本体模型包含若干个等级,每个一级概念下包含若干二级概念。5.根据权利要求1所述的一种问卷信息处理方法,其特征在于:步骤5的具体过程...

【专利技术属性】
技术研发人员:尹鲁
申请(专利权)人:长沙冉星信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1