当前位置: 首页 > 专利查询>复旦大学专利>正文

一种机器智能辅助的扎根理论编码优化方法技术

技术编号:25123595 阅读:50 留言:0更新日期:2020-08-05 02:52
本发明专利技术属于定性研究技术领域,具体为一种机器智能辅助的扎根理论编码优化方法。本父母优化方法的核心体现在两个环节:特征提取及自动编码分类:特征提取是根据同编码分类中,文本在信息上具有较高的特征一致性设计,提取同分类下的文本信息特征,作为后续自动分类环节的分类依据;自动编码是根据在特征提取环节中提取的分类特征,计算新文本与各分类语料的相似度,将其归类到相似度最高的分类中;在整个编码过程中,会结合人为调整、特征再提取等过程,以获取更精确的编码结果。本发明专利技术是在经典的扎根理论编码过程中融合了机器智能技术,以优化编码过程,提高研究人员对数据处理和编码的效率。

【技术实现步骤摘要】
一种机器智能辅助的扎根理论编码优化方法
本专利技术属于定性研究
,具体涉及一种扎根理论编码优化方法。
技术介绍
在定性研究中,扎根理论是一种被广泛采用的定性研究方法。扎根理论是由格拉泽和施特劳斯于1967年提出的一种从资料中建立理论的特殊方法论。研究者可以从传记、日记、录音、手稿、报告等材料,或者通过补充采访和田野观察记录的方式进一步补充相关材料,进而在这些材料的基础上,深入分析某一现象或问题的本质。其中,补充采访获取信息材料的方式,是现阶段研究者采用对社会现象展开研究的一种常用方法。该方法强调,从没有理论假设出发,从实际观察入手,研究者通过招募符合研究现象特征,有过相关经历的受访者。在从与他们的交流中,获取一手的信息材料,通过深入访谈的方式,分析挖掘现象背后深层次的原因,归纳出经验模式,随后发展为一定高度的理论。访谈的方式,对原始资料的收集,必然会涉及到对受众的访谈,而访谈又会产生大量的访谈数据。而研究者则需要在这些大量的访谈数据中,整理形成编码框架。而这样的整理工作,通常会耗费研究人员大量的精力,而实际这个编码的过程,本文档来自技高网...

【技术保护点】
1. 一种机器智能辅助的扎根理论编码优化方法,其特征在于,具体步骤如下:/n(1)数据预处理/n在得到访谈录音数据后,利用转录软件或平台,对录音数据进行转录,并通过人工梳理的方式,得到相应的文字材料;/n然后,通过分句分段工具,将访谈记录切割成一个个语句块;并通过人工核对检查的方式,将分句分段结果进行适当的调整,得到语料集,作为编码的原始材料;/n(2)人工预编码/n对步骤(1)得到的对语料集进行人工预编码,形成初步的编码方案;预编码算法中,通过循环编码、随机选取数据的方式,对选取的原始材料进行概念层次和主题层次的编码,并不断调整编码框架,直至达到初步的信息饱和,或当前数据集数据已全部编码;此...

【技术特征摘要】
1.一种机器智能辅助的扎根理论编码优化方法,其特征在于,具体步骤如下:
(1)数据预处理
在得到访谈录音数据后,利用转录软件或平台,对录音数据进行转录,并通过人工梳理的方式,得到相应的文字材料;
然后,通过分句分段工具,将访谈记录切割成一个个语句块;并通过人工核对检查的方式,将分句分段结果进行适当的调整,得到语料集,作为编码的原始材料;
(2)人工预编码
对步骤(1)得到的对语料集进行人工预编码,形成初步的编码方案;预编码算法中,通过循环编码、随机选取数据的方式,对选取的原始材料进行概念层次和主题层次的编码,并不断调整编码框架,直至达到初步的信息饱和,或当前数据集数据已全部编码;此外,在原有编码的基础上,可以继续编码新的数据,具备较高的灵活性;因此,当未达到信息饱和,或当用户认为未编码完成时,都可继续编码新的数据;
(3)编码特征提取
在预编码的编码方案基础上,进行编码特征提取,实现后续数据的自动分类编码;编码特征的提取,采用TF-IDF方法;其中,TF代表的是TermFrequency,即词频;用该词在该条语料中出现的次数word_cnt,除以该条语料中的总词数total_cnt进行计算,如公式1所示:

公式1
IDF,是指Inversedocumentfrequency,即逆向文件频率,用来衡量一个词语的普遍重要性;由总文件数目total_file除以包含该词语的文件数目file_cnt,再将得到的商取以10为底的对数,即得到IDF的值,其计算式如公式2所示:

公式2
最后,将TF与IDF的值相乘,即得到TF-IDF的值,如公式3所示:

TF-IDF=TF*IDF公式3
(4)自动编码
在步骤3特征提取的基础上,对新的语料集进行编码分类,补充编码框架中的语料集;此处,仍延续步骤3中提取的特征方法,以TF-IDF方法对新的语料集进行自动编码分类;
对于中文语料集,先对文字材料进行分词;去除常用词后,将剩余的词作为该语料集的特征词;然后,通过这些词计算该段文字与相应概念和主题分类的匹配度,将其归类到匹配度最高的主题分类和编码分类下;
具体地,一条新语料t和某语料集s的相似度计算如公式4所示:

公式4
这里,m,n分别为新语料t和语料集s的特征词个数;score(ti,sj)代表的是语料t中第i个词汇和语料s中第j个词汇的在相似度上的得分,具体计算方式如公式5所示:

公式5
其中,dis(x,y)代表词汇x和词汇y在词向量数据集中的空间距离,thres...

【专利技术属性】
技术研发人员:卢暾蒋特顾宁
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1