本发明专利技术涉及机器学习技术领域,尤其为一种为快速表达力测试生成题目的方法,目前表达能力测试人工命题效率低下,存在人为因素偏差,且准备一次测试题目往往需要耗费较大的人力和时间成本。针对这一问题,本发明专利技术提出了一种在表达能力测试中可以使用的快速题目生成技术,结合时下流行的网络爬虫技术与表达力评测语言材料的基本特征,利用自然语言处理技术,快速提取文本有效信息,有效地帮助专家生成正式使用的表达力评测题目。
【技术实现步骤摘要】
一种为快速表达力测试生成题目的方法
本专利技术涉及机器学习
,尤其是一种为快速表达力测试生成题目的方法。
技术介绍
快速表达力测试是一种新型口语测试模式,相较于传统汉语言测试,快速表达力测试有应用面广、测试快捷、评测客观的优点。但目前快速表达力测试的题目仍由人工命题,该方法效率较低,准备一次测试题目往往需要耗费较大的人力和时间成本。
技术实现思路
本专利技术的一个目的是通过提出一种为快速表达力测试生成题目的方法,以解决上述
技术介绍
中提出的当前快速表达力测试的题目完全由人工命题,效率较低,并且带有较大的出题者主观因素的缺陷。本专利技术采用的技术方案如下:使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类,并存储在数据仓库中;S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。作为本专利技术的一种优选技术方案:所述S1中爬虫技术获取资料的原始网站,可选用各类百科网站等知识性较强的网站。作为本专利技术的一种优选技术方案:所述S1中还可以手动录入语言材料资源。作为本专利技术的一种优选技术方案:所述S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。作为本专利技术的一种优选技术方案:所述S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。作为本专利技术的一种优选技术方案:所述S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。作为本专利技术的一种优选技术方案:还可由人工对生成的题目正文TZW进行调整。作为本专利技术的一种优选技术方案:所述S2还可由开源分词工具或商用接口完成。作为本专利技术的一种优选技术方案:所述S4中的主旨句可以由人工重新选取。作为本专利技术的一种优选技术方案:所述S5中E默认为语言材料长度的1/20或由人工按需重新指定,集合R2可以由人工介入,新增删除或修改。本专利技术的有益效果是:1、本专利技术使用了网络爬虫技术,从网络资源中爬取语言材料,这使得语言材料来源具有多样性,避免了出题专家主观因素的影响。2、本专利技术使用了自然语言处理技术,从语言材料中获取了大量的关键词,这给出题专家提供了足够的词库提示。结合这两个主要特点,本专利技术可以减少快速表达力测试出题过程中的人工劳动,降低人工劳动的难度,在很大程度上提高了出题效率。附图说明图1为本专利技术的步骤示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:参照图1,本专利技术优选实施例提供了一种为快速表达力测试生成题目的方法,使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类,并存储在数据仓库中;具体的,上述过程所涉及到的过滤和分类操作,目的是过滤掉内容不适合作为测试题目的语言材料。S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。本实施例中:S1中爬虫技术获取资料的原始网站,选用各类百科网站等知识性较强的网站。本实施例中:S1中的过滤和分类操作方式,需要依赖于预先制定的违规词的词库,在对语言材料进行分词操作的基础上,由程序统计违规词在每个语言材料的出现的频率,若违规词出现频率超过人工设定的规定值,则认为该语言材料为违规材料,进行丢弃。本实施例中:S1中得到分词结果组成列表F,F包含语言材料切分后的词语和每个词语对应的词性。本实施例中:S1对得到的语言材料可按给定的字数或句子数目进行切割,以取得在规定长度内的语言材料,该语言材料作为生成题目的题目正文TZW。本实施例中:S5中E默认为语言材料长度的1/20。实施例2:本专利技术优选实施例提供了一种为快速表达力测试生成本文档来自技高网...
【技术保护点】
1.一种为快速表达力测试生成题目的方法,其特征在于:使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:/nS1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类,并存储在数据仓库中;/nS2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;/nS3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;/nS4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;/nS5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;/nS6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;/nS7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;/nS8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;/nS9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。/n...
【技术特征摘要】
1.一种为快速表达力测试生成题目的方法,其特征在于:使用网络爬虫技术和自然语言处理技术,基于计算机软件生成快速表达力测试的题目;该方法的步骤如下:
S1:使用爬虫技术从网络自动取得大量语言材料,然后对这些语言材料进行过滤和分类,并存储在数据仓库中;
S2:在S1取得的分词后的语言材料中,进行词频统计和词性提取工作;
S3:使用TextRank算法对S1得到的每个语言材料进行自动摘要操作,该操作得到列表B,包含按TextRank数值重新排序的句子及其对应的TextRank数值;
S4:对S3得到的列表B,提取排序在前50%的句子,作为其语言材料的主旨句,将主旨句拼接得到主旨句文本C;
S5:对S4得到的主旨句文本C,使用TF-IDF算法从中提取关键词,并从关键词中取出普通名词和形容词词性的词语组成集合D;该步选择关键词的数量取TF-IDF数值排序靠前的E个词,得到题目的初始主旨词集合R2;
S6:对R2进行同义词扩充,即:对于R2中每个词语W,取其同义词与W组成一组同义词,W2,使用W2替换R2中的W,最后得到题目的主旨词列表TZZ,并给TZZ中每组词语赋予相同的分数权重;
S7:根据S1得到的分词列表F,从中选择时间名词、地点名词和数量词等,组成新的分词结果集合,即题目的初始细节词集合R3;
S8:使用与S6相同的方法步骤,对初始细节词集合R3进行扩充得到题目的细节词列表TXJ;
S9:汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ,即为新生成的题目T。
2.根据权利要求1所述的为快速表达力测试生成题目的方法,其特征在于:所述S1中爬虫技术获取资料的原始网站,可...
【专利技术属性】
技术研发人员:马徐骏,刘嘉,詹晨,孟磊,王浩宇,褚东宇,汤大业,王磊,
申请(专利权)人:上海迷因网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。