一种为快速表达力测试生成题目的方法技术

技术编号：26763914 阅读：37 留言：0更新日期：2020-12-18 23:31

本发明专利技术涉及机器学习技术领域，尤其为一种为快速表达力测试生成题目的方法，目前表达能力测试人工命题效率低下，存在人为因素偏差，且准备一次测试题目往往需要耗费较大的人力和时间成本。针对这一问题，本发明专利技术提出了一种在表达能力测试中可以使用的快速题目生成技术，结合时下流行的网络爬虫技术与表达力评测语言材料的基本特征，利用自然语言处理技术，快速提取文本有效信息，有效地帮助专家生成正式使用的表达力评测题目。

全部详细技术资料下载

【技术实现步骤摘要】
一种为快速表达力测试生成题目的方法
本专利技术涉及机器学习
，尤其是一种为快速表达力测试生成题目的方法。
技术介绍
快速表达力测试是一种新型口语测试模式，相较于传统汉语言测试，快速表达力测试有应用面广、测试快捷、评测客观的优点。但目前快速表达力测试的题目仍由人工命题，该方法效率较低，准备一次测试题目往往需要耗费较大的人力和时间成本。
技术实现思路
本专利技术的一个目的是通过提出一种为快速表达力测试生成题目的方法，以解决上述
技术介绍
中提出的当前快速表达力测试的题目完全由人工命题，效率较低，并且带有较大的出题者主观因素的缺陷。本专利技术采用的技术方案如下：使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：S1：使用爬虫技术从网络自动取得大量语言材料，然后对这些语言材料进行过滤和分类，并存储在数据仓库中；S2：在S1取得的分词后的语言材料中，进行词频统计和词性提取工作；S3：使用TextRank算法对S1得到的每个语言材料进行自动...

【技术保护点】
1.一种为快速表达力测试生成题目的方法，其特征在于：使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：/nS1：使用爬虫技术从网络自动取得大量语言材料，然后对这些语言材料进行过滤和分类，并存储在数据仓库中；/nS2：在S1取得的分词后的语言材料中，进行词频统计和词性提取工作；/nS3：使用TextRank算法对S1得到的每个语言材料进行自动摘要操作，该操作得到列表B，包含按TextRank数值重新排序的句子及其对应的TextRank数值；/nS4：对S3得到的列表B，提取排序在前50％的句子，作为其语言材料的主旨句，将主旨句拼接得到主旨句文本C；/n...

【技术特征摘要】
1.一种为快速表达力测试生成题目的方法，其特征在于：使用网络爬虫技术和自然语言处理技术，基于计算机软件生成快速表达力测试的题目；该方法的步骤如下：
S1：使用爬虫技术从网络自动取得大量语言材料，然后对这些语言材料进行过滤和分类，并存储在数据仓库中；
S2：在S1取得的分词后的语言材料中，进行词频统计和词性提取工作；
S3：使用TextRank算法对S1得到的每个语言材料进行自动摘要操作，该操作得到列表B，包含按TextRank数值重新排序的句子及其对应的TextRank数值；
S4：对S3得到的列表B，提取排序在前50％的句子，作为其语言材料的主旨句，将主旨句拼接得到主旨句文本C；
S5：对S4得到的主旨句文本C，使用TF-IDF算法从中提取关键词，并从关键词中取出普通名词和形容词词性的词语组成集合D；该步选择关键词的数量取TF-IDF数值排序靠前的E个词，得到题目的初始主旨词集合R2；
S6：对R2进行同义词扩充，即：对于R2中每个词语W，取其同义词与W组成一组同义词，W2，使用W2替换R2中的W，最后得到题目的主旨词列表TZZ，并给TZZ中每组词语赋予相同的分数权重；
S7：根据S1得到的分词列表F，从中选择时间名词、地点名词和数量词等，组成新的分词结果集合，即题目的初始细节词集合R3；
S8：使用与S6相同的方法步骤，对初始细节词集合R3进行扩充得到题目的细节词列表TXJ；
S9：汇总步骤S1、S6、S8得到的TZW、TZZ、TXJ，即为新生成的题目T。

2.根据权利要求1所述的为快速表达力测试生成题目的方法，其特征在于：所述S1中爬虫技术获取资料的原始网站，可...

【专利技术属性】
技术研发人员：马徐骏，刘嘉，詹晨，孟磊，王浩宇，褚东宇，汤大业，王磊，
申请(专利权)人：上海迷因网络科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人