【技术实现步骤摘要】
面向法制相关文本的判别方法
本专利技术属于自然语言处理领域,具体涉及一种面向法制相关文本的判别方法。
技术介绍
2017年12月14日,工业和信息化部印发了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,行动计划中,明确提出“面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域,支持建设高质量人工智能训练资源库、标准测试数据集并推动共享。”也就是说,国家将在未来的若干年中,继续大力扶持人工智能相关产业,其中也包括了基础领域的自然语言处理的研究。而本文所研究的面向法制相关话题的文本判别技术与此政策中的相关领域相契合,利用人工智能中的自然语言处理和机器学习,运用到法制话题的判别中,以更好地在法制类研究中节约时间以及完成更多更复杂的分析工作。与此同时,这个技术研究也很容易移植到其他话题的判别研究中。因此,本文研究的法制类相关话题的文本判别技术顺应了国家发展人工智能的发展需要。文本判别在很多领域都能有重要的作用,它可以帮助我们对于文本进行分析,快速准确地确定文本的中心,帮助人们归纳和更好地提取和利用有用的信息,同时也在其他领 ...
【技术保护点】
1.一种面向法制相关文本的判别方法,其特征在于,包括如下步骤:步骤S1、利用爬虫在互联网上爬取法制相关文本,构建法制相关语料库;步骤S2、对法制相关语料库中的语料标注关联度,并且利用结巴分词技术及TF‑IDF关键词技术对每条语料进行分词,统计得到关键词;步骤S3、利用关键词生成文本特征向量;步骤S4、对文本特征向量进行机器学习并生成对应的分类模型;步骤S5、最后利用分类模型对互联网上文本进行判别。
【技术特征摘要】
1.一种面向法制相关文本的判别方法,其特征在于,包括如下步骤:步骤S1、利用爬虫在互联网上爬取法制相关文本,构建法制相关语料库;步骤S2、对法制相关语料库中的语料标注关联度,并且利用结巴分词技术及TF-IDF关键词技术对每条语料进行分词,统计得到关键词;步骤S3、利用关键词生成文本特征向量;步骤S4、对文本特征向量进行机器学习并生成对应的分类模型;步骤S5、最后利用分类模型对互联网上文本进行判别。2.根据权利要求1所述的面向法制相关文本的判别方法,其特征在于,所述步骤S1中,爬取法制相关文本后,首先,需对爬取法制相关文本进行包括网址、乱码信息的无用数据的清洗;而后,对法制相关文本聚类分析并得到三个子话题,并给出4个相关度等级;再而,根据子话题相关度对法制相关文本逐一标注;最后,得到法制相关语料库。3.根据权利要求2所述的面向法制相关文本的判别方法,其特征在于,所述三个子话题分别为权力、制度、监督。4.根据权利要求2所述的面向法制相关文本的判别方法,其特征在于,所述步骤S2中,对语料进行分词的过程中,仅选择至少与一个子话题的关联度在2以上的语料进行。5.根据权利要求2所述的面向法制相关文本的判别方法,其特征在于,所述步骤S2中,统计得到关键词的方式为:首先,每条语料提取其中的前10个关键词,将所有语料提取出的关键词形成一个列表;而后,将列表中所有提取出来的关键词根据在列表中的出现词数进行词频统计和排序,再而,将其中的包括停用词和英文字母的无效的关键词删去;最后,排列出词频在前200的关键词,并按照出现的词数形成一个新的关键词列表。6.根据权利要求2所述的面向法制相关文本的判别方法,其特征在于,所述步骤S3的具体实现过程如下:步骤S31、将法制相关语料库中的语料文本信息向量化,得到文本向量;步骤S32、文本向量的每行是原先选择好的所有语料的信息,其具体的构造方...
【专利技术属性】
技术研发人员:陈星,黄志明,陈艺燕,戴远飞,张祖文,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。