【技术实现步骤摘要】
一种基于深度学习的违法词库构建方法及系统
[0001]本专利技术具体涉及词库构建
,具体是一种基于深度学习的违法词库构建方法及系统。
技术介绍
[0002]信息技术的迅猛发展带动了全国各行各业的信息化建设,国家政策的支持为各行各业的信息系统的建立打下了坚实的基础;由此带来了大量的专业领域数据,而其中由中文文本数据构成的语料集受到了广泛的关注。语料集是在生产活动中产生的重要信息资源,其可以是社交网络中大量的评论数据,也可以是购物网站客服中心的客户服务数据。从纷繁复杂的语料集中挖掘出有价值的信息将大大推动各行各业的发展。
[0003]许多数据挖掘工作需要用到结构化数据,而半结构化的文本数据需要首先进行结构化。因此,文本数据结构化是文本数据挖掘的基础。而文本数据结构化的基础是专业领域词库的构建:但专业领域词库的构建面临两大挑战,一是没有可以利用的现成标准词库;二是文本内容通常结构松散且文字的表达形式多样化。
[0004]目前的专业领域词库构建的方式主要包括人工的方式,或者半监督学习的方式构建词库、用网络爬虫方 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的违法词库构建方法,其特征在于,包括以下步骤:S10、将语料库中的每个句子划分为分词,根据分词结果提取句子中的短语集合;S20、训练短语集合得到带权重的词,通过权重阈值将词划分为领域相关词和领域无关词;S30、构建深度学习模型,基于深度学习模型对领域相关词进行极性判断;S40、整理判断结果以得到违法词库。2.根据权利要求1所述的基于深度学习的违法词库构建方法,其特征在于,所述语料库包括特定领域的语料库和各领域已有的违法词库。3.根据权利要求1所述的基于深度学习的违法词库构建方法,其特征在于,步骤S10中,根据分词结果提取句子中的短语集合的方法,包括以下步骤:S11、遍历语料库生成短语集合的过程,对生成的短语的出现次数进行计数以及对语料库中各句子的出现次数进行计数;S12、衡量短语生成的合理性,将判断结果为合理的短语作为短语集合。4.根据权利要求3所述的基于深度学习的违法词库构建方法,其特征在于,步骤S12中,衡量短语生成是否合理的公式为:E≥δ表示短语合理;其中:α和μ为自定义参数,δ为重要程度,C
pn
为第n个短语p出现的次数,C
tn
为第n个句子t在语料库中出现的次数。5.根据权利要求1所述的基于深度学习的违法词库构建方法,其特征在于,步骤S20中,通过TF
‑
IDF算法训练短语集合以得到带权重的词,根据短语的TF
‑
IDF值构建重要词语的词库,该词库具有判断该短语是否能够加入词库的阈值,当短语的TF
‑
IDF值大于阈值时,该短语才能加入词库。6.根据权利要求1所述的基于深度学习的违法词库构建方法,其特征在于,步骤S30中,所述深度学习模型包括卷积模块,所述卷积模块设有五段卷积,每段卷积均包括有卷积层、ReLu激活层和池化层。7.根据权利要求6所述的基于深度学习的违法词库构建方法,其特征在于,所述深度学习模型还包括有输入层、全连接层和输出层,所述输入层与卷积模块连接,所述卷...
【专利技术属性】
技术研发人员:薛玲,王一杰,严江杰,
申请(专利权)人:云目未来科技湖南有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。