一种针对社交文本的切分取词方法及系统技术方案

技术编号：32248251 阅读：17 留言：0更新日期：2022-02-09 17:51

本发明专利技术公开了一种针对社交文本的切分取词方法及系统，属于社交文本处理技术领域，针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题，本发明专利技术包括文本预处理模块，N

全部详细技术资料下载

【技术实现步骤摘要】
一种针对社交文本的切分取词方法及系统

[0001]本专利技术属于社交文本处理
，具体涉及一种针对社交文本的切分取词方法及系统。

技术介绍

[0002]随着互联网的进步与发展，涉嫌网络诈骗的情况越来越严峻，其网络诈骗的形式也层出不穷，这猖獗的背后是因为有庞大的产业为其提供帮助，使得网络诈骗各个环节独立运行，网络诈骗成本降低，网络诈骗数量不断突破新高。
[0003]现有技术中，从事网络诈骗的人员一般都会在匿名的各种通讯软件和暗网论坛进行交流和交易，交流中所用语言风格独特，常常带有只有内行才能看懂的黑话、暗语。
[0004]针对于此类文本信息，传统的文本切分方法及系统已经无法满足，需要基于大量此类信息数据，结合语言风格，建立黑话、暗语词库，开发一套能有效对其进行文本切分的方法及系统，以便能够更好的对网络诈骗情况进行监测。

技术实现思路

[0005]针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题，本专利技术提出了一种针对社交文本的切分取词方法及系统，其目的为：针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格，以及与传统聊天内容上的巨大差别，本专利技术根据不同类型的语料，形成有自身特点的文本识别和切分技术，对文本进行精准切分取词。
[0006]为实现上述目的本专利技术所采用的技术方案是：提供一种针对社交文本的切分取词方法，包括S1：采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据，并对原始文本数据进行清洗；S2：使用N
‑r/>gram模型构建N
‑
gram词库，并通过互信息对清洗后的原始文本数据进行计算过滤，将保留的文本数据存入N
‑
gram词库；S3：利用N
‑
gram词库并通过文本分词函数对文本数据进行分词；S4：对分词结果进行复核，若存在错误分词结合则对其进行修复；S5：设置固定的时间为N
‑
gram词库的更新周期，对N
‑
gram词库进行更新。
[0007]较优的，本专利技术S1中对原始文本数据的清洗具体为：S1.1：通过正则表达式去除原始文本数据中的无效字符，包括：不可见字符、网址、数字、非中文、@字符串和无意义字符;S1.2：判断是否存在敏感词分隔符，若存在则将其替换为空字字符：S1.2.1：首先创建一个候选敏感词分隔符集合，将原始文本数据中所有的表情符号和标点分割符号加入该候选敏感词分隔符集合，将他们都作为候选敏感词分隔符；S1.2.2：然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列
表，然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中；S1.2.3：若第二列表中的字符长度最小值小于等于2，并且第一列表长度与第二列表长度相等，则认为该候选敏感词分隔符是敏感词分隔符；S1.2.4：将敏感词分隔符替换为空字字符。
[0008]较优的，本专利技术所述N
‑
gram词库包括已登录词典、处理完成的原始文本数据和自定义词典，S2具体为：S2.1：将清洗后的原始文本数据，利用空格进行分隔形成列表，筛选长度大于1的字符串加入待处理列表中；S2.2：将待处理列表中所有字符串取出，统计它的4gram和对应的词频，加入到N
‑
gram字典中，并计算N
‑
gram字典中字符串长度为1的词的数量，作为词的总数；S2.3：根据N
‑
gram字典中的词的字符串长度不同，设置不同的阈值，然后计算N
‑
gram字典中每个词的互信息，保留互信息大于阈值的词作为输出集合存入N
‑
gram词库。
[0009]较优的，本专利技术S3中文本分词函数具体为：S3.1.1：首先依赖N
‑
gram词库判断一个字符串是否需要进行切分，若一个字符串的4gram的四个词全部在N
‑
gram词库中，则这个字符串为完整字符串，不需要进行切分；若一个字符串的4gram的四个词不全部在N
‑
gram词库中，则在这个字符串处进行切分；S3.1.2：对一个待进行分词切分的字符串，根据其字符串的长度l，赋值一个长度为l
‑
1的全0数组，字符串的前两个字对应全0数组中的一个0，然后依次统计字符串S的首字、二字、三字、四字和五字是否在N
‑
gram词库中，如果在，对应的数组位置就加1，一直遍历到该字符串所有的字统计完成；S3.1.3：然后将数组对应的字符串进行判断切分，从0的部分切开，非0的部分连接起来，切分形成一个列表。
[0010]较优的，本专利技术通过所述文本分词函数对本分数据进行切分具体为：S3.2.1：提取N
‑
gram词库中的所有字符串，对字符串进行依次判断；S3.2.2：若字符串是纯数字或字母或字符串的中文字符长度小于等于4，则将该字符串添加到result列表中；对剩余的字符串通过文本切分函数进行切分，并对切分后的字符串列表中的每个字符串w进行判断；S3.2.3：若字符串w是中文加数字，将数字替换为空字符串后添加到result列表中；若字符串w是中文加非数字，将字符串w中的中文提取出来并赋值为r后继续判断：S3.2.4：若字符串r小于5个字符，则将字符串w添加到result列表中；若字符串r大于等于8个字符，使用结巴分词，并将结果添加到result列表中；若字符串r大于等于5个字符且小于8个字符，判断结巴分词结果中单个字的数量，如果单个非停用字的数量大于0，说明结巴分词是错误切分，将字符串w添加到result列表中，否则，将结巴分词结果添加到result列表中。
[0011]较优的，本专利技术S4具体为：对result列表中的词k进行遍历判断，如果词k是单个字，并且它的上一个词q也是单个字，若单字k和单字q都不在停用词中，且新词q+k在清洗后的文本中，那么修复该错误
切分，拼接q+k成词。
[0012]较优的，本专利技术S5具体为：当对N
‑
gram词库进行更新时，首先扩充已登录词典和自定义词典，接着扩充当天的原始文本数据，对当天的原始文本数据中字符串文本长度大于5的进行清洗，并利用空格分隔，加入到待定的words集合中，将words集合中所有汉字带数字的字符串替换为纯汉字字符串，替换后提取集合中字符长度在2
‑
5之间的字符串，并且过滤掉字符首尾两个字任意一个在停用词中的字符串，将剩下的字符串扩充到N
‑
gram词库中。
[0013]本专利技术还包括一种针对社交文本的切分取词系统，包括：文本预处理模块：采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据，并通过正则表达式对原始文本数据进行清洗，以及判断是否存在敏感词分隔符并替换为空字符串；N
‑
gram词库创建模块：由处理完成的原始文本数据、已登录词典和自定义词典组成，所述处理完成的原始文本数据即上个周期的原始文本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对社交文本的切分取词方法，其特征在于，包括S1：采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据，并对原始文本数据进行清洗；S2：使用N
‑
gram模型构建N
‑
gram词库，并通过互信息对清洗后的原始文本数据进行计算过滤，将保留的文本数据存入N
‑
gram词库；S3：利用N
‑
gram词库并通过文本分词函数对文本数据进行分词；S4：对分词结果进行复核，若存在错误分词结合则对其进行修复；S5：设置固定的时间为N
‑
gram词库的更新周期，对N
‑
gram词库进行更新。2.根据权利要求1所述的一种针对社交文本的切分取词方法，其特征在于，S1中对原始文本数据的清洗具体为：S1.1：通过正则表达式去除原始文本数据中的无效字符，包括：不可见字符、网址、数字、非中文、@字符串和无意义字符；S1.2：判断是否存在敏感词分隔符，若存在则将其替换为空字字符：S1.2.1：首先创建一个候选敏感词分隔符集合，将原始文本数据中所有的表情符号和标点分割符号加入该候选敏感词分隔符集合，将他们都作为候选敏感词分隔符；S1.2.2：然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表，然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中；S1.2.3：若第二列表中的字符长度最小值小于等于2，并且第一列表长度与第二列表长度相等，则认为该候选敏感词分隔符是敏感词分隔符；S1.2.4：将敏感词分隔符替换为空字字符。3.根据权利要求1所述的一种针对社交文本的切分取词方法，其特征在于，所述N
‑
gram词库包括已登录词典、处理完成的原始文本数据和自定义词典，S2具体为：S2.1：将清洗后的原始文本数据，利用空格进行分隔形成列表，筛选长度大于1的字符串加入待处理列表中；S2.2：将待处理列表中所有字符串取出，统计它的4gram和对应的词频，加入到N
‑
gram字典中，并计算N
‑
gram字典中字符串长度为1的词的数量，作为词的总数；S2.3：根据N
‑
gram字典中的词的字符串长度不同，设置不同的阈值，然后计算N
‑
gram字典中每个词的互信息，保留互信息大于阈值的词作为输出集合存入N
‑
gram词库。4.根据权利要求3所述的一种针对社交文本的切分取词方法，其特征在于，S3中文本分词函数具体为：S3.1.1：首先依赖N
‑
gram词库判断一个字符串是否需要进行切分，若一个字符串的4gram的四个词全部在N
‑
gram词库中，则这个字符串为完整字符串，不需要进行切分；若一个字符串的4gram的四个词不全部在N
‑
gram词库中，则在这个字符串处进行切分；S3.1.2：对一个待进行分词切分的字符串，根据其字符串的长度l，赋值一个长度为l
‑
1的全0数组，字符串的前两个字对应全0数组中的一个0，然后依次统计字符串S的首字、二字、三字、四字和五字是否在N
‑
gram词库中，如果在，对应的数组位置就加1，一直遍历到该字符串所有的字统计完成；S3.1.3：然后将数组对应的字符串进行判断切分，从0的部分切开，非0的部分连接起来，切分形成一个列表。
5.根据权利要求4所述的一种针对社交文本的切分取词方法，其特征在于，通过所述文本分词函数对本分数据进行切分具体为：S3.2.1：提取N
‑
gram词库中的所有字符串，对字符串进行依次判断；S3.2.2：若字符串是纯数字或字母或字符串的中文字符长度小于等于4，则将该字符串添加到result列表中；对剩余的字符串通过文本切分函数进行切分，并对切分后的字符串列表中的每个字符串w进行判断；S...

【专利技术属性】
技术研发人员：刘晓雪，王剑辉，伍仪洲，张瑞冬，童永鳌，朱鹏，
申请(专利权)人：成都无糖信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人