【技术实现步骤摘要】
一种基于网站文本内容的网贷网站实体识别方法及系统
本专利技术涉及网贷网站识别
,具体来说是一种基于网站文本内容的网贷网站实体识别方法及系统。
技术介绍
随着互联网技术的迅速发展,网站的建立更便捷,门槛也更低,从而导致很多不良、不法网站如不法网贷网站、钓鱼网站、赌博网站等层出不穷。近年来,P2P公司跑路、网络诈骗、电信诈骗等事件频繁发生,给网民造成了较为严重的财产损失,有些甚至危害到了个人人身安全,同时产生了不良的社会影响。对网贷网站的准确高效识别,进而及时提醒用户谨慎操作,能够避免用户的财产等受到损失,同时提高了企业的社会责任及企业形象。中文文本分类属于自然语言处理技术中的一项任务,是通过算法对输入的文本自动归类的过程,该过程能够根据网站的中文文本内容,识别出该网站是否归属网贷网站。随着网络文化的快速发展,网络用语中新词层出不穷,某些旧词语义日新月异,如饿了么、柠檬精、比特狗等,其中大部分新词新义都是实体词汇。命名实体识别是从文本中识别命名性指称项,狭义上,是识别出人名、地名和组织机构名等实体,但是,在特定的领 ...
【技术保护点】
1.一种基于网站文本内容的网贷网站实体识别方法,其特征在于:包括以下步骤:/nS01、构建训练集域名表,训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段;/nS02、构建预测集域名表,训练集域名表至少包含域名、网页内容两个;/nS03、数据清洗与预处理,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,保留符合要求的文本数据,并针对该文本数据进行分词,然后去除无意义词,得到目标网页内容;/nS04、文本分类模型训练,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;/nS05、网贷网站识别,将预测集域名表中每个样 ...
【技术特征摘要】
1.一种基于网站文本内容的网贷网站实体识别方法,其特征在于:包括以下步骤:
S01、构建训练集域名表,训练集域名表至少包含域名、网页内容、是否为网贷网站、实体名称4个字段;
S02、构建预测集域名表,训练集域名表至少包含域名、网页内容两个;
S03、数据清洗与预处理,针对训练集域名表和测试集域名表的网页内容字段进行数据清理,保留符合要求的文本数据,并针对该文本数据进行分词,然后去除无意义词,得到目标网页内容;
S04、文本分类模型训练,基于训练集域名表中的目标网页内容字段、是否为网贷网站字段训练,得到目标文本分类模型;
S05、网贷网站识别,将预测集域名表中每个样本的目标网页内容字段输入值目标文本分类模型,输出每个样本对应的是否为网贷网站字段;
S06、命名实体识别模型训练,基于训练集域名表中的目标网页内容字段、实体名称字段训练命名实体识别模型,得到目标命名实体识别模型;
S07、实体名称标注,利用步骤S06中的目标命名实体识别模型标注步骤S05中识别出的网贷网站中的实体名称。
2.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:步骤S07后还包括
S08、建立网贷网站库,基于步骤S05的网贷网站识别及S07中命名实体的提取,关联诈骗网贷网站黑名单,建立网贷网站库。
3.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S01具体为:
收集已知网站类型的网站域名,通过爬虫技术获得这些域名对应网页内容文本,同时标注这些网站类型,其中1表示是网贷网站,0表示其它网站;如果该网站是网贷网站,标注出该网贷网站实体名称,如果非网贷网站,则为空;从而生成训练集域名表。
4.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S02具体为:
获取运营商DPI数据,抽取数据中域名字段,剔重处理后,形成域名集合,遍历域名集合,通过爬虫技术获得每个域名对应网页内容文本,从而生成预测集的域名表。
5.根据权利要求1所述的一种基于网站文本内容的网贷网站实体识别方法,其特征在于:所述步骤S04中目标文本分类模型具体训练过程为:
S041.基于训练集中的目标网页内容,截取目标网页内容的前设定长度文本,若目标网页内容长度小于设定长度,则在文本后面用空白符补充,使其长度达到设定长度,从而生成目标文本;将目标文本每个字或标点符号等作为一个词,加载词典,建立词到id的映射关系即;把每个样本转换成特征,包含4个数据:input_ids,input_mask,...
【专利技术属性】
技术研发人员:梁淑云,刘胜,马影,陶景龙,王启凡,魏国富,徐明,殷钱安,余贤喆,周晓勇,
申请(专利权)人:上海观安信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。