【技术实现步骤摘要】
一种从非结构化网络信息中挖掘金融风险线索的方法
本专利技术涉及金融防控
,具体是一种从非结构化网络信息中挖掘金融风险线索的方法。
技术介绍
在海量的非结构化互联网数据中,寻找金融风险防控线索寻找无异于大海捞针。中国专利号CN109522416A提供一种能够充分利用从数据到知识的持续转化,通过金融风险控制知识图谱的构建快速把不同来来源的金融数据整合在一起,并构建反欺诈引擎,快速高效识别金融欺诈案件的金融风险控制知识图谱构建方法,本专利技术所设计的一种金融风险控制知识图谱构建方法,通过爬虫技术对金融资料采集数据,进行分词处理;利用深度置信网络从金融数据中抽取知识,包括实体和实体间关系和属性;将所述目标实体作为知识图谱节点,得到金融风险控制知识图谱并存储在Neo4j图数据库中。上述投建的金融风险控制知识图谱虽然可以识别金融欺诈案件,但是在互联网上搜索回来的信息除了有价值的负面舆情外,还会掺杂大量的包含该企业名称但是非负面的舆情,同时由于非法金融活动涉及的实体不定,无法根据监控名单直接搜索,因此,亟需研发一种从 ...
【技术保护点】
1.一种从非结构化网络信息中挖掘金融风险线索的方法,其特征在于:包括以下步骤:/nS1.构建非法金融活动特征词库与实体监控名单:工作人员从互联网上收集非法金融活动信息,并从该信息中挑选非法金融活动特有的词或者词组构成特征词库,同时工作人员还可以从网上列选企业或者产品名单,从而构建监控名单;/nS2.构建共现特征词组合与选定抓取时效:在S1中特征词库与名单选好后,工作人员可以利用特征词库构建共现特征词组合,组合长度为1-3,同时也可以人工选定共现特征词组合,之后工作人员可选定抓取时效长度,长度为6-36h;/nS3.信息抓取与去重:工作人员可以将S2中的所有共现特征词组合作为 ...
【技术特征摘要】
1.一种从非结构化网络信息中挖掘金融风险线索的方法,其特征在于:包括以下步骤:
S1.构建非法金融活动特征词库与实体监控名单:工作人员从互联网上收集非法金融活动信息,并从该信息中挑选非法金融活动特有的词或者词组构成特征词库,同时工作人员还可以从网上列选企业或者产品名单,从而构建监控名单;
S2.构建共现特征词组合与选定抓取时效:在S1中特征词库与名单选好后,工作人员可以利用特征词库构建共现特征词组合,组合长度为1-3,同时也可以人工选定共现特征词组合,之后工作人员可选定抓取时效长度,长度为6-36h;
S3.信息抓取与去重:工作人员可以将S2中的所有共现特征词组合作为搜索关键词,从互联网上抓取设定时限内的信息数据,同时工作人员可以根据S1中列选的监控的名单,在互联网中抓取包含名单实体名字的信息数据,之后在数据抓取结束后对数据进行去重;
S4.金融实体抽取:工作人员可以对S3中去重后的数据进行抽取;
S5.利用金融实体负面信息识别模型进行识别:将S4中收取后的数据输入金融实体负面信息识别模型,若模型判为负面的则选中为负面舆情,若模型判为非负面则放弃该信息。
2.根据权利要求1所述的一种从非结构化网络信息中挖掘金融风险线索的方法,其特征在于:所述S1中非法金融活动特征词库采集的信息为第二类信息,所述S1中构建的监控实体名单为第一类信息。
3.根据权利要求1所述的一种从非结构化网络信息中挖掘金融风险线索的方法,其特征在于:所述S1中挑选非法金融活动特有的词或者词组为高利贷,卷款,跑路。
4.根据权利要求1所述的一种从非结构化网络信息中挖掘金融风险线索的方法,其特征在于:所述S2中共现特征词为出现在同一个内容中的...
【专利技术属性】
技术研发人员:郑杰文,
申请(专利权)人:广州商品清算中心股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。