The invention discloses an automatic mining method and a system for an e-commerce security-related entity, wherein the method comprises: collecting public opinion data involving e-commerce from the Internet, and the public opinion data is a collection of text information; preliminary screening of the public opinion data is carried out to eliminate the text with less relevance to the e-commerce black ash industry chain; This information divides the filtered public opinion data into sentences, filters the sentences iteratively, eliminates the statements that do not contain E-commerce security-related entities, and extracts some E-commerce security-related entity sets S1 manually; extracts entities from the filtered statement sets to obtain candidate entity sets; sifts the candidate entity sets. Pick and reject the phrase that does not belong to the relevant entities of the electricity supplier, and get the S2 of the relevant entities of the electricity supplier safety. The automatic mining method of the safety-related entities of the electronic commerce can effectively identify the safety-related entities of the public opinion of the electronic commerce.
【技术实现步骤摘要】
一种电商安全相关实体的自动挖掘方法及系统
本专利技术涉及自然语言处理和电商服务安全
,尤其涉及一种电商安全相关实体的自动挖掘方法及系统。
技术介绍
“互联网+”时代下,电子商务迅猛发展。日益激烈的商品竞争,滋生了一条以炒信作弊为主要模式以及虚假交易、人工流量和垃圾评论为典型特征的电商黑灰产业链。同时,竞争引发了一系列以诈骗为主的违法犯罪活动,其存在严重危害了电子商务的信誉体系和市场秩序。因此,全面整治网络服务环境,严厉打击电商黑灰产业链,已成为电商平台健康发展、良性竞争的必然要求。由于互联网技术的发展,商家和作弊用户之间的非法交易已从传统的P2P形式演变成了商家向刷单组织支付费用、刷单组织分配任务给刷单者、刷单者完成任务获取报酬这一完整的产业链条,在这条产业链中有很多作弊方式在不断的升级和进化,这些隐形且新颖的作弊方式借助电商平台不断进行着扰乱市场、违法逐利的行为。此外,由于电商购物平台对店铺及商品采取了排名机制,店铺通常会采取一系列的策略来吸引流量,从而提高交易率。因此,电商服务平台应运而生。根据平台的经营方式可以将其分成两种,一是在购物平台允许的范围内, ...
【技术保护点】
1.一种电商安全相关实体的自动挖掘方法,其特征在于,包括以下步骤:(1)从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;(2)对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;(3)分别利用TF‑IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;(4)根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。
【技术特征摘要】
1.一种电商安全相关实体的自动挖掘方法,其特征在于,包括以下步骤:(1)从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;(2)对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;(3)分别利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;(4)根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。2.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(2)中,对所述的舆情数据进行初步筛选,包括:(2-i)从所述的舆情数据中人工挑选若干条与电商黑灰产业链相关的文本信息,作为训练集训练word2vec词典;(2-ii)对所述的舆情数据中文本信息的标题和正文内容进行分词,分别到训练好的word2vec词典中查表,获得标题和正文内容的词向量,将标题和正文内容的词向量加权后得到该文本信息的相关性分值;剔除相关性分值小于等于设定阈值的文本信息。3.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(2)中,将筛选后的舆情数据切分为语句,包括:以特定符合为切分点,将过滤后的舆情数据切分为语句;所述的特定符合为中文形式或英文形式的逗号、句号、顿号、分号、问号或感叹号。4.根据权利要求1所述的电商安全相关实体的自动挖掘方法,其特征在于,步骤(2)中,对语句集合进行迭代筛选,包括:(2-I)摘取每条文本信息的第一条语句,组成首语句集合Df;(2-II)对首语句集合Df进行自我聚类,若语句之间的字面编辑距离值>0.8时,可将其聚为一类;将每类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所以最长子字符串中包含的电商安全相关实体,得到电商安全相关实体集S1a,将包含电商安全相关实体集S1a的语句记为Dj1;将不含有电商安全相关实体S1a的首语句作为下一轮聚类中心Dc1;(2-III)以Dc1为聚类中心,对所有语句集合Dtext进行聚类,若语句与Dc1之间的字面编辑距离值>0.8时,可将该语句与Dc1聚为一类;将该类中的语句进行两两对比,取出每两条语句中的最长子字符串,人工挑出所以最长子字符串中包含的电商安全相关实体,得到电商安全相关实体集S1b,将包含电商安全相关实体集S1b的语句记为Dj2;将不含有电商安全相关实体S1b的语句作为下一轮聚类中心Dc2;(2-IV)以Dc2为聚类中心,对Dtext-Dj1-Dj2进行聚类,若语句与Dc2之间的字面编辑距离值>N时,可将该语句与Dc2聚为一类,将聚类结果作为下一轮的聚类中心;其中...
【专利技术属性】
技术研发人员:纪守领,伍一鸣,陈建海,刘倩君,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。