一种针对社交文本的实体账号抽取方法及系统技术方案

技术编号:37051551 阅读:15 留言:0更新日期:2023-03-29 19:29
本发明专利技术公开了一种针对社交文本的实体账号抽取方法及系统,属于数据分析技术领域,针对现有技术中存在人员在社交平台上发布各种实体账号泄露信息的问题,本发明专利技术采用的技术方案包括:通过正则表达式对输入的社交文本进行抽取,得到第一疑似实体账号和其对应的类别,并输出到正则实体字典中;然后对社交文本进行分词抽取,得到将第二疑似实体账号和其对应的类别,并输出到分词实体字典中;将正则实体字典和分词实体字典进行合并校正,将得到的结果输出到最终实体字典中;最后对最终实体字典中的实体账号进行验证,验证完成输出实体账号。其目的为:利用各种账号的组成规则以及语言表达风格,通过设置规则将社交文本中的实体账号提取出来。提取出来。提取出来。

【技术实现步骤摘要】
一种针对社交文本的实体账号抽取方法及系统


[0001]本专利技术属于数据分析
,具体涉及一种针对社交文本的实体账号抽取方法及系统。

技术介绍

[0002]随着互联网技术和移动网络的快速普及和发展,低成本的沟通环境使得社交媒体迅速崛起,如今俨然已经成为人们日常生活和工作中必不可少的工具了。但是社交媒体在丰富人们日常生活的同时,其所带来的个人隐私泄露问题也日益突出。
[0003]现有技术中,对于人员来说,在社交平台上不仅留下可以联系自己的其他社交平台账号,也可以发布某些网站地址,甚至还会暴露他人手机号、微信号、身份证号码等实体账号进行社工信息查询。因此,急需一种识别方法将社交文本中出现的各种实体账号抽取出来。

技术实现思路

[0004]针对上述现有技术中存在的问题,本专利技术提出了一种针对社交文本的实体账号抽取方法及系统,其目的为:利用各种账号的组成规则以及语言表达风格,通过设置规则将社交文本中的实体账号提取出来。
[0005]为实现上述目的本专利技术所采用的技术方案是:提供一种针对社交文本的实体账号抽取方法,包括:A.根据各种实体账号的属性定义其所属类别,然后根据类别将实体账号划分为固定格式账号和随机格式账号;B.编写固定格式账号中各个类别的正则表达式,以及随机格式账号中各个类别的粗粒度正则表达式,然后对输入的社交文本进行抽取,得到第一疑似实体账号,将第一疑似实体账号和其对应的类别输出到正则实体字典中;C.通过结巴分词对所述社交文本进行分词,然后进行账号判断找出第二疑似实体账号,然后根据第二疑似实体账号所在位置查找其前后的数个分词,锁定第二疑似实体账号的所属类别,将第二疑似实体账号和其对应的类别输出到分词实体字典中;D.将所述正则实体字典的第一疑似实体账号和分词实体字典中的第二疑似实体账号进行合并,删除相同类别中重复的疑似实体账号,然后通过前后文判断删除不符合规则的疑似实体账号,将剩余的疑似实体账号和其对应的类别输出到最终实体字典中;E.编写随机格式账号中各个类别的细粒度正则表达式,对最终实体字典的每个疑似实体账号进行验证,删除不符合规则的疑似实体账号,输出得到实体账号结果。
[0006]较优的,本专利技术步骤B中,抽取第一疑似实体账号的步骤为:B1.首先根据固定格式账号的类别,编写适用于该类别的正则表达式,然后按顺序分别对社交文本进行抽取,每抽取一种类别,用占位符“PLACEHOLDER”将文本中对应的部分替换;
B2.编写各类随机格式账号的粗粒度正则表达式,并根据社交文本中随机格式账号相邻的前后词语区分粗粒度正则表达式的类别判定部分,然后按照对应类别对社交文本进行抽取,每抽取一种类别,用占位符“PLACEHOLDER”将文本中对应的部分替换;B3.对经过B1和B2抽取到的第一疑似实体账号进行判定,剔除明显错误后,将剩余的第一疑似实体账号输出到正则实体字典中。
[0007]较优的,本专利技术步骤C中,抽取第二疑似实体账号的步骤为:C1.对社交文本进行结巴分词,得到分词列表,然后对分词列表进行账号判断,得到第二疑似实体账号;C2:锁定第二疑似实体账号在分词列表中的位置,然后向前找4

6个字符串,依次进行判断,若这些字符串中包含表情字符串且解析后得到对应的类别,则将结果输出到分词实体字典中,若这些字符串中不包括表情字符串,则通过字符串的拼音进行解析,若解析后得到对应的类别,将结果输出到分词实体字典中;C3.若通过C2未找到第二疑似实体账号的类别,则向后找4

6个字符串,然后依次进行判断,若这些字符串中包含表情字符串且解析后得到对应的类别,则将结果输出到分词实体字典中,若这些字符串中不包括表情字符串,则通过字符串的拼音进行解析,若解析后得到对应的类别,将结果输出到分词实体字典中;C4.若通过C3也没有找到第二疑似实体账号的类别,则根据实体账号自身的规则编写细粒度正则表达式,然后对没有找到类别的第二疑似实体账号进行判断,若解析得到对应的类别,将结果输出到分词实体字典中,否则将该第二疑似实体账号的类别判定为未知账号。
[0008]较优的,本专利技术步骤D中得到最终实体字典的步骤为:D1.将所述正则实体字典和所述分词实体字典进行合并,删除重复的疑似实体账号,然后分别依次获取疑似实体账号的前1

4个字符串和后1个字符串,组成前后字符串组,若一个疑似实体账号在社交文本中多次出现,则会获取到多组前后字符串组;D2.然后对该疑似实体账号的每一组前后字符串组进行判断,若前后字符串组中出现字母或运算符号,则判断该前后字符串组不符合规定,反之则符合规定;D3.若一个疑似实体账号的所有前后字符串组中任意一组前后字符串组符合规则,则将该疑似实体账号和其对应的类别输出到最终实体字典中,若一个疑似实体账号的所有前后字符串组都不符合规定,则将该疑似实体账号剔除。
[0009]较优的,本专利技术步骤E得到实体账号结果具体为:编写随机格式账号中各个类别的细粒度正则表达式,然后对最终实体字典中的每个类别的所有疑似实体账号进行对应类别的账号规则验证,若满足则保留,不满足则删除对应疑似实体账号,所有类别验证完成后,输出最终的实体账号。
[0010]本专利技术还提出了一种针对社交文本的实体账号抽取系统,包括:正则表达式抽取模块:首先根据各种实体账号的属性定义其所属类别,然后根据类别将实体账号划分为固定格式账号和随机格式账号,然后编写固定格式账号中各个类别的正则表达式,以及随机格式账号中各个类别的粗粒度正则表达式,然后对输入的社交文本进行抽取,得到第一疑似实体账号,将第一疑似实体账号和其对应的类别输出到正则实体字典中;
分词抽取模块:通过结巴分词对所述社交文本进行分词,然后进行账号判断找出第二疑似实体账号,然后根据第二疑似实体账号所在位置查找其前后的数个分词,锁定第二疑似实体账号的所属类别,将第二疑似实体账号和其对应的类别输出到分词实体字典中;合并校正结果模块:将所述正则实体字典的第一疑似实体账号和分词实体字典中的第二疑似实体账号进行合并,删除相同类别中重复的疑似实体账号,然后通过前后文判断删除不符合规则的疑似实体账号,将剩余的疑似实体账号和其对应的类别输出到最终实体字典中;账号规则验证模块:编写随机格式账号中各个类别的细粒度正则表达式,对最终实体字典的每个疑似实体账号进行验证,删除不符合规则的疑似实体账号,输出得到实体账号结果。
[0011]相比现有技术,本专利技术的技术方案具有如下优点/有益效果:1.本专利技术通过设置各种规则实现社交文本中多种实体账号的抽取,具有多平台实体账号抽取的特点,可移植性高,适用范围广。
[0012]2.本专利技术通过各种实体账号的类别设置规则,可以对社交文本中的未知账号进行抽取并识别,大大提高了抽取范围。
附图说明
[0013]为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对社交文本的实体账号抽取方法,其特征在于,包括:A.根据各种实体账号的属性定义其所属类别,然后根据类别将实体账号划分为固定格式账号和随机格式账号;B.编写固定格式账号中各个类别的正则表达式,以及随机格式账号中各个类别的粗粒度正则表达式,然后对输入的社交文本进行抽取,得到第一疑似实体账号,将第一疑似实体账号和其对应的类别输出到正则实体字典中;C.通过结巴分词对所述社交文本进行分词,然后进行账号判断找出第二疑似实体账号,然后根据第二疑似实体账号所在位置查找其前后的数个分词,锁定第二疑似实体账号的所属类别,将第二疑似实体账号和其对应的类别输出到分词实体字典中;D.将所述正则实体字典的第一疑似实体账号和分词实体字典中的第二疑似实体账号进行合并,删除相同类别中重复的疑似实体账号,然后通过前后文判断删除不符合规则的疑似实体账号,将剩余的疑似实体账号和其对应的类别输出到最终实体字典中;E.编写随机格式账号中各个类别的细粒度正则表达式,对最终实体字典的每个疑似实体账号进行验证,删除不符合规则的疑似实体账号,输出得到实体账号结果。2.根据权利要求1所述的一种针对社交文本的实体账号抽取方法,其特征在于,步骤B中,抽取第一疑似实体账号的步骤为:B1.首先根据固定格式账号的类别,编写适用于该类别的正则表达式,然后按顺序分别对社交文本进行抽取,每抽取一种类别,用占位符“PLACEHOLDER”将文本中对应的部分替换;B2.编写各类随机格式账号的粗粒度正则表达式,并根据社交文本中随机格式账号相邻的前后词语区分粗粒度正则表达式的类别判定部分,然后按照对应类别对社交文本进行抽取,每抽取一种类别,用占位符“PLACEHOLDER”将文本中对应的部分替换;B3.对经过B1和B2抽取到的第一疑似实体账号进行判定,剔除明显错误后,将剩余的第一疑似实体账号输出到正则实体字典中。3.根据权利要求1所述的一种针对社交文本的实体账号抽取方法,其特征在于,步骤C中,抽取第二疑似实体账号的步骤为:C1.对社交文本进行结巴分词,得到分词列表,然后对分词列表进行账号判断,得到第二疑似实体账号;C2:锁定第二疑似实体账号在分词列表中的位置,然后向前找4

6个字符串,依次进行判断,若这些字符串中包含表情字符串且解析后得到对应的类别,则将结果输出到分词实体字典中,若这些字符串中不包括表情字符串,则通过字符串的拼音进行解析,若解析后得到对应的类别,将结果输出到分词实体字典中;C3.若通过C2未找到第二疑似实体账号的类别,则向后找4

6个字符串,然后依次进行判断,若这些字符串中包含表情字符串且解析后得到对应的类别,则将结果输出到分词实体字典中,若这些字符串中不包括表情字符串,则通过字符串的拼...

【专利技术属性】
技术研发人员:王剑辉伍仪洲张瑞冬童永鳌朱鹏韩硕
申请(专利权)人:成都无糖信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1