一种针对社交文本的实体账号抽取方法及系统技术方案

技术编号：37051551 阅读：15 留言：0更新日期：2023-03-29 19:29

本发明专利技术公开了一种针对社交文本的实体账号抽取方法及系统，属于数据分析技术领域，针对现有技术中存在人员在社交平台上发布各种实体账号泄露信息的问题，本发明专利技术采用的技术方案包括：通过正则表达式对输入的社交文本进行抽取，得到第一疑似实体账号和其对应的类别，并输出到正则实体字典中；然后对社交文本进行分词抽取，得到将第二疑似实体账号和其对应的类别，并输出到分词实体字典中；将正则实体字典和分词实体字典进行合并校正，将得到的结果输出到最终实体字典中；最后对最终实体字典中的实体账号进行验证，验证完成输出实体账号。其目的为：利用各种账号的组成规则以及语言表达风格，通过设置规则将社交文本中的实体账号提取出来。提取出来。提取出来。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对社交文本的实体账号抽取方法及系统

[0001]本专利技术属于数据分析
，具体涉及一种针对社交文本的实体账号抽取方法及系统。

技术介绍

[0002]随着互联网技术和移动网络的快速普及和发展，低成本的沟通环境使得社交媒体迅速崛起，如今俨然已经成为人们日常生活和工作中必不可少的工具了。但是社交媒体在丰富人们日常生活的同时，其所带来的个人隐私泄露问题也日益突出。
[0003]现有技术中，对于人员来说，在社交平台上不仅留下可以联系自己的其他社交平台账号，也可以发布某些网站地址，甚至还会暴露他人手机号、微信号、身份证号码等实体账号进行社工信息查询。因此，急需一种识别方法将社交文本中出现的各种实体账号抽取出来。

技术实现思路

[0004]针对上述现有技术中存在的问题，本专利技术提出了一种针对社交文本的实体账号抽取方法及系统，其目的为：利用各种账号的组成规则以及语言表达风格，通过设置规则将社交文本中的实体账号提取出来。
[0005]为实现上述目的本专利技术所采用的技术方案是：提供一种针对社交文本的实体账号抽取方法，包括：A．根据各种实体账号的属性定义其所属类别，然后根据类别将实体账号划分为固定格式账号和随机格式账号；B．编写固定格式账号中各个类别的正则表达式，以及随机格式账号中各个类别的粗粒度正则表达式，然后对输入的社交文本进行抽取，得到第一疑似实体账号，将第一疑似实体账号和其对应的类别输出到正则实体字典中；C.通过结巴分词对所述社交文本进行分词，然后进行账号判断找出第二疑似实体账号，然...

【技术保护点】

【技术特征摘要】
1.一种针对社交文本的实体账号抽取方法，其特征在于，包括：A．根据各种实体账号的属性定义其所属类别，然后根据类别将实体账号划分为固定格式账号和随机格式账号；B．编写固定格式账号中各个类别的正则表达式，以及随机格式账号中各个类别的粗粒度正则表达式，然后对输入的社交文本进行抽取，得到第一疑似实体账号，将第一疑似实体账号和其对应的类别输出到正则实体字典中；C.通过结巴分词对所述社交文本进行分词，然后进行账号判断找出第二疑似实体账号，然后根据第二疑似实体账号所在位置查找其前后的数个分词，锁定第二疑似实体账号的所属类别，将第二疑似实体账号和其对应的类别输出到分词实体字典中；D.将所述正则实体字典的第一疑似实体账号和分词实体字典中的第二疑似实体账号进行合并，删除相同类别中重复的疑似实体账号，然后通过前后文判断删除不符合规则的疑似实体账号，将剩余的疑似实体账号和其对应的类别输出到最终实体字典中；E．编写随机格式账号中各个类别的细粒度正则表达式，对最终实体字典的每个疑似实体账号进行验证，删除不符合规则的疑似实体账号，输出得到实体账号结果。2.根据权利要求1所述的一种针对社交文本的实体账号抽取方法，其特征在于，步骤B中，抽取第一疑似实体账号的步骤为：B1.首先根据固定格式账号的类别，编写适用于该类别的正则表达式，然后按顺序分别对社交文本进行抽取，每抽取一种类别，用占位符“PLACEHOLDER”将文本中对应的部分替换；B2.编写各类随机格式账号的粗粒度正则表达式，并根据社交文本中随机格式账号相邻的前后词语区分粗粒度正则表达式的类别判定部分，然后按照对应类别对社交文本进行抽取，每抽取一种类别，用占位符“PLACEHOLDER”将文本中对应的部分替换；B3.对经过B1和B2抽取到的第一疑似实体账号进行判定，剔除明显错误后，将剩余的第一疑似实体账号输出到正则实体字典中。3.根据权利要求1所述的一种针对社交文本的实体账号抽取方法，其特征在于，步骤C中，抽取第二疑似实体账号的步骤为：C1.对社交文本进行结巴分词，得到分词列表，然后对分词列表进行账号判断，得到第二疑似实体账号；C2：锁定第二疑似实体账号在分词列表中的位置，然后向前找4
‑
6个字符串，依次进行判断，若这些字符串中包含表情字符串且解析后得到对应的类别，则将结果输出到分词实体字典中，若这些字符串中不包括表情字符串，则通过字符串的拼音进行解析，若解析后得到对应的类别，将结果输出到分词实体字典中；C3.若通过C2未找到第二疑似实体账号的类别，则向后找4
‑
6个字符串，然后依次进行判断，若这些字符串中包含表情字符串且解析后得到对应的类别，则将结果输出到分词实体字典中，若这些字符串中不包括表情字符串，则通过字符串的拼...

【专利技术属性】
技术研发人员：王剑辉，伍仪洲，张瑞冬，童永鳌，朱鹏，韩硕，
申请(专利权)人：成都无糖信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人