文本联系实体提取方法、装置、设备及可读存储介质制造方法及图纸

技术编号:28942892 阅读:20 留言:0更新日期:2021-06-18 21:50
本公开一种文本联系实体提取方法、系统及设备,属于计算机技术领域,特别涉及一种文本联系实体提取方法,包括:获取用户输入的文本数据;对所述文本数据进行预处理,得到预处理后的文本;对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;根据所述关键词提取实体。采用本方法能够快速、全面、准确的从用户输入的文本中识别出待监控的实体,进而有效监控、发现非法摄取平台流量的用户,切实保证平台利益。

【技术实现步骤摘要】
文本联系实体提取方法、装置、设备及可读存储介质
本公开属于计算机
,特别涉及一种文本联系实体提取方法、装置、设备及可读存储介质。
技术介绍
随着互联网技术的发展,各互联网平台层出不穷,为推广应用,增加用户量,各家平台通常推出为自身平台用户使用的平台流量。各平台流量获取不易的背景下,一些用户为了攫取平台流量,特意跑到竞品软件采用发广告、炸屏等方式拉人头,将本属于该平台的流量诱导到其他平台,损害该平台利益。本公开人经研究发现,现有技术中,在屏蔽非常规用户时,单纯的通过位数或者关键字提取文本进行检查、屏蔽竞品平台摄取流量,效果差强人意。
技术实现思路
为了至少解决上述技术问题,本公开提供了一种文本联系实体提取方法、装置、设备及可读存储介质。根据本公开第一方面,提供了一种文本联系实体提取方法,包括:获取用户输入的文本数据;对所述文本数据进行预处理,得到预处理后的文本;对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;获取预先存储的关键词辅助提取本文档来自技高网...

【技术保护点】
1.一种文本联系实体提取方法,其特征在于,包括:/n获取用户输入的文本数据;/n对所述文本数据进行预处理,得到预处理后的文本;/n对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;/n获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;/n根据所述关键词提取实体。/n

【技术特征摘要】
1.一种文本联系实体提取方法,其特征在于,包括:
获取用户输入的文本数据;
对所述文本数据进行预处理,得到预处理后的文本;
对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;
获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;
根据所述关键词提取实体。


2.如权利要求1所述的方法,其特征在于,
所述对所述文本数据进行预处理,得到预处理后的文本,包括:
对所述文本数据按照预设方式进行预处理操作,使得经过预处理的文本数据形成统一格式。


3.如权利要求2所述的方法,其特征在于,
所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在转义字符的情形下,从用户输入的文本数据中提取转义字符,将转义字符转换为空字符。


4.如权利要求2所述的方法,其特征在于,
所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在unicode码的情形下,从用户输入的文本数据中提取unicode码,将unicode码转换为中文。


5.如权利要求2所述的方法,其特征在于,
所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在停止字符的情形下,从用户输入的文本数据中提取停止字符,将停止字符转换为空格。

【专利技术属性】
技术研发人员:罗震震张少游关涛向永清
申请(专利权)人:北京智慧易科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1