【技术实现步骤摘要】
文本联系实体提取方法、装置、设备及可读存储介质
本公开属于计算机
,特别涉及一种文本联系实体提取方法、装置、设备及可读存储介质。
技术介绍
随着互联网技术的发展,各互联网平台层出不穷,为推广应用,增加用户量,各家平台通常推出为自身平台用户使用的平台流量。各平台流量获取不易的背景下,一些用户为了攫取平台流量,特意跑到竞品软件采用发广告、炸屏等方式拉人头,将本属于该平台的流量诱导到其他平台,损害该平台利益。本公开人经研究发现,现有技术中,在屏蔽非常规用户时,单纯的通过位数或者关键字提取文本进行检查、屏蔽竞品平台摄取流量,效果差强人意。
技术实现思路
为了至少解决上述技术问题,本公开提供了一种文本联系实体提取方法、装置、设备及可读存储介质。根据本公开第一方面,提供了一种文本联系实体提取方法,包括:获取用户输入的文本数据;对所述文本数据进行预处理,得到预处理后的文本;对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;获取预先 ...
【技术保护点】
1.一种文本联系实体提取方法,其特征在于,包括:/n获取用户输入的文本数据;/n对所述文本数据进行预处理,得到预处理后的文本;/n对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;/n获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;/n根据所述关键词提取实体。/n
【技术特征摘要】 【专利技术属性】
1.一种文本联系实体提取方法,其特征在于,包括:
获取用户输入的文本数据;
对所述文本数据进行预处理,得到预处理后的文本;
对所述预处理后的文本进行字符切分,并将切分结果以数组的方式保存,得到切分数组;
获取预先存储的关键词辅助提取信息,根据所述关键词辅助提取信息从所述切分数组中提取关键词;
根据所述关键词提取实体。
2.如权利要求1所述的方法,其特征在于,
所述对所述文本数据进行预处理,得到预处理后的文本,包括:
对所述文本数据按照预设方式进行预处理操作,使得经过预处理的文本数据形成统一格式。
3.如权利要求2所述的方法,其特征在于,
所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在转义字符的情形下,从用户输入的文本数据中提取转义字符,将转义字符转换为空字符。
4.如权利要求2所述的方法,其特征在于,
所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在unicode码的情形下,从用户输入的文本数据中提取unicode码,将unicode码转换为中文。
5.如权利要求2所述的方法,其特征在于,
所述对所述文本数据按照预设方式进行预处理操作,包括:
对于用户输入的文本数据中存在停止字符的情形下,从用户输入的文本数据中提取停止字符,将停止字符转换为空格。
技术研发人员:罗震震,张少游,关涛,向永清,
申请(专利权)人:北京智慧易科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。