联系方式的识别方法、装置、设备及存储介质制造方法及图纸

技术编号:19964404 阅读:52 留言:0更新日期:2019-01-03 12:54
本发明专利技术公开了一种联系方式的识别方法、装置、设备及存储介质。所述方法包括:在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。本发明专利技术有效提高了变形的联系方式的识别效果,有效提高联系方式的识别率,有效降低对联系方式识别的人力资源。

Recognition Method, Device, Equipment and Storage Medium of Contact Mode

The invention discloses an identification method, a device, a device and a storage medium of a contact mode. The method includes: extracting the features related to the contact mode in the text to be recognized, in the suspected area of the contact mode of the text and in the adjacent string of the suspected area; and inputting the features related to the contact mode into the preset contact mode classifier to identify the contact mode in the text. The invention effectively improves the recognition effect of the deformed contact mode, effectively improves the recognition rate of the contact mode, and effectively reduces the human resources for the identification of the contact mode.

【技术实现步骤摘要】
联系方式的识别方法、装置、设备及存储介质
本专利技术涉及人工智能领域,特别是涉及一种联系方式的识别方法、装置、设备及存储介质。
技术介绍
目前,用户可以在分类信息网、论坛等发布信息,但是基于安全性等方面考虑,分类信息网、论坛等一般会隐藏用户的联系方式,禁止用户发布联系方式;因此,需要在用户发布的信息中识别出联系方式。由于发布信息的用户一般会将联系方式进行多种变形后发布,从而导致现有识别方式存在识别率较低的问题。
技术实现思路
为了克服上述缺陷,本专利技术要解决的技术问题是提供一种联系方式的识别方法、装置、设备及存储介质,用以至少提高联系方式的识别率。为解决上述技术问题,本专利技术实施例中的一种联系方式的识别方法包括:在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。可选地,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,包括:将所述文本中具有多种格式的字符转化为预设格式的字符。可本文档来自技高网...

【技术保护点】
1.一种联系方式的识别方法,其特征在于,所述方法包括:在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。

【技术特征摘要】
1.一种联系方式的识别方法,其特征在于,所述方法包括:在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征;将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式。2.如权利要求1所述的方法,其特征在于,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,包括:将所述文本中具有多种格式的字符转化为预设格式的字符。3.如权利要求1所述的方法,其特征在于,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征之前,包括:根据预设的首字符提取规则、中间字符提取规则和字符串长度规则,在所述文本中定位出所述疑似区域。4.如权利要求3所述的方法,其特征在于,所述首字符提取规则包括:所述疑似区域的首字符为以下至少之一:符号、字母和数字;所述中间字符提取规则包括:所述疑似区域的中间字符为以下至少之一:符号、字母、数字和空格。5.如权利要求1-4中任意一项所述的方法,其特征在于,所述在待识别的文本中、在所述文本的联系方式的疑似区域中以及在所述疑似区域的临近字符串中提取与联系方式相关的特征,包括:在所述疑似区域中提取与所述联系方式的结构相关的第一特征;在所述临近字符串中提取用于辅助确认所述联系方式的第二特征;所述临近字符串符合预设的字符串长度,并且在所述疑似区域前后两侧;在所述文本中提取与所述联系方式对应的关键字符串相关的第三特征。6.如权利要求5所述的方法,其特征在于,所述联系方式分类器为随机森林分类器;所述将所述与联系方式相关的特征输入到预设的联系方式分类器中,以识别出所述文本中的联系方式,包括:将所述第一特征、所述第二特征和所述第三特征输入到所述随机森林分类器的决策树的相应节点;通过投票机制在所述相应节点对所述第一特征、所述第二特征和所述第三特征进行投票;根据所述投票结果,识别所述文本中是否存在联系方式。7.如权利要求5所述的方法,其特征在于,所述方法还包括:根据预设的提取个数,在所述临近字符串和所述疑似区域的边界处提取用于辅助确认所述联系方式的第四特征;和/或,在所述临近字符串和所述疑似区域提取具有预设的特定意义的字符串特征。8.如权利要求5所述的方法,其特征在于,所述第一特征包括以下至少之一:数字和/或与所述数字形状相近的字符的个数;最长的连续数字长度;连接字符串个数;关键字符串;关键字符串的变形字符串和预设提示符号的个数;关键字符串的变形字符串和预设提示符号的位置;连续字母长度连续数字长度;连续的数字、字母和连接字符串的长度;所述第二特征包括以下至少之一:词性;拼音首字母二元组;关键字符串;生僻字;与关键字符串形近的字符;所述第三特征包括以下至少之一:关键字符串中各字符是否出现的组合标识;关键字符串的变形字符串;关键字符串中各字符之间的距离;临近关键字符串的预设提示符号。9.一种联系方式的...

【专利技术属性】
技术研发人员:黄贵圣
申请(专利权)人:北京城市网邻信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1