【技术实现步骤摘要】
变形词识别方法和装置
本公开涉及自然语言处理领域,特别涉及一种变形词识别方法和装置。
技术介绍
当前互联网业务数据暴涨,各种变形词不断出现,严重影响关键词的匹配和获取。这些变形词,对于人脑来说比较容易理解,然而对于机器识别来说,会产生负面影响,造成词语识别不准确。目前的机器识别技术难以将这些变形词识别为其实际语义。
技术实现思路
本公开利用变形词所属的词图关系网络的子群中的变形词的邻居词语节点,构建变形词的词图向量,根据变形词的词向量和词图向量,计算变形词的综合描述向量,从语义表示和词图关系上全面描述该变形词,并通过匹配变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别变形词。本公开的一些实施例提出一种变形词识别方法,包括:根据待识别的变形词所在的语料,计算所述变形词的词向量;根据所述变形词所属的词图关系网络的子群中的所述变形词的邻居词语节点,构建所述变形词的词图向量;根据所述变形词的词向量和词图向量,构建所述变形词的综合描述向量;匹配所述变形词的综合描 ...
【技术保护点】
1.一种变形词识别方法,其特征在于,包括:/n根据待识别的变形词所在的语料,计算所述变形词的词向量;/n根据所述变形词所属的词图关系网络的子群中的所述变形词的邻居词语节点,构建所述变形词的词图向量;/n根据所述变形词的词向量和词图向量,构建所述变形词的综合描述向量;/n匹配所述变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别所述变形词。/n
【技术特征摘要】
1.一种变形词识别方法,其特征在于,包括:
根据待识别的变形词所在的语料,计算所述变形词的词向量;
根据所述变形词所属的词图关系网络的子群中的所述变形词的邻居词语节点,构建所述变形词的词图向量;
根据所述变形词的词向量和词图向量,构建所述变形词的综合描述向量;
匹配所述变形词的综合描述向量与关键词库中的关键词的综合描述向量,以识别所述变形词。
2.根据权利要求1所述的方法,其特征在于,计算所述变形词的词图向量包括:
根据所述变形词的各个邻居词语节点的重要性度量值,对所述变形词的相应邻居词语节点的词向量进行加权求和,得到所述变形词的词图向量。
3.根据权利要求1所述的方法,其特征在于,所述词图关系网络包括多个节点和连接不同节点的边,
其中,多个节点包括语料中的词,连接不同节点的边在所述不同节点在语料中同时出现的频次达到预设值时存在,边的权值由语料中同时出现所述不同节点的频次大小决定。
4.根据权利要求1所述的方法,其特征在于,所述词图关系网络的子群是利用随机游走算法对所述词图关系网络进行分割得到的。
5.根据权利要求3所述的方法,其特征在于,所述多个节点还包括变形词和关键词经过预设转换后得到的转换词,
所述预设转换包括:将中文字转换为其拼音或拼音首字母、拆分中文字的偏旁和部首。
...
【专利技术属性】
技术研发人员:郑佳欢,付华峥,陈康,向勇,陈翀,刘春,关迎辉,郑永坤,张海平,蔡凤恩,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。