形近字纠错语料挖掘方法、纠错方法、设备及存储介质技术

技术编号：24576439 阅读：72 留言：0更新日期：2020-06-21 00:26

本公开的实施例提供了一种形近字纠错语料挖掘方法、纠错方法、设备及存储介质。所述形近字纠错语料挖掘方法包括：根据用户搜索日志中的搜索词query和搜索结果title，构建query/title对；对比所述query/title对中的query和title，得到形近字匹配对；根据所述形近字匹配对生成纠错语料。本公开的实施例提供的方法能够帮助用户在采用手写体或字形方式输入搜索信息情况下准确地纠正识别错误，改善搜索体验。

Data mining method, error correction method, equipment and storage medium of near form error correction

全部详细技术资料下载

【技术实现步骤摘要】
形近字纠错语料挖掘方法、纠错方法、设备及存储介质
本公开的实施例一般地涉及信息
，并且更具体地，涉及一种形近字纠错语料挖掘方法、纠错方法、设备及存储介质。
技术介绍
随着互联网的发展和普及，用户经常需要输入文字进行信息的交互，例如很多互联网用户具有主动搜索的习惯用来获取自己所关注的信息。目前大多数的主流APP都提供给用户搜索框，方便用户来搜索站内信息，帮助用户更好地发现站内优质资源。目前，文字的输入方式较为多样，包括拼音输入法、例如五笔输入法等字型输入法、语音输入、手写输入等，对于一些用户，喜欢通过手写体来输入文字，系统通过OCR(OpticalCharacterRecognition，光学字符识别)技术识别文字，但有时候由于书写错误或者书写过于潦草导致OCR识别错误的情况，造成输入或识别的汉字并非用户真实期望输入的汉字而是其形近字，从而不利于检索到需要的信息，影响用户体验，而且增加了搜索处理的负担，耗费计算资源。已有的一些文字纠错方法基于文字编码距离的远近进行形近字的匹配，在手写体输入的情况下准确度较低。
技术实现思路
为了解决上述问题，本公开的实施例提供了一种形近字纠错方案，能够提高形近字纠错的效率和准确性。在本公开的第一方面，提供了一种形近字纠错语料挖掘方法，包括：根据用户搜索日志中的搜索词query和搜索结果title，构建query/title对；对比所述query/title对中的query和title，得到形近字匹配对；根据所述形近字匹配对生成纠...

【技术保护点】
1.一种形近字纠错语料挖掘方法，其特征在于，包括：/n根据用户搜索日志中的搜索词query和搜索结果title，构建query/title对；/n对比所述query/title对中的query和title，得到形近字匹配对；/n根据所述形近字匹配对生成纠错语料。/n

【技术特征摘要】
1.一种形近字纠错语料挖掘方法，其特征在于，包括：
根据用户搜索日志中的搜索词query和搜索结果title，构建query/title对；
对比所述query/title对中的query和title，得到形近字匹配对；
根据所述形近字匹配对生成纠错语料。

2.根据权利要求1所述的方法，其特征在于，所述根据用户搜索日志中的搜索词query和搜索结果title，构建query/title对包括：
从用户搜索日志中获取query以及搜索所述query得到的title；
从搜索所述query得到的title中抽取被用户查看的title；
将所述query与所述被用户查看的title组成query/title对。

3.根据权利要求2所述的方法，其特征在于，所述对比所述query/title对中的query和title，得到形近字匹配对包括：
对所述query和title分别进行分词处理，得到query词序列和title词序列；
对比所述query词序列和title词序列，得到不一致的单字；
将所述不一致的单字组成形近字匹配对。

4.根据权利要求3所述的方法，其特征在于，所述query为用户通过手写方式和/或字型输入法输入的。
<...

【专利技术属性】
技术研发人员：邓江东，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人