时长11:10大小10.23M
你好,我是黄申。
上一篇讲组合的时候,我最后提到了有关文本的关键字查询。今天我接着文本搜索的话题,来聊聊查询推荐(Query Suggestion)的实现过程,以及它所使用的数学思想,动态规划(Dynamic Programming)。
那什么是动态规划呢?在递归那一节,我说过,我们可以通过不断分解问题,将复杂的任务简化为最基本的小问题,比如基于递归实现的归并排序、排列和组合等。不过有时候,我们并不用处理所有可能的情况,只要找到满足条件的最优解就行了。在这种情况下,我们需要在各种可能的局部解中,找出那些可能达到最优的局部解,而放弃其他的局部解。这个寻找最优解的过程其实就是动态规划。
动态规划需要通过子问题的最优解,推导出最终问题的最优解,因此这种方法特别注重子问题之间的转移关系。我们通常把这些子问题之间的转移称为状态转移,并把用于刻画这些状态转移的表达式称为状态转移方程。很显然,找到合适的状态转移方程,是动态规划的关键。
因此,这两节我会通过实际的案例,给你详细解释如何使用动态规划法寻找最优解,包括如何分解问题、发现状态转移的规律,以及定义状态转移方程。
当你在搜索引擎的搜索框中输入单词的时候,有没有发现,搜索引擎会返回一系列相关的关键词,方便你直接点击。甚至,当你某个单词输入有误的时候,搜索引擎依旧会返回正确的搜索结果。
搜索下拉提示和关键词纠错,这两个功能其实就是查询推荐。查询推荐的核心思想其实就是,对于用户的输入,查找相似的关键词并进行返回。而测量拉丁文的文本相似度,最常用的指标是编辑距离(Edit Distance)。
我刚才说了,查询推荐的这两个功能是针对输入有缺失或者有错误的字符串,依旧返回相应的结果。那么,将错误的字符串转成正确的,以此来返回查询结果,这个过程究竟是怎么进行的呢?
由一个字符串转成另一个字符串所需的最少编辑操作次数,我们就叫作编辑距离。这个概念是俄罗斯科学家莱文斯坦提出来的,所以我们也把编辑距离称作莱文斯坦距离(Levenshtein distance)。很显然,编辑距离越小,说明这两个字符串越相似,可以互相作为查询推荐。编辑操作有这三种:把一个字符替换成另一个字符;插入一个字符;删除一个字符。
比如,我们想把 mouuse 转换成 mouse,有很多方法可以实现,但是很显然,直接删除一个“u”是最简单的,所以这两者的编辑距离就是 1。
对于 mouse 和 mouuse 的例子,我们肉眼很快就能观察出来,编辑距离是 1。但是我们现实的场景中,常常不会这么简单。如果给定任意两个非常复杂的字符串,如何高效地计算出它们之间的编辑距离呢?
我们之前讲过排列和组合。我们先试试用排列的思想来进行编辑操作。比如,把一个字符替换成另一个字符,我们可以想成把 A 中的一个字符替换成 B 中的一个字符。假设 B 中有 m 个不同的字符,那么替换的时候就有 m 种可能性。对于插入一个字符,我们可以想成在 A 中插入来自 B 的一个字符,同样假设 B 中有 m 个不同的字符,那么也有 m 种可能性。至于删除一个字符,我们可以想成在 A 中删除任何一个字符,假设 A 有 n 个不同的字符,那么有 n 种可能性。
可是,等到实现的时候,你会发现实际情况比想象中复杂得多。
首先,计算量非常大。我们假设字符串 A 的长度是 n,而 B 字符串中不同的字符数量是 m,那么 A 所有可能的排列大致在 m^n 这个数量级,这会导致非常久的处理时间。对于查询推荐等实时性的服务而言,服务器的响应时间太长,用户肯定无法接受。
其次,如果需要在字符串 A 中加字符,那么加几个呢,加在哪里呢?同样,删除字符也是如此。因此,可能的排列其实远不止 m^n。
我们现在回到问题本身,其实编辑距离只需要求最小的操作次数,并不要求列出所有的可能。而且排列过程非常容易出错,还会浪费大量计算资源。看来,排列的方法并不可行。
好,这里再来思考一下,其实我们并不需要排列的所有可能性,而只是关心最优解,也就是最短距离。那么,我们能不能每次都选择出一个到目前为止的最优解,并且只保留这种最优解?如果是这样,我们虽然还是使用迭代或者递归编程来实现,但效率上就可以提升很多。
我们先考虑最简单的情况。假设字符串 A 和 B 都是空字符串,那么很明显这个时候编辑距离就是 0。如果 A 增加一个字符 a1,B 保持不动,编辑距离就增加 1。同样,如果 B 增加一个字符 b1,A 保持不动,编辑距离增加 1。但是,如果 A 和 B 有一个字符,那么问题就有点复杂了,我们可以细分为以下几种情况。
我们先来看插入字符的情况。A 字符串是 a1 的时候,B 空串增加一个字符变为 b1;或者 B 字符串为 b1 的时候,A 空串增加一个字符变为 a1。很明显,这种情况下,编辑距离都要增加 1。
我们再来看替换字符的情况。当 A 和 B 都是空串的时候,同时增加一个字符。如果要加入的字符 a1 和 b1 不相等,表示 A 和 B 之间转化的时候需要替换字符,那么编辑距离就是加 1;如果 a1 和 b1 相等,无需替换,那么编辑距离不变。
最后,我们取上述三种情况中编辑距离的最小值作为当前的编辑距离。注意,这里我们只需要保留这个最小的值,而舍弃其他更大的值。这是为什么呢?因为编辑距离随着字符串的增长,是单调递增的。所以,要求最终的最小值,必须要保证对于每个子串,都取得了最小值。有了这点,之后我们就可以使用迭代的方式,一步步推导下去,直到两个字符串结束比较。
刚才我说的情况中没有删除,这是因为删除就是插入的逆操作。如果我们从完整的字符串 A 或者 B 开始,而不是从空串开始,这就是删除操作了。
从上述的过程可以看出,我们确实可以把求编辑距离这个复杂的问题,划分为更多更小的子问题。而且,更为重要的一点是,我们在每一个子问题中,都只需要保留一个最优解。之后的问题求解,只依赖这个最优值。这种求编辑距离的方法就是动态规划,而这些子问题在动态规划中被称为不同的状态。
如果文字描述不是很清楚的话,我这里又画一张表,把各个状态之间的转移都标示清楚,你就一目了然了。
我还是用 mouuse 和 mouse 的例子。我把 mouuse 的字符数组作为表格的行,每一行表示其中一个字母,而 mouse 的字符数组作为列,每列表示其中一个字母,这样就得到下面这个表格。
这张表格里的不同状态之间的转移,就是状态转移。其中红色部分表示字符串演变(或者说状态转移)的方式以及相应的编辑距离计算。对于表格中其他空白的部分,我暂时不给出,你可以试着自己来推导。
编辑距离是具有对称性的,也就是说从字符串 A 到 B 的编辑距离,和从字符串 B 到 A 的编辑距离,两者一定是相等的。这个应该很好理解。
你可以把刚才那个状态转移表的行和列互换一下,再推导一下,看看得出的编辑距离是否还是 1。我现在从理论上解释下这一点。这其实是由编辑距离的三种操作决定的。比如说,从字符串 A 演变到 B 的每一种操作,都可以转换为从字符串 B 演变到 A 的某一种操作。
所以说,从字符串 A 演变到 B 的每一种变化方式,都可以找到对应的从字符串 B 演变到 A 的某种方式,两者的操作次数一样。自然,代表最小操作次数的编辑距离也就一样了。
我今天介绍了用于查询推荐的编辑距离。编辑距离的定义很好理解,不过,求任意两个字符串之间的编辑距离可不是一件容易的事情。我先尝试用排列来分析问题,发现这条路走不通,而后我们仍然使用了化繁为简的思路,把编辑距离的计算拆分为 3 种情况,并建立了子串之间的联系。
你不要觉得这样的分析过程比较繁琐,我想说的是,学数学固然是为了得到结果,但是学习的过程,是要学会解决问题的方法和思路。比如面对一个问题的时候,你可能不知道用什么方法来解决,但是你可以尝试用我们学过的这些基础思想去分析,去比对,在这个分析的过程中去总结这些方法的使用规律,久而久之,你就能摸索出自己解决问题的套路。
比如说,动态规划虽然也采用了把问题逐步简化的思想,但是它和基于递归的归并排序、排列组合等解法有所不同。能够使用动态规划解决的问题,通常只关心一个最优解,而这个最优解是单调改变的,例如最大值、最小值等等。因此,动态规划中的每种状态,通常只保留一个当前的最优解,这也是动态规划效率比较高的原因。
理解了动态规划法和状态转移之后,你觉得根据编辑距离来衡量字符串之间的相似程度有什么局限性?你有什么优化方案吗?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。
作者回复: (2)基本是对的,只是明确一下,“如果相等不需要替换则编辑距离 “加” 0”
(1)中的情况比较绕,你可以这么来看,一开始A、B都是空串,A增加一个字符m,两者编辑距离是1,然后B增加一个字符m,即使两个m相等,编辑距离也会由1变为2,而不是维持在1,也不会降到0。因为编辑距离2表示的是A添加一个m字符,B再添加一个m字符。虽然在人看来两者相等,但对于计算机而言要遍历这种情况。至于两者相等的情况,由替换操作表示,因此可以取到最小值0
作者回复: 应该是2,2,0。我稍后改一下
具体的分解你可以看图表中的注释,分三种情况,每种情况都对应于红色箭头的指向
作者回复: 分析的很好,在实际项目中还可以考虑其他因素,例如用户搜索的次数、对应的搜索结果数量等等。
作者回复: 感谢你关于斐波那契数列的建议,我之前也考虑过,由于这个例子非常直观,也可以使用迭代实现,所以担心无法体现状态转移的特点。
作者回复: 我会写篇加餐,给大家推荐几本书
作者回复: 很好的思考,在不同的应用场景我们可以考虑不同的侧重点。比如你这里说的前缀更重要,你可以考虑一下如何修改编辑距离的定义,以及对应的状态转移方程,来体现前缀更重要。
除基于编辑距离的相似度,还可以考虑其他的因素,例如查询的次数(热度),查询对应的搜索结果数量、个性化等等,不过这是另一个很大的话题
作者回复: 你问题的第一句,具体是指表格中三种情况的第一种,是吧?这是指AB两者一开始都为空,那么A字符串增加1个m,编辑距离加1,然后B再增加一个m,所以编辑距离再加1变为2,当然这种不是最小值,最小值是0,也就是表中第三种情况
作者回复: 结合表格会更容易理解
作者回复: 前面的理解是对的,对于第三种情况,如何替换的字母相同,那么就是0,否则是1
作者回复: 刚开始确实不太好理解,多看几遍就能熟悉了
作者回复: 你第一段的理解是对的。
你说的第二段,其实是因为查询纠错的特殊性导致的,在实现的时候可以根据这个来优化,可以不需要完全遵守最基本的求编辑距离方法。我之所以还是选择讲解最基本的版本,主要是为了让大家能理解这个概念。
作者回复: 你可以先根据本讲最后的状态转移表来推,第10讲有最终推算结果供参考
作者回复: 这部分确实比较绕,这个推导过程不是按照我们直观的理解,它是列举了所有的可能。比从m到mo,可能的路径是删掉一个m,在分别增加m和o,那么编辑距离就是3了,不过这不是最优的,在后面min函数会取直接在m上加o的这种可能,距离为1
作者回复: 具体是哪里不明白?我可以再详细解释一下
作者回复: 确实编辑距离是一个很基础的指标,主要针对单个词。你说的问题可以使用取词干(stemming)来部分解决。
余弦相似度和欧式距离更多的是用于衡量两段文本之间的相似度,每个unique的单词都是向量的一维度,我会在第三大部分线性代数中,介绍这个例子。
作者回复: 好提议 我稍微修改一下