Y-Combinator: 如何在匿名函数中递归调用自身

 

如何实现一个阶乘函数? 最简单的做法是使用递归:

'use strict';

function factorial(n) {
    if (n === 0) {
        return 1;
    } else {
        return n * factorial(n - 1);
    }
}

很好. 那么如何将 factorial 函数写成一个匿名函数, 且同样递归调用自身呢? (arguments.callee 禁止)

答案略显诡异. 它是这样的:

1
2
3
4
5
6
7
8
9
10
11
'use strict';

const Y = (F) => ((g) => g(g))((g) => F((x) => g(g)(x)));

Y((factorial) => (n) => {
    if (n === 0) {
        return 1;
    } else {
        return n * factorial(n - 1);
    }
})

其中 5 至 11 行是一个真正的匿名函数表达式; 6 至 10 行与递归版的阶乘函数完全一致, 只不过第 9 行似乎不是在递归调用自身, 而是调用了上层函数的一个参数. 理解起来暂时有点难, 大家可以打开 node 试一试, 比如说

Y((factorial) => (n) => {
    if (n === 0) {
        return 1;
    } else {
        return n * factorial(n - 1);
    }
})(5);

就能得到 5 的阶乘为 120.

那么, 这其中诡异 Y = (F) => ((g) => g(g))((g) => F((x) => g(g)(x))) 是什么呢? 第 9 行中调用的 factorial 又是什么? 这就是本文要讨论的主角: Y-Combinator.

Lambda 演算

现代语言几乎都有匿名函数这一特性, 而匿名函数常常有另一个名字: lambda 表达式. 为什么要叫它 lambda 表达式呢? 这是因为它来自于 lambda 演算. Lambda 演算本身非常简单, 这里我们简单介绍.

Lambda 项

一个 Lambda 项可以是:

  • 原子 (atom): 一个合法的标识符即是原子, 所有的原子都是 lambda 项
  • 应用: 如果 $M$ 和 $N$ 是 lambda 项, 则 $(M\ N)$ 也是 lambda 项
  • 抽象: 如果 $M$ 是 lambda 项, $\phi$ 是一个合法的标识符, 则 $(\lambda \phi . M)$ 也是 lambda 项

以下的式子都是 lambda 项:

  • $a$
  • $(a\ b)$
  • $(a (b\ c))$
  • $(\lambda x . (x\ y))$
  • $(\lambda x . (\lambda y . (x\ y)))$

以 lambda 项 $(\lambda x . (x\ y))$ 为例, 其中点号右边的 $x$ 在点号左边被标记为 $\lambda x$ , 这样的变量我们称为约束变量; 与之相对的 $y$ 则被称为自由变量. 在 lambda 项 $(\lambda x . (\lambda y . (x\ y)))$ 中, $x$ 和 $y$ 都是约束变量.

Lambda 演算

Lambda 演算仅有如下两个规则:

$\alpha$ 变换

约束变量可随意替换, 只要不与自由变量冲突. 例如 $(\lambda x . (x\ y))$ 可以变换成 $(\lambda t . (t\ y))$ 或者 $(\lambda u . (u\ y))$, 它们完全等价. 但是不能变换成 $(\lambda y . (y\ y))$, 这与自由变量 $y$ 冲突了. 我们称这种变换为 $\alpha$ 变换.

$\beta$ 规约

对于应用 lambda 项 $(M\ N)$, 其中 $M$ 为抽象 lambda 项, $(M\ N)$ 等价于将 $M$ 中的约束变量替换成 $N$ 的 lambda 项. 例如 $((\lambda x . (x\ y)) k)$ 等价于 $(k\ y)$, $((\lambda x . (\lambda y . (x\ y))) k)$ 等价于 $(\lambda y . (k\ y)))$.

再比如, 我们令 lambda 项 $\times \equiv (\lambda x . (\lambda y . x \times y))$, 这里 $x \times y$ 只是 "伪代码" (它并不符合 lambda 项的规范), 表示求 $x$ 与 $y$ 之积. 则如下的 $\beta$ 规约为:

\[((\times 2) 3) \equiv (((\lambda x . (\lambda y . x \times y)) 2) 3) \equiv ((\lambda y . 2 \times y) 3) \equiv 2 \times 3 = 6\]

也就是 $((\times 2) 3)$ 首先会求 $(\times 2)$, $\beta$ 规约得到一个新的抽象 lambda 项 $(\lambda y . 2 \times y)$, 然后再求 $((\lambda y . 2 \times y) 3)$, 最后得到 $2 \times 3 = 6$.

$((\times x) y)$ 这样的写法不太方便, 这种始终左结合的应用 lambda 项可以省略括号, 例如 $(a\ b\ c\ d)$ 实际表示的是 $(((a\ b)\ c)\ d)$. 因此 $((\times x) y)$ 可写作 $(\times x\ y)$ .

$(\lambda x . (\lambda y . x \times y))$ 这样的写法也不太方便, 这种始终右结合的抽象 lambda 项也可以省略括号, 例如 $(\lambda x . \lambda y . \lambda z . M)$ 实际表示的是 $(\lambda x . (\lambda y . (\lambda z . M)))$ . 因此 $(\lambda x . (\lambda y . x \times y))$ 写作 $(\lambda x . \lambda y . x \times y)$ 就可以了.

我们可以很自然地将抽象 lambda 项理解为函数定义, 把应用 lambda 项理解为函数调用. $\alpha$ 变换可理解为参数名字不重要, 可以随意替换; $\beta$ 规约则是将实参带入形参调用函数. 不过 lambda 演算不允许定义多参函数, 只能使用形如 $(\lambda x . \lambda y . M)$ 的方式实现, 称为柯里化(Currying).

Y-Combinator

我们尝试用 lambda 演算计算阶乘. 为了方便, 我们还定义了以下几个函数(lambda 项):

  • $\mathrm{eq} \equiv (\lambda x . \lambda y . x = y)$ 其中 $a = b$ 是伪代码, 当且仅当 $a$ 与 $b$ 相等时值为真.
  • $\mathrm{if} \equiv (\lambda\ cond\ .\ \lambda\ a\ .\ \lambda\ b .\ \mathrm{if}\ cond\ \mathrm{then}\ a\ \mathrm{else}\ b )$ 其中 $\mathrm{if}\ cond\ \mathrm{then}\ a\ \mathrm{else}\ b$ 是伪代码, 表示当 cond 为真时值为 $a$ 否则为 $b$.
  • $- \equiv (\lambda a . \lambda b . a - b)$ 其中 $a - b$ 是伪代码, 表示求 $a$ 与 $b$ 之差.

然后我们定义出了求阶乘的函数:

\[factorial \equiv (\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (factorial\ (-\ n\ 1))\ n)\ )) \tag{1}\]

其中 $(\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (factorial\ (-\ n\ 1))\ n)\ )$ 应用 $\mathrm{if}$ , 当 $n$ 为 0 即 $(\mathrm{eq}\ n\ 0)$ 为真时值为 1; 否则为 $(\times\ (factorial\ (-\ n\ 1))\ n)$, 即递归调用 $(factorial\ (-\ n\ 1))$ 再乘以 $n$.

我们在编程语言中常常这样用, 但遗憾的是, 在 lambda 演算中, 这是不合法的. Lambda 演算只是简单的符号替换, 不是编程语言中的函数调用. 因此在定义 factorial 的时候, factorial 还没被创建, 你无法对一个不存在的符号执行 $\beta$ 规约.

既然无法使用一个符号代替它自身, 那我们就把它自身原样写进去试试:

\[\begin{align} &(\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times \\ &\qquad ((\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times \\ &\qquad\qquad ((\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times \\ &\qquad\qquad\qquad ((\lambda n .\ ...)\ (-\ n\ 1)) \\ &\qquad\qquad n))) (-\ n\ 1)) \\ &\qquad n)))\ (-\ n\ 1)) \\ &n))) \end{align} \tag{2}\]

这样写下去就没完没了了. 不妨尝试将重复的部分提取出来, 用 lambda 演算替换:

\[(\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) \tag{3}\]

可以看到, 递归调用的部分做成了约束变量 $f$, 然后我们只需使用 $\beta$ 规约把 $f$ 替换成自己, 得到:

\[\begin{align} & ( (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) \\ &\qquad ( (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) \\ &\qquad\qquad ( (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) \\ &\qquad\qquad\qquad ...))) \end{align} \tag{4}\]

与 (2) 式等价. 嗯, 这比 (2) 式好看了些, 不过重复的部分还是有点多. 我们再来进一步改进:

\[\begin{align} &((\lambda g. (g (g (g (...))))) \\ &\qquad (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) ) \end{align} \tag{5}\]

我们把 (3) 式应用 $(\lambda g. (g (g (g (…)))))$, 让它不断地对自己执行 $\beta$ 规约, 其结果与 (4) 式等价, 而且简洁了不少.

这时可能有同学要问, 这有什么用呢? 我们不断地让 $g$ 应用它自身, 还是没完没了啊! 其实我们离胜利只剩一步之遥了. 观察 (5) 式, 我们想要的其实不过是

\[\begin{matrix} (\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) & f = (g (g (g (...)))) \end{matrix}\]

也就是我们希望 $(g (g (g (…))))$ 能等价于 $(\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n)))$ 它本身, 使得它能够递归调用. 那么我们能不能不写无数个应用 lambda 项呢? 试试这样:

\[\begin{align} &((\lambda g. (g\ g)) \\ &\qquad (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) ) \end{align} \tag{6}\]

这样 $f$ 会等于 $g$ 也就是 (3) 式. 它是不能传入 $(-\ n\ 1)$ 以求 $n - 1$ 的阶乘的. 且慢! 虽然 $g$ 不是 $(\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n)))$, 但是 $g$ 能生成它! 那么, 如果我们让 $g$ 应用它自己, 也就是 $(g\ g)$, 它就会生成一个递归调用 $(g\ g)$ 的函数, 这个函数似乎可以求阶乘! 于是我们把 (6) 式改写成:

\[\begin{align} &((\lambda g. (g\ g)) \\ &\qquad (\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n))) ) \end{align} \tag{7}\]

我们把它展开试试:

\[\begin{align} (7) \equiv\quad &((\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n))) \\ &\qquad (\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n)))) \\\\ \equiv\quad &((\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (\\ &\qquad ((\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n))) \\ &\qquad\qquad (\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n))))\\ &\qquad\ (-\ n\ 1))\ n)))) \\\\ \equiv\quad &((\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (\\ &\qquad((\lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (\\ &\qquad\qquad ((\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n))) \\ &\qquad\qquad\qquad (\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n))))\\ &\qquad\qquad\ (-\ n\ 1))\ n)))) \\ &\qquad\ (-\ n\ 1))\ n)))) \\ \equiv\quad & ... \end{align}\]

我们惊奇地发现, 它能无限执行 $\beta$ 规约, 其结果与 (2) 式完全一致. 也就是说我们得到了阶乘的 lambda 演算.

虽然 (7) 式能完成递归阶乘运算, 但是 $(g\ g)$ 这种写法有些丑, 能不能优化一下呢? 很简单, 使用 lambda 演算替换掉就好了. 我们先定义:

\[\begin{align} Y \equiv \quad & (\lambda F.\ ((\lambda g. (g\ g)) \\ &\qquad (\lambda g. (F\ (g\ g))))) \end{align} \tag{8}\]

我们只需要将 (3) 式应用 $Y$ 即可得到阶乘的 lambda 演算:

\[factorial \equiv (Y\ (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n)))) \tag{9}\]

我们把它展开看看:

\[\begin{align} factorial \equiv \quad & (Y\ (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n)))) \\ \equiv \quad & ((\lambda g. (g\ g)) \\ &\qquad (\lambda g. ((\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n))) \\ &\qquad\qquad (g\ g)))) \\ \equiv \quad & ((\lambda g. (g\ g)) \\ &\qquad (\lambda g . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ ((g\ g)\ (-\ n\ 1))\ n)))) \end{align}\]

与 (7) 式完全一致. 至此, 我们得到了完美的阶乘 lambda 项.

(8) 式被称为 Y-Combinator. 我们再回过头看来 (9) 式中传入 $Y$ 中的 lambda 项, 也就是 (3) 式, 令

\[F \equiv (\lambda f . \lambda n . (\mathrm{if}\ (\mathrm{eq}\ n\ 0)\ 1\ (\times\ (f\ (-\ n\ 1))\ n)))\]

实际上 $F$ 希望能传入一个 lambda 项 $f$, 使得 $f \equiv (F\ f)$. 因为只有这样, 才能让 $f$ 递归调用自身. 我们称使得 $f \equiv (F\ f)$ 成立的 $f$ 为 $F$ 的不动点(fixed point). 那么 $Y$ 对 $F$ 做了什么呢? 我们算算看:

\[\begin{align} (Y\ F) \equiv \quad &((\lambda g. (g\ g)) \\ &\qquad (\lambda g. (F\ (g\ g)))) \\ \equiv \quad &((\lambda g. (F\ (g\ g))) \\ &\qquad (\lambda g. (F\ (g\ g)))) \\ \equiv \quad & (F\ ((\lambda g. (F\ (g\ g))) \\ &\qquad (\lambda g. (F\ (g\ g))))) \\ \equiv \quad & (F\ (Y\ F)) \end{align}\]

所以我们有 $(Y\ F) \equiv (F\ (Y\ F))$. 因此 $F$ 的不动点为 $(Y\ F)$. 这就是 Y-Combinator 的神奇之处, 它通过求 $F$ 的不动点实现递归.

编程语言中的 Y-Combinator

OK, 现在我们来看文章开头的 Y = (F) => ((g) => g(g))((g) => F((x) => g(g)(x))) 是什么. 其实它就是 Y-Combinator 的 JavaScript 实现, 等价于 (8) 式. 我们把它写得更清楚些:

const Y = (F) =>
    ((g) => g(g))               // (λ g . (g g))
    ((g) => F((x) => g(g)(x)))  // (λ g . (F (g g)))

不过略微不同的是, $(F\ (g\ g))$ 不能直接写成 F(g(g)), 这会使 g(g) 立即求值导致无限递归. 因此我们需要将 g(g) 写作 (x) => g(g)(x), 让它在运行时求值. 明白了 Y-Combinator 的原理, 本文开头的代码也就不足为奇了.

延伸阅读 & 参考

笔者最近看完了 The Little Schemer , 又参阅了一些关于 lambda 演算的文章, 为之叹服. 这本书以一种自问自答的方式介绍了 Scheme 语言和函数式编程思想, 其中第九章中对 Y-Combinator 的介绍令人拍案叫绝. 这本书给我的感觉是重新学习了编程, 如果你和我一样, 学过很多命令式编程语言, 却从未接触过函数式编程语言, 那么强烈推荐 The Little Schemer , 它能极大地开阔我们的思路.

本文还参考了这篇介绍 lambda 演算的文章 https://github.com/txyyss/Lambda-Calculus . 本文着重介绍 Y-Combinator, 它只是 lambda 演算的冰山一角, lambda 演算远比本文所讲的精彩美妙. 这篇文章对 lambda 演算有一个较为全面的科普, 写得非常好. 它还附带了一个 lambda 解释器及其实现, 同样推荐大家阅读.