泊松分布(Poisson distribution)是二项分布的极限情况。适用于描述单位时间内随机事件发生的次数的概率分布,比如某网站在一定时间内收到请求的次数,某一路口车祸发生的次数,DNA序列发生突变的次数等。统计泊松分布的表达式为:
\[Possion(k) = \frac{\lambda ^{k} }{k!} e^{-\lambda}\]其中,\(\lambda\) 代表该模型的随机事件发生次数的数学期望,比如通过统计过往的数据,我们知道某个路口平均一年发生3起车祸,那么这个模型中的 \(\lambda\) 就是3。现在想知道条件不变的情况下,这个路口一年发生5起车祸的概率是多少,就可以使用泊松分布来计算,把k=5,\(\lambda=3\) 带入表达式中,我们可以计算出:
\[Possion(k=5) = \frac{3 ^{5} }{5!} e^{-3} \approx 0.1008\]也就是说,这个路口一年内发生5起车祸的概率约为0.1008。
泊松分布的推导过程
之前说过,泊松分布是二项分布的极端情况,首先回顾一下二项分布的表达式:
\[P_n(k)=C_n^kp^k(1-p)^{n-k}(k=0,1,2,3...,n)\]其中在n次伯努利实验中,每次事件发生的概率均为p,因此我们可知n次实验中事件发生次数的数学期望为 \(\lambda = np\)。假使我们将观测的时间段分成无数个小时间段,那么在这每个无限小的时间段内,事件发生的概率也接近无穷小,即当n趋近无穷大,p趋近无穷小的时候,将\(p = \frac{\lambda }{n}\)带入之前的二项分布表达式中:
\[Possion(k) = \lim_{n \to \infty} C_{n}^{k} (\frac{\lambda }{n} )^{k} (1-\frac{\lambda }{n} )^{n-k}\]接下来我们来化简这个表达式,\(C_{n}^{k}\)的展开为\(\frac{n!}{k!(n-k)!}\),并将 \(n!\) 和 \((n-k)!\) 消元,得到:
\[\lim_{n \to \infty} \frac{n(n-1)(n-2)...(n-k+1)}{k!}\cdot \frac{\lambda^k }{n^k}\cdot(1-\frac{\lambda }{n} )^{n-k}\]再将 \(n(n-1)(n-2)...(n-k+1)\) 和 \(\frac{1}{n^k}\) 相乘得到 \(\frac{n}{n}\cdot \frac{n-1}{n} \cdot\frac{n-2}{n}...\frac{n-k+1}{n}\),当n趋近于无穷大时,该表达式值为1,因此,原来的式子还剩下:
\[\lim_{n \to \infty} \frac{\lambda^k }{k!}(1-\frac{\lambda}{n})^{n-k}\]进而:
\[\lim_{n \to \infty} \frac{\lambda^k }{k!}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda }{n} )^{-k}\]同样的,n趋近于无穷大时 \((1-\frac{\lambda }{n})^{-k}=1\),原式还剩下:
\[\lim_{n \to \infty} \frac{\lambda^k }{k!}(1-\frac{\lambda }{n})^{n}\]这里我们需要一点额外的知识,关于自然对数的底e(其值约等于2.718)的来源:
\[\lim_{n \to \infty}(1+\frac{1}{n})^{n}=e\]我们发现原式 \((1-\frac{\lambda }{n})^{n}\) 这部分和e非常接近,因此我们可以做一点变换:
\[\lim_{n \to \infty}(1-\frac{\lambda }{n})^{n} =\lim_{n \to \infty}[(1+\frac{1}{\frac{n}{-\lambda }} )^{\frac{n}{-\lambda }}]^{-\lambda } =e^{-\lambda }\]最终可得:
\[Possion(k) = \frac{\lambda ^{k} }{k!} e^{-\lambda}\]以上就是泊松分布的推导过程。