Unravel the mystery of the Gaussian Integral, Distribution & Central Limit Theorem

Tích phân Gauss (the Gaussian Integral)

Tích phân Gauss, hay còn gọi là tích phân Euler-Poisson, là một trong những tích phân nổi tiếng và quan trọng nhất trong lịch sử toán học. Nó là giá trị diện tích bên dưới đường cong hình chuông $e^{-x^2}$ trên toàn bộ trục số.

Công thức tổng quát:

\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}

Điều làm nên sự thú vị là chúng ta đang lấy tích phân của một hàm số mũ chứa $e$ , nhưng kết quả lại trả về một con số liên quan đến hình tròn là $\sqrt{\pi}$ . Điều này cho thấy mối liên hệ sâu sắc giữa hàm mũ và hình học không gian.

Ta có một chứng minh tuyệt hay về công thức này như sau:

Gọi $\displaystyle I=\int_{-\infty}^{\infty} e^{-x^2}dx$ , lúc đó ta có:

\displaystyle I^2=\int_{-\infty}^{\infty} e^{-x^2}dx\int_{-\infty}^{\infty} e^{-x^2}dx

Áp dụng định lý Fubini để đưa về dạng tích phân kép:

\displaystyle I^2=\int_{-\infty}^{\infty} e^{-x^2}dx\int_{-\infty}^{\infty} e^{-y^2}dy \\ \displaystyle =\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-(x^2 + y^2)}dxdy

Chuyển sang tọa độ cực:

\begin{align*} x &= r \cos \theta \\ y &= r \sin \theta \\ dx.dy &= r.dr.d\theta \end{align*}

Vậy $I^2 = \displaystyle \int_{0}^{2\pi}\int_{0}^{\infty} e^{-r^2}rdrd\theta$ .

Ta bắt đầu tính tích phân kép bằng cách tính tích phân bên trong theo $r$ .

Đặt $u=r^2, du=2rdr$ , ta có

\displaystyle \int_{0}^{\infty} e^{-r^2}rdr = \frac 1 2 \int_0^{\infty}e^{-u}du = \frac 1 2 \left[-e^{-u}\right]_0^{\infty} = \frac 1 2

Thay ngược vào trong tích phân kép ta có:

I^2 = \int_0^{2\pi}\frac 1 2 d\theta = \frac 1 2[\theta]_0^{2\pi}=\pi

Từ đó suy ra $I = \sqrt \pi$

Từ tích phân Gauss đến phân phối Gauss (Gaussian Distribution)

Đồ thị của hàm số $e^{-x^2}$ là một hình chuông đối xứng, giảm nhanh về $0$ . Để ép nó trở thành một hàm mật độ xác suất (Probability Density Function - PDF), nó phải thỏa điều kiện tiên quyết: Tổng diện tích dưới đường cong phải bằng 1. Ta chuẩn hóa tích phân Gauss bằng cách chia nó cho $\displaystyle \frac 1 {\sqrt \pi}$ . Lúc đó công thức trở thành:

{\sqrt \pi}\int_{-\infty}^\infty e^{-x^2}dx = \sqrt \pi \implies \frac 1 {\sqrt \pi}\int_{-\infty}^\infty e^{-x^2}dx = 1

Nếu chỉ có hàm $e^{-x^2}$ , hình chuông là cố định. Trong thực tế, có những tập dữ liệu tập trung rất sát vào trung tâm (chuông cao và gầy), có những tập dữ liệu lại phân tán rất rộng (chuông thấp và béo). Để điều chỉnh độ rộng này, ta đưa thêm vào một giá trị $\sigma$ , ta thực hiện phép biến đổi biến số $\displaystyle x \to \frac x \sigma$ :

Khi $\sigma$ lớn: Giá trị $x$ bị "chia nhỏ" đi, khiến hàm số giảm chậm hơn $\to$ Chuông rộng ra.
Khi $\sigma$ nhỏ: Giá trị $x$ bị "phóng đại" lên, khiến hàm số giảm cực nhanh $\to$ Chuông hẹp lại.

Để đảm bảo hầm mật độ bằng $1$ , với tham số $\sigma$ vừa thêm vào ta phải điều chỉnh tích phân của hàm mật độ lại. Ta có:

\int_{-\infty}^{\infty} e^{-\left(\frac{x}{\sigma}\right)^2} dx = \sigma\sqrt{\pi}

Như vậy, công thức tích phân của hàm mật độ điều chỉnh lại là:

\frac 1 {\sigma \sqrt \pi}\int_{-\infty}^{\infty} e^{-\left(\frac{x}{\sigma}\right)^2} dx = 1

Lúc này, ta sẽ có đồ thị của hàm số trên là một đồ thị hình chuông đối xứng qua trục tung ( $x=0$ ). rong mô hình này, dữ liệu tập trung dày đặc nhất quanh gốc tọa độ, nghĩa là giá trị trung bình (kỳ vọng) đang mặc định bằng $0$ . Tuy nhiên, thế giới thực không vận hành đơn giản như vậy. Điểm hội tụ của dữ liệu—chẳng hạn như chiều cao trung bình hay nhiệt độ hằng ngày có thể nằm ở bất kỳ đâu trên trục số. Để đưa đồ thị này tới đúng vị trí trung bình thực tế $\mu$ , ta thực hiện một phép tịnh tiến đồ thị bằng cách thay thế $x$ bằng $(x - \mu)$ . Lúc đó tích phân hàm mật độ trở thành:

\frac 1 {\sigma \sqrt \pi} \int_{-\infty}^{\infty} e^{-\left(\frac{x-\mu}{\sigma}\right)^2} dx = 1

Để ý rằng việc thay $x$ thành $x-\mu$ chỉ đơn giản là phép dời hình, thành ra diện tích không đổi, đó là lý do tại sao tích phân vẫn bảo toàn bằng $1$ .

Đến đây, chúng ta đã có một hàm mật độ xác suất hình chuông chuẩn hóa với tâm tại $\mu$ và độ rộng tỉ lệ với $\sigma$ . Tuy nhiên, có một vấn đề nhỏ về sự đồng nhất trong thống kê đó là trong thống kê mô tả, phương sai ( $Var$ ) được định nghĩa là giá trị trung bình của bình phương sai lệch cần phải bằng $\sigma^2$ . Tuy nhiên, hiện tại nếu chúng ta dùng hàm mật độ $f(x) = \frac 1 {\sigma \sqrt \pi} e^{-\left(\frac{x-\mu}{\sigma}\right)^2}$ dựa trên mẫu số là $\sigma^2$ như hiện tại để tính phương sai theo công thức:

Var(X) = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) dx

Thay $f(x)$ vào ta có:

Var(X) = \int_{-\infty}^{\infty} (x-\mu)^2 \frac{1}{\sigma\sqrt{\pi}} e^{-\frac{(x-\mu)^2}{\sigma^2}} dx

Đặt $\displaystyle t = \frac {x-\mu} \sigma$ , khi đó:

$x - \mu = \sigma t \implies (x - \mu)^2 = \sigma^2t^2$
$dx = \sigma dt$

Thay vào:

\begin{align*} Var(X) &= \frac{1}{\sigma\sqrt{\pi}} \int_{-\infty}^{\infty} (\sigma^2 t^2) e^{-t^2} (\sigma dt) \\ &= \frac{\sigma^2}{\sqrt{\pi}} \int_{-\infty}^{\infty} t^2 e^{-t^2} dt \end{align*}

Ta cần tính $\displaystyle I = \int_{-\infty}^{\infty} t^2 e^{-t^2} dt$ . Tách $t^2 e^{-t^2} = t \cdot (t e^{-t^2})$ và sử dụng tích phân từng phần:

Đặt $u = t \implies du = dt$
Đặt $\displaystyle dv = t e^{-t^2} dt \implies v = -\frac{1}{2} e^{-t^2}$

Áp dụng công thức $\displaystyle \int u dv = uv - \int v du$ :

I = \left[ -\frac{t}{2} e^{-t^2} \right]_{-\infty}^{\infty} - \int_{-\infty}^{\infty} \left( -\frac{1}{2} e^{-t^2} \right) dt

Thành phần thứ nhất: $\displaystyle \left[ -\frac{t}{2} e^{-t^2} \right]_{-\infty}^{\infty} = 0$ (vì hàm mũ $e^{-t^2}$ giảm nhanh hơn biến tuyến tính $t$ ).
Thành phần thứ hai: $\displaystyle \frac{1}{2} \int_{-\infty}^{\infty} e^{-t^2} dt$ . Đây chính là tích phân Gauss mà ta đã biết kết quả là $\sqrt{\pi}$ .

Vậy $\displaystyle I = \frac{1}{2} \sqrt{\pi}$ . Thay $I$ ngược lại vào biểu thức phương sai:

Var(X) = \frac{\sigma^2}{\sqrt{\pi}} \cdot \left( \frac{1}{2} \sqrt{\pi} \right) = \frac{\sigma^2}{2}

Kết quả này cho thấy nếu giữ nguyên công thức $e^{-\frac{(x-\mu)^2}{\sigma^2}}$ , thì tham số $\sigma^2$ trong hàm mũ không đại diện hoàn toàn cho phương sai thực tế, mà nó bị lệch đi một hệ số $\displaystyle \frac 1 2$ . Để "chuẩn hóa" sao cho tham số ta viết trong công thức ( $\sigma^2$ ) trùng khít với giá trị phương sai đo được từ dữ liệu, ta thực hiện điều chỉnh:

Thay mẫu số trong hàm mũ thành $2\sigma^2$ .
Lúc đó, tích phân trên sẽ triệt tiêu số $\displaystyle \frac 1 2$ và cho ra kết quả $Var(X) = \sigma^2$ .

Cuối cùng ta có công thức hàm mật độ xác suất của phân phối Gauss như đã biết:

\boxed{f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}}

Công thức Gaussian được chuẩn hóa (Standardization) về một kích thước duy nhất có trung bình bằng $0$ và phương sai bằng $1$ để trở thành phân phối chuẩn tắc (Standard Normal Distribution).

Biến đổi Z (Z-score)

Giả sử ta có biến ngẫu nhiên $X \sim N(\mu, \sigma^2)$ . Ta định nghĩa một biến mới $Z$ :

Z = \frac{X - \mu}{\sigma}

Phép biến đổi này có ý nghĩa cực kỳ trực quan:

$(X - \mu)$ : Tịnh tiến đồ thị về gốc tọa độ $0$ (như chúng ta đã bàn về việc đưa $\mu$ vào trước đó).
Chia cho $\sigma$ : Co dãn đồ thị sao cho độ lệch chuẩn của nó đúng bằng $1$ .

Hàm mật độ chuẩn tắc $\Phi(z)$

Khi thực hiện phép đổi biến này vào công thức Gaussian tổng quát, ta thu được hàm mật độ của $Z$ (thường ký hiệu là $\Phi$ ):

\Phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}

Lúc này, con số $2\pi$ và $e^{-z^2/2}$ hiện ra một cách thanh khiết nhất, không còn bị vướng bận bởi các tham số cụ thể của từng bộ dữ liệu.

Định lý giới hạn trung tâm (Central Limit Theorem - CLT)

Xét một chuỗi các biến ngẫu nhiên độc lập và có cùng phân phối (i.i.d) $X_1, X_2, \dots, X_n$ với kỳ vọng hữu hạn $E[X_i] = \mu$ và phương sai hữu hạn $Var(X_i) = \sigma^2 \gt 0$ .

Gọi $\bar{X}_n$ là trung bình mẫu:

\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i

Khi đó, khi $n \to \infty$ , biến ngẫu nhiên chuẩn hóa $Z_n$ sẽ hội tụ về phân phối chuẩn tắc $N(0, 1)$ theo phân phối:

Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

Nói cách khác, hàm phân phối tích lũy của $Z_n$ sẽ tiến tới hàm phân phối tích lũy của $N(0, 1)$ :

\lim_{n \to \infty} P(Z_n \le z) = \Phi(z) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z} e^{-\frac{t^2}{2}} dt

Công thức trên nghĩa là gì?

Hãy coi $z$ là một ngưỡng (threshold) mà bạn đặt ra trên trục số. Nó là một con số cố định (ví dụ $z = 1.96$ hoặc $z = 0$ ). Lúc đó $Z_n \le z$ là một biến cố với $Z_n$ mô tả trạng thái của giá trị trung bình mẫu sau khi đã được chuẩn hóa rơi vào khoảng $(-\infty, z]$ . $P(Z_n \le z)$ là khả năng (xác suất) để biến cố đó xảy ra. Lúc đó, khi $n$ tiến đến vô cùng ( $\lim_{n \to \infty}$ ) xác suất $P(Z_n \le z)$ sẽ hội tụ về giá trị của hàm phân phối tích lũy chuẩn tắc $\Phi(z)$ . Cụ thể:

\Phi(z) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z} e^{-\frac{t^2}{2}} dt

Điều này khẳng định rằng hình dạng của phân phối xác suất của $Z_n$ sẽ dần khớp khít với hàm mật độ Gaussian chuẩn tắc.

Để ý rằng vế phải của công thức hoàn toàn không chứa bất kỳ tham số nào của dữ liệu ban đầu (như hình dạng phân phối $X$ , độ lệch hay độ nhọn). Điều này cho phép ta tính toán xác suất của trung bình mẫu mà không cần biết phân phối cụ thể của quần thể, miễn là $n$ đủ lớn để tiệm cận giới hạn vô cùng. Ngưỡng $z$ đóng vai trò là biên trên của tích phân. Giá trị xác suất thu được chính là diện tích miền bên dưới đường cong $e^{-t^2/2}$ tính từ $-\infty$ đến điểm $z$ , ta đang quét qua các mức độ tin cậy khác nhau của giá trị trung bình mẫu.

Trong thực tế, với $n$ đủ lớn (thường là $n \ge 30$ ), ta sử dụng luôn giá trị của vế phải này để thay thế cho $P(Z_n \le z)$ thực tế, tạo tiền đề cho các phép kiểm định giả thuyết và tính toán khoảng tin cậy trong thống kê.

Ví dụ: Viên xúc sắc không cân bằng

Giả sử ta có một viên xúc sắc bị lỗi (không cân bằng). Xác suất xuất hiện của các mặt từ $1$ đến $6$ không phải là $1/6$ mà là một tập hợp các giá trị $\{p_1, p_2, ..., p_6\}$ bất kỳ, miễn là $\sum p_i = 1$ . Phân phối gốc này có thể cực kỳ lệch (ví dụ: xác suất ra mặt $6$ rất cao, còn mặt $1$ rất thấp). Tuy nhiên, viên xúc sắc này vẫn có một giá trị kỳ vọng (trung bình) xác định là $\mu$ và một phương sai xác định là $\sigma^2$ . Quy trình thực nghiệm:

Lấy mẫu: Ta tung viên xúc sắc này $n$ lần (ví dụ $n=30$ ). Đây là một lần thử nghiệm.
Tính toán: Tính giá trị trung bình cộng $\bar{X}$ của $30$ lần tung đó.
Lặp lại: Thực hiện lại toàn bộ quy trình trên nhiều lần (ví dụ $1,000$ lần thử nghiệm).

Sau đó, ta vẽ một biểu đồ tần suất (histogram) cho $1,000$ giá trị trung bình mẫu $\bar{X}$ ta sẽ quan sát thấy:

Với $n$ nhỏ (ví dụ $n=2$ hoặc $n=5$ ): Biểu đồ có thể vẫn còn trông hơi giống phân phối lệch của viên xúc sắc gốc.
Với $n$ lớn (thường $n \ge 30$ ): Biểu đồ sẽ bắt đầu có hình dạng đối xứng, cao ở giữa và thấp dần về hai phía. Dù viên xúc sắc có lệch đến mức nào ở đầu vào, đầu ra của $1,000$ lần thử này chắc chắn sẽ là một hình chuông.

Nếu tính trung bình của cả $1,000$ con số trung bình mẫu đó, kết quả sẽ cực kỳ gần với giá trị kỳ vọng thực $\mu$ của viên xúc sắc lệch.

Trong ví dụ này, $z$ chính là độ lệch chuẩn (standard deviations) mà ta cho phép giá trị trung bình mẫu $\bar{X}$ được quyền sai lệch với kỳ vọng thực thụ $\mu$ . Giả như ta đặt $z=1.96$ và thực hiện các bước:

Chuyển đổi mỗi kết quả trung bình mẫu ( $\bar{X}$ ) trong $1,000$ lần thử thành một giá trị $Z_n$ tương ứng: $\displaystyle Z_n = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}}$ .
Đếm số lần mà $Z_n \le 1.96$
Mong đợi: Ta sẽ thấy có khoảng $975$ lần (tương ứng 97.5%) kết quả rơi vào phía bên trái ngưỡng này.

Tóm lại, định lý giới hạn trung tâm cam đoan rằng khi $n$ tiến đến vô cùng, tỷ lệ thực nghiệm sẽ khớp hoàn toàn với con số mà tích phân Gauss ở vế phải tính ra.

Tích phân Gauss, Phân phối Gauss & Định lý Giới hạn Trung tâm

Tích phân Gauss (the Gaussian Integral)

Từ tích phân Gauss đến phân phối Gauss (Gaussian Distribution)

Định lý giới hạn trung tâm (Central Limit Theorem - CLT)

Demo

More from Fun Maths & Statistics

Comments