Tích phân Gauss, hay còn gọi là tích phân Euler-Poisson, là một trong những tích phân nổi tiếng và quan trọng nhất trong lịch sử toán học. Nó là giá trị diện tích bên dưới đường cong hình chuông trên toàn bộ trục số.
Công thức tổng quát:
Điều làm nên sự thú vị là chúng ta đang lấy tích phân của một hàm số mũ chứa , nhưng kết quả lại trả về một con số liên quan đến hình tròn là . Điều này cho thấy mối liên hệ sâu sắc giữa hàm mũ và hình học không gian.
Ta có một chứng minh tuyệt hay về công thức này như sau:
Gọi , lúc đó ta có:
Áp dụng định lý Fubini để đưa về dạng tích phân kép:
Chuyển sang tọa độ cực:
Vậy .
Ta bắt đầu tính tích phân kép bằng cách tính tích phân bên trong theo .
Đặt , ta có
Thay ngược vào trong tích phân kép ta có:
Từ đó suy ra
Đồ thị của hàm số là một hình chuông đối xứng, giảm nhanh về . Để ép nó trở thành một hàm mật độ xác suất (Probability Density Function - PDF), nó phải thỏa điều kiện tiên quyết: Tổng diện tích dưới đường cong phải bằng 1. Ta chuẩn hóa tích phân Gauss bằng cách chia nó cho . Lúc đó công thức trở thành:
Nếu chỉ có hàm , hình chuông là cố định. Trong thực tế, có những tập dữ liệu tập trung rất sát vào trung tâm (chuông cao và gầy), có những tập dữ liệu lại phân tán rất rộng (chuông thấp và béo). Để điều chỉnh độ rộng này, ta đưa thêm vào một giá trị , ta thực hiện phép biến đổi biến số :
Khi lớn: Giá trị bị "chia nhỏ" đi, khiến hàm số giảm chậm hơn Chuông rộng ra.
Khi nhỏ: Giá trị bị "phóng đại" lên, khiến hàm số giảm cực nhanh Chuông hẹp lại.
Để đảm bảo hầm mật độ bằng , với tham số vừa thêm vào ta phải điều chỉnh tích phân của hàm mật độ lại. Ta có:
Như vậy, công thức tích phân của hàm mật độ điều chỉnh lại là:
Lúc này, ta sẽ có đồ thị của hàm số trên là một đồ thị hình chuông đối xứng qua trục tung (). rong mô hình này, dữ liệu tập trung dày đặc nhất quanh gốc tọa độ, nghĩa là giá trị trung bình (kỳ vọng) đang mặc định bằng . Tuy nhiên, thế giới thực không vận hành đơn giản như vậy. Điểm hội tụ của dữ liệu—chẳng hạn như chiều cao trung bình hay nhiệt độ hằng ngày có thể nằm ở bất kỳ đâu trên trục số. Để đưa đồ thị này tới đúng vị trí trung bình thực tế , ta thực hiện một phép tịnh tiến đồ thị bằng cách thay thế bằng . Lúc đó tích phân hàm mật độ trở thành:
Để ý rằng việc thay thành chỉ đơn giản là phép dời hình, thành ra diện tích không đổi, đó là lý do tại sao tích phân vẫn bảo toàn bằng .
Đến đây, chúng ta đã có một hàm mật độ xác suất hình chuông chuẩn hóa với tâm tại và độ rộng tỉ lệ với . Tuy nhiên, có một vấn đề nhỏ về sự đồng nhất trong thống kê đó là trong thống kê mô tả, phương sai () được định nghĩa là giá trị trung bình của bình phương sai lệch cần phải bằng . Tuy nhiên, hiện tại nếu chúng ta dùng hàm mật độ dựa trên mẫu số là như hiện tại để tính phương sai theo công thức:
Thay vào ta có:
Đặt , khi đó:
Thay vào:
Ta cần tính . Tách và sử dụng tích phân từng phần:
Đặt
Đặt
Áp dụng công thức :
Thành phần thứ nhất: (vì hàm mũ giảm nhanh hơn biến tuyến tính ).
Thành phần thứ hai: . Đây chính là tích phân Gauss mà ta đã biết kết quả là .
Vậy . Thay ngược lại vào biểu thức phương sai:
Kết quả này cho thấy nếu giữ nguyên công thức , thì tham số trong hàm mũ không đại diện hoàn toàn cho phương sai thực tế, mà nó bị lệch đi một hệ số . Để "chuẩn hóa" sao cho tham số ta viết trong công thức () trùng khít với giá trị phương sai đo được từ dữ liệu, ta thực hiện điều chỉnh:
Thay mẫu số trong hàm mũ thành .
Lúc đó, tích phân trên sẽ triệt tiêu số và cho ra kết quả .
Cuối cùng ta có công thức hàm mật độ xác suất của phân phối Gauss như đã biết:
Công thức Gaussian được chuẩn hóa (Standardization) về một kích thước duy nhất có trung bình bằng và phương sai bằng để trở thành phân phối chuẩn tắc (Standard Normal Distribution).
Biến đổi Z (Z-score)
Giả sử ta có biến ngẫu nhiên . Ta định nghĩa một biến mới :
Phép biến đổi này có ý nghĩa cực kỳ trực quan:
: Tịnh tiến đồ thị về gốc tọa độ (như chúng ta đã bàn về việc đưa vào trước đó).
Chia cho : Co dãn đồ thị sao cho độ lệch chuẩn của nó đúng bằng .
Hàm mật độ chuẩn tắc
Khi thực hiện phép đổi biến này vào công thức Gaussian tổng quát, ta thu được hàm mật độ của (thường ký hiệu là ):
Lúc này, con số và hiện ra một cách thanh khiết nhất, không còn bị vướng bận bởi các tham số cụ thể của từng bộ dữ liệu.
Xét một chuỗi các biến ngẫu nhiên độc lập và có cùng phân phối (i.i.d) với kỳ vọng hữu hạn và phương sai hữu hạn .
Gọi là trung bình mẫu:
Khi đó, khi , biến ngẫu nhiên chuẩn hóa sẽ hội tụ về phân phối chuẩn tắc theo phân phối:
Nói cách khác, hàm phân phối tích lũy của sẽ tiến tới hàm phân phối tích lũy của :
Công thức trên nghĩa là gì?
Hãy coi là một ngưỡng (threshold) mà bạn đặt ra trên trục số. Nó là một con số cố định (ví dụ hoặc ). Lúc đó là một biến cố với mô tả trạng thái của giá trị trung bình mẫu sau khi đã được chuẩn hóa rơi vào khoảng . là khả năng (xác suất) để biến cố đó xảy ra. Lúc đó, khi tiến đến vô cùng () xác suất sẽ hội tụ về giá trị của hàm phân phối tích lũy chuẩn tắc . Cụ thể:
Điều này khẳng định rằng hình dạng của phân phối xác suất của sẽ dần khớp khít với hàm mật độ Gaussian chuẩn tắc.
Để ý rằng vế phải của công thức hoàn toàn không chứa bất kỳ tham số nào của dữ liệu ban đầu (như hình dạng phân phối , độ lệch hay độ nhọn). Điều này cho phép ta tính toán xác suất của trung bình mẫu mà không cần biết phân phối cụ thể của quần thể, miễn là đủ lớn để tiệm cận giới hạn vô cùng. Ngưỡng đóng vai trò là biên trên của tích phân. Giá trị xác suất thu được chính là diện tích miền bên dưới đường cong tính từ đến điểm , ta đang quét qua các mức độ tin cậy khác nhau của giá trị trung bình mẫu.
Trong thực tế, với đủ lớn (thường là ), ta sử dụng luôn giá trị của vế phải này để thay thế cho thực tế, tạo tiền đề cho các phép kiểm định giả thuyết và tính toán khoảng tin cậy trong thống kê.
Ví dụ: Viên xúc sắc không cân bằng
Giả sử ta có một viên xúc sắc bị lỗi (không cân bằng). Xác suất xuất hiện của các mặt từ đến không phải là mà là một tập hợp các giá trị bất kỳ, miễn là . Phân phối gốc này có thể cực kỳ lệch (ví dụ: xác suất ra mặt rất cao, còn mặt rất thấp). Tuy nhiên, viên xúc sắc này vẫn có một giá trị kỳ vọng (trung bình) xác định là và một phương sai xác định là . Quy trình thực nghiệm:
Lấy mẫu: Ta tung viên xúc sắc này lần (ví dụ ). Đây là một lần thử nghiệm.
Tính toán: Tính giá trị trung bình cộng của lần tung đó.
Lặp lại: Thực hiện lại toàn bộ quy trình trên nhiều lần (ví dụ lần thử nghiệm).
Sau đó, ta vẽ một biểu đồ tần suất (histogram) cho giá trị trung bình mẫu ta sẽ quan sát thấy:
Với nhỏ (ví dụ hoặc ): Biểu đồ có thể vẫn còn trông hơi giống phân phối lệch của viên xúc sắc gốc.
Với lớn (thường ): Biểu đồ sẽ bắt đầu có hình dạng đối xứng, cao ở giữa và thấp dần về hai phía. Dù viên xúc sắc có lệch đến mức nào ở đầu vào, đầu ra của lần thử này chắc chắn sẽ là một hình chuông.
Nếu tính trung bình của cả con số trung bình mẫu đó, kết quả sẽ cực kỳ gần với giá trị kỳ vọng thực của viên xúc sắc lệch.
Trong ví dụ này, chính là độ lệch chuẩn (standard deviations) mà ta cho phép giá trị trung bình mẫu được quyền sai lệch với kỳ vọng thực thụ . Giả như ta đặt và thực hiện các bước:
Chuyển đổi mỗi kết quả trung bình mẫu () trong lần thử thành một giá trị tương ứng: .
Đếm số lần mà
Mong đợi: Ta sẽ thấy có khoảng lần (tương ứng 97.5%) kết quả rơi vào phía bên trái ngưỡng này.
Tóm lại, định lý giới hạn trung tâm cam đoan rằng khi tiến đến vô cùng, tỷ lệ thực nghiệm sẽ khớp hoàn toàn với con số mà tích phân Gauss ở vế phải tính ra.
No comments yet. Be the first to comment!