第五章:連續機率分布 (Continuous Probability Distributions)

Author

Prof. AI

Published

June 28, 2026

5.1 導言與連續型分布概念

同學們,在上一章我們學習了如何計算「可數的」離散事件機率。但是,在醫學與公衛實務中,我們測量的許多關鍵指標都是連續型的。

例如:

  • 新生兒的出生體重(可能從 1500g 到 4500g,可以是 3205.2g、3205.24g 等無限多個可能值)。
  • 患者服用退燒藥後的降溫時間。
  • 血液中某種抗原的濃度。

對於這些連續隨機變項 (continuous random variable),有一個非常奇特卻很重要的統計學常識: 「在連續隨機變項中,它剛好等於某一個精確數值的機率是 0。」

💡 教授的思考挑戰: 請問一個新生兒出生體重「剛好、精確地等於 3200.0000000000... 公克」的機率是多少? 因為體重可以用無限精細的秤來量,分母(可能數值)是無限大。任何數值除以無限大,答案就是 0。 因此,我們不能問 \(P(X = 3200)\)。我們必須改問一個區間機率,例如:「體重落在 3199 公克到 3201 公克之間的機率是多少?」或「體重低於 2500 公克的機率是多少?」

為了描述連續隨機變項的機率,我們不使用機率質量函數,而是使用機率密度函數 (probability density function, PDF,記作 \(f(x)\))。

  • 機率密度函數 (PDF):一條描繪數據分佈形狀的曲線。曲線下方在某個區間(例如 \(a\)\(b\))的面積,就代表變項落在該區間的機率: \[P(a \le X \le b) = \text{曲線在 } a \text{ 到 } b \text{ 之間的面積} = \int_a^b f(x) dx\] (別怕,我們不用手算微積分,R 會幫我們搞定!)

  • 累積分布函數 (cumulative distribution function, CDF,記作 \(F(x)\)):代表小於或等於某個數值 \(x\) 的累積機率: \[F(x) = P(X \le x)\]


5.2 常態分布:生物統計學的「帝王」

如果統計學界要舉辦一場選美比賽,那麼常態分布 (normal distribution) 絕對會以無爭議的高票奪冠。它是所有連續分布中最重要、最常用的一個,其外形就像是一口左右對稱的鐘,因此又被稱為鐘形曲線 (bell curve)。

5.2.1 常態分布的數學定義

如果一個連續隨機變項 \(X\) 服從常態分布,其平均值為 \(\mu\),標準差為 \(\sigma\),我們記作 \(X \sim N(\mu, \sigma^2)\)。它的 PDF 數學公式為:

\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

這個公式看起來很嚇人(裡面有圓周率 \(\pi\) 還有自然常數 \(e\)),但別慌!你只需要記住兩個控制它外貌的「遙控器」:

  1. 平均數 (\(\mu\)):控制這口鐘在 X 軸上的中心位置
  2. 標準差 (\(\sigma\)):控制這口鐘的胖瘦(離散程度)。標準差愈大,鐘就愈扁愈寬;標準差愈小,鐘就愈尖愈窄。

5.2.2 常態分布的經驗法則 (Empirical Rule)

不論常態分布的 \(\mu\)\(\sigma\) 是多少,它都遵守非常有名的 68-95-99.7 法則

  • 約有 68.3% 的數據,會落在平均數正負 1 個標準差之內(\(\mu \pm 1\sigma\))。
  • 約有 95.4%(臨床上常簡化為 95%)的數據,會落在平均數正負 2 個標準差之內(\(\mu \pm 2\sigma\),更精確地說是 \(\mu \pm 1.96\sigma\))。
  • 約有 99.7% 的數據,會落在平均數正負 3 個標準差之內(\(\mu \pm 3\sigma\))。
                |
             .-"'"-.
           .'   |   '. 
         .'     |     '. 
       .'       |       '.
     .'         |         '.
   .'   |       |       |   '.
  /     |       |       |     \
 |      |       |       |      |
-+------|-------|-------|------+--
       -1σ      μ      +1σ
        |<--- 68.3% --->|

5.3 標準常態分布與標準化

因為世界上有無限多種不同的常態分布(例如:新學員身高分布、收縮壓分布、血糖分布),我們不可能為每一種分布都去印一張機率表。

為了解決這個問題,統計學家把所有的常態分布通通「格式化」成一個標準規格——標準常態分布 (standard normal distribution)。

  • 標準常態分布 的平均數為 0,標準差為 1,通常用字母 \(Z\) 表示: \[Z \sim N(0, 1)\]

5.3.1 標準化公式:換算你的 Z 分數 (Z-score)

要把任何一個常態隨機變項 \(X\) 轉換成標準常態隨機變項 \(Z\),我們使用標準化 (standardization) 公式:

\[Z = \frac{X - \mu}{\sigma}\]

這個算出來的 \(Z\) 值,代表著「你的數值距離平均值有幾個標準差的距離」

  • 如果 \(Z = 1.5\),代表你的數值比平均值高出 1.5 個標準差。
  • 如果 \(Z = -0.8\),代表你的數值比平均值低了 0.8 個標準差。

👶 臨床案例: 假設足月新生兒的出生體重服從常態分布,平均值 \(\mu = 3200\)g,標準差 \(\sigma = 450\)g。 今天有一位小寶寶出生體重為 \(X = 2500\)g。請問他的體重標準化後的 \(Z\) 分數是多少? \[Z = \frac{2500 - 3200}{450} = \frac{-700}{450} \approx -1.56\] 這代表他的出生體重比全體平均低了 1.56 個標準差。


5.4 常態分布逼近與連續性修正

常態分布不僅能描述連續型數據,它還能作為離散分布(如二項分布、卜瓦松分布)在樣本數很大時的「超級替身」。

5.4.1 常態逼近二項分布

當二項分布 \(B(n, p)\) 的試驗次數 \(n\) 很大時,我們可以使用常態分布 \(N(np, np(1-p))\) 來估算機率。

  • 黃金適用條件\(np \ge 5\)\(n(1-p) \ge 5\)

5.4.2 連續性修正 (Continuity Correction)

當我們用一個連續的曲線(常態分布)去逼近離散的柱狀圖(二項分布)時,會遇到格子對不齊的狀況。

例如,二項分布中的 \(X=10\) 是一個寬度為 1 的長條(從 9.5 到 10.5)。如果我們直接用常態分布計算 \(P(X \ge 10)\),會漏掉 9.5 到 10 之間的那半個長條。

為了彌補這個空隙,我們必須進行連續性修正 (continuity correction):

  • 計算 \(P(X \ge k)\) 時,常態近似調整為 \(P(Y \ge k - 0.5)\)
  • 計算 \(P(X \le k)\) 時,常態近似調整為 \(P(Y \le k + 0.5)\)
  • 計算 \(P(X = k)\) 時,常態近似調整為 \(P(k - 0.5 \le Y \le k + 0.5)\) (其中 \(Y\) 是服從常態分布的隨機變項)

5.5 實戰演練:新生兒出生體重的常態分布與機率計算

現在,讓我們打開 RStudio,來計算剛才提到的新生兒出生體重機率,並利用 ggplot2 畫出一張非常漂亮且符合學術水準的常態分佈密度曲線,並將「低出生體重區」(小於 2500 公克)標記出來。

5.5.1 RStudio 操作說明

  1. 打開 RStudio。
  2. 點選左上角新建 R Script。
  3. 貼入以下程式碼並執行。

5.5.2 R 程式碼實作

# 1. 載入 ggplot2 繪圖套件
library(ggplot2)

# 2. 定義常態分佈參數(足月新生兒出生體重平均 3200g, 標準差 450g)
mu <- 3200
sigma <- 450

# 3. 使用 R 的 pnorm() 函數計算出生體重低於 2500g 的機率
# pnorm(q, mean, sd) 可以直接計算 P(X <= q) 的累積機率
prob_low <- pnorm(2500, mean = mu, sd = sigma)

cat("--- 新生兒出生體重分析結果 ---\n")
cat("出生體重低於 2500g (低出生體重) 的機率為:", round(prob_low * 100, 2), "%\n")
cat("-------------------------------\n")

# 4. 生成繪製常態曲線所需的 X 與 Y 座標數據
x_vals <- seq(mu - 4 * sigma, mu + 4 * sigma, length.out = 1000)
y_vals <- dnorm(x_vals, mean = mu, sd = sigma) # dnorm() 計算機率密度 PDF 值
df_norm <- data.frame(Weight = x_vals, Density = y_vals)

# 5. 篩選出低於 2500g 的區域數據以利塗色
df_shaded <- subset(df_norm, Weight < 2500)

# 6. 使用 ggplot2 繪製常態分布圖
p_norm <- ggplot(df_norm, aes(x = Weight, y = Density)) +
  geom_line(color = "#2b6cb0", linewidth = 1.2) +
  # 塗色低出生體重區域
  geom_area(data = df_shaded, aes(y = Density), fill = "#e53e3e", alpha = 0.5) +
  geom_vline(xintercept = 2500, linetype = "dashed", color = "#e53e3e", linewidth = 0.8) +
  # 加入圖表文字註解
  annotate("text", x = 2100, y = 0.0002, 
           label = paste0("低出生體重區\n(< 2500g)\n機率 = ", round(prob_low * 100, 2), "%"), 
           size = 6.2, color = "#9b2c2c", family = "Noto Sans CJK TC", fontface = "bold") +
  annotate("text", x = 3200, y = 0.0005, 
           label = paste0("正常分佈中心\n平均值 = ", mu, "g\n標準差 = ", sigma, "g"),
           size = 6.2, color = "#2d3748", family = "Noto Sans CJK TC") +
  labs(
    title = "新生兒出生體重之常態分布 (Normal Distribution)",
    subtitle = "呈現低出生體重界限與對應機率範圍",
    x = "出生體重 Birth Weight (grams)",
    y = "機率密度 Probability Density"
  ) +
  theme_minimal(base_family = "Noto Sans CJK TC", base_size = 15) + # Windows 請替換為 Microsoft JhengHei
  theme(
    plot.title = element_text(size = 22, hjust = 0.5, color = "#2d3748"),
    plot.subtitle = element_text(size = 16, hjust = 0.5, color = "#718096"),
    axis.title = element_text(size = 18, color = "#4a5568"),
    axis.title.x = element_text(margin = margin(t = 10)),
    axis.title.y = element_text(margin = margin(r = 12)),
    axis.text = element_text(size = 16, color = "#2d3748"),
    panel.background = element_rect(fill = "#f7fafc", color = NA),
    plot.background = element_rect(fill = "white", color = NA),
    plot.margin = margin(20, 28, 20, 54)
  )

# 顯示並儲存圖檔
print(p_norm)
ggsave("figs/normal_birthweight.png", plot = p_norm, width = 8.1, height = 5.4, dpi = 300)

5.5.3 統計圖表解讀

在 R 中執行程式後,控制台會輸出:

--- 新生兒出生體重分析結果 ---
出生體重低於 2500g (低出生體重) 的機率為: 5.99 %
------------------------------

同時,figs/ 資料夾下會生成以下圖表:

Figure 5.1: 新生兒出生體重常態分布

數據診斷分析:

  1. 機率臨床解讀:根據我們設定的常態分布模型,約有 5.99% 的新生兒出生時體重會低於 2500 公克(在臨床上被定義為低出生體重,low birth weight)。這說明了如果一家婦產科診所預期一個月有 200 位寶寶誕生,大約會有 12 位寶寶需要特別送入保溫箱觀察。
  2. Z分數對照:小於 2500g 對應的 \(Z\) 分數為 \(-1.56\)。查閱標準常態分佈表,我們同樣能得到 \(P(Z \le -1.56) \approx 0.0594\) 的結果,與 R 的精確計算高度契合。

5.6 本章名詞對照表 (Glossary)

中文名稱 英文名稱 定義與說明
機率密度函數 Probability density function (PDF) 描述連續型隨機變項在各點相對可能性的函數,曲線下面積代表機率。
累積分布函數 Cumulative distribution function (CDF) 隨機變項小於或等於某一特定數值之累積機率的函數。
常態分布 Normal distribution 統計學中最核心的對稱鐘形機率分布,由平均數與標準差決定其外觀。
標準常態分布 Standard normal distribution 平均數為 0 且標準差為 1 的特殊常態分布,常以 Z 表示。
經驗法則 Empirical rule 常態分布中,數據落在正負 1, 2, 3 個標準差範圍的比例法則 (68-95-99.7)。
標準化 Standardization 將一般常態分布隨機變項減去平均數後除以標準差,以轉換為 Z 分數的過程。
Z 分數 Z-score 代表某數值偏離平均數多少個標準差大小的數值。
連續性修正 Continuity correction 當用連續型分布(如常態分布)逼近離散型分布時,對邊界進行正負 0.5 調整的修正法。
常態逼近 Normal approximation 在特定條件(如大樣本)下,使用常態分布替代二項分布或卜瓦松分布進行計算的近似法。
低出生體重 Low birth weight (LBW) 嬰兒出生時體重低於 2500 公克的臨床定義。