Скачать презентацию 資料庫研究與統計方法學 因果推論新思維 反事實分析架構 A New Paradigm for

03433307625b2391a3db8e1ed2b1261e.ppt

• Количество слайдов: 103

Statistical Relations vs. Causal Relations • Statistical dependence may reflect ▫ Random fluctuation (c. i. & p-value) ▫ X caused Y ▫ Y caused X (temporal order; longitudinal data) ▫ X and Y share a common cause (covariate adjustment) ▫ Association between X and is induced by conditioning on a common effect of X and Y (selection bias; collider bias) 資料庫研究與統計方法學 1 06. 09. 06

Pearl’s Back-door Criterion • If one or more back-door paths connects the causal variable to the outcome variable, Pearl shows that the causal effect is identified by conditioning on a set of variables Z if and only if all back-door paths between the causal variable and the outcome variable are blocked after conditioning on Z. 資料庫研究與統計方法學 1 06. 09. 06

Pearl’s Back-door Criterion • A back-door path of D and Y is blocked by Z if and only if the back-door path satisfies any one of the following: ▫ contains a chain of mediation A → Z → B, or ▫ contains a fork of mutual dependence A ← Z → B; ▫ contains an inverted fork of mutual causation A → C* ← B, where C* and all its descendants are not in Z. 資料庫研究與統計方法學 1 06. 09. 06

Pearl’s Back-door Criterion (continued) • 從 Pearl 的 Back-door Criterion 來看，並不是控 制越多變項就好，因為要是控制了 colliders 反 而會有問題，因為本來 X與Ｙ沒有相關或因果 關係的，控制這類變項後，反而會產生相關。 • Example ▫ 如果 collider是申請入學時是否被一所菁英學校 接受（ adm: 1 -接受； 0 -拒絕） ▫ 是否被接受是根據兩個獨立變項： SAT及面試時 對動機的評估 (Motivation) ▫ 因此： adm 是的兩個 causes 是 SAT 及 Motivation， 而 SAT 及 Motivation 間是獨立的。 資料庫研究與統計方法學 1 06. 09. 06

Example of controlling a collider 資料庫研究與統計方法學 1 06. 09. 06

Example of controlling a collider 資料庫研究與統計方法學 1 06. 09. 06

Example of controlling a collider 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • 反事實因果推論的想像 Potential Outcomes Group Y 1 Treatment group (D = 1) Control group (D = 0) 資料庫研究與統計方法學 Y 0 Observable Counterfactual Observable 1 06. 09. 06

The Counterfactual Framework • 反事實分析架構的想像可看成是一種thought experiment。 • 要想像的是同一個個體或群體在不同的狀態下， 會有什麼可能的結果（potential outcomes）。 • 這些可能結果間的差異，即為不同狀態（因）的 效果。 • Counterfactuals should be reasonable ! 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework Q：什麼是unreasonable 的 counterfactuals 呢 ？ ▫ 有什麼狀態不適合看成為 causes 的 嗎？ ▫ 有什麼樣的結果不適合想像 counterfactual情況的嗎？ 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • 個人層次的真正因果效應： δi = Y i 1 ─ Y i 0 • The Fundamental Problem of Causal Inference：無法觀察同一個人同時在實驗組及 控制組。 • 加上一些假定，如 SUTVA，則可推估群層次 的因果效應。 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • SUTVA：The Stable Unit Treatment Value Assumption – a priori assumption that the value of Y for unit u when exposed to treatment t will be the same no matter what mechanism is used to assign treatment t to unit u and no matter what treatments the other units receive. 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • 實驗設計是假設我們能夠將觀察到的替代無法觀 察到的。 • 如隨機分派到實驗組與控制組的個體的特性相同， 則我們可以假定： ▫ 如果實驗組的個人沒有接受treatment的話，其 結果與控制組觀察到的相同； ▫ 如果控制組的個人接受treatment的話，其結果 與實驗組觀察到的相同。 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • 當使用調查方法得到資料時，即observational data，個人為何會接受或不接受treatment， 往往不是一個隨機的現象。 • Observational data通常有兩個問題： ▫ 接受treatment者與不接受者有baseline differences，以及heterogeneity of treatment effect. ▫ 可能有些影響接受treatment與否的變項，並未 觀察到，亦即omitted variables的問題。 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework Potential Outcomes Group Y 1 Treatment group (D = 1) Control group (D = 0) 資料庫研究與統計方法學 Y 0 Observable E[Y 1 | D = 1] Counterfactual Observable E[Y 1 | D = 0] E[Y 0 | D = 1] 1 06. 09. 06

The Counterfactual Framework • 以反事實架構的觀點來看，母群體層次的真正因果 效應（ATE；Average Treatment Effect）為： • E[δ] = E[Y 1 – Y 0] = E[Y 1] – E[Y 0] = {πE[Y 1 | D = 1] + (1 – π) E[Y 1 | D = 0]} – {πE[Y 0 | D = 1] + (1 – π) E[Y 0 | D = 0]} = π{E[Y 1 | D = 1] – E[Y 0 | D = 1] } + (1 – π) {E[Y 1 | D = 0] – E[Y 0 | D = 0] } = πE[δ| D = 1] + (1 – π) E[δ | D = 0] 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • π：母群體中接受 treatment 的比例 • 不同組的因果效應： ▫ ATT（Average Treatment Effect on the Treated）: E[Y 1 |D = 1] – E[Y 0|D = 1] ，即 E[δ| D = 1] ▫ ATU（Average Treatment Effect on the Untreated）: E[Y 1 |D = 0] – E[Y 0|D = 0] ，即 E[δ | D = 0] Q：我們可以假定不同組的人有同樣的因果效應嗎？ 如果我們能夠做此假定的話，則 E[Y 1 |D = 0] = E[Y 1 |D = 1] 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework • 基準線的差異： E[Y 0 |D = 1] – E[Y 0|D = 0] Q：我們可以假定不同組的人在未接受 treatment 前 是一樣的嗎？ 如果我們能夠做此假定的話，則 E[Y 0 |D = 1] = E[Y 0|D = 0] 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework 如果我們只以觀察到接受 treatment 的組與觀察到未接 受 treatment 的組之間的差異做為 Causal Effect 的估計 時，此估計是一種 Naïve Estimate： Naïve Estimate = average causal effect + baseline bias + differential effect bias 資料庫研究與統計方法學 E[Y 1 |D = 1] – E[Y 0|D = 0] = E(δ) + {E(Y 0|D=1) − E(Y 0|D=0)} +{E(δ |D=1) − E(δ |D=0)} (1−π) 1 06. 09. 06

The Counterfactual Framework: A Review 反事實分析架構的五個關鍵概念： • Potential/Hypothetical States & Outcomes: ▫ 因果效應（causal effect）是利用 “potential” 或 “hypothetical”的概念，而不是只用到 actual observations。. • The ceteris paribus condition ▫ 其他條件相同的條件下，也就是將其他因素控制成 等同（equal）、固定不變（fixed）或是constant。 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework: A Review • Heterogeneity: ▫ 個人對於treatment的反應是因人而異的。亦即因果效應在 個人層次即被認定是有差異的。每個人的因果效應是： [potential outcome under the potential treatment state] ─ [potential outcome under the potential control state] • Fundamental Problem of Causal Inference: ▫ 由於 the counterfactual definition of causal effect 意涵著 評估個人層次的因果效應會有 missing data 的問題。但是 如果我們願意做一些假定的話，我們可以評估幾種 Average Causal Effects。 資料庫研究與統計方法學 1 06. 09. 06

The Counterfactual Framework: A Review • Basic Parameters of Interest: ▫ ATT: Average Treatment effect on the Treated ▫ ATU: Average Treatment effect on the Untreated ▫ ATE: Average Treatment Effect ▫ the most basic one is ATT, and there are other meaningful causal parameters of interest than these three. 資料庫研究與統計方法學 1 06. 09. 06

OLS迴歸分析的問題 • 一般多元OLS迴歸分析，是一種ATE的估計，其 作法假定其控制足夠的共變項後，可以消除基準 線差異，並假定接受 treatment 者的因果效應與 未接受者相同。這些假定合理嗎？ • OLS迴歸分析通常無法克服自我選擇的問題。 • OLS 迴歸分析可能將接受 treatment 及沒接受 treatment 兩組中無法比較的人納入分析。如果 兩組人的特性（基準線）相當不同，則 OLS的推 估會有大問題，因為其無法比較的部份是以 imputation 的方式來推估。 資料庫研究與統計方法學 1 06. 09. 06

Propensity Score Matching（PSM） • 假定：如果接受及不接受 treatment 兩種人的差異 能夠被一組共變項（Z）完美解釋，那麼我們就可 以用這些共變項進行分層配對，使得每層內有兩 種人：接受者及不接受者，且這些人在各層中唯 一的不同是他們是否接受 treatment。然後，我們 觀察這兩種人在 outcome 的差異為何。我們再進 一步將各分層的差異，以及分層所佔的比例做適 當加權，則可得到好的ATE，ATT，ATU 的估計。 資料庫研究與統計方法學 1 06. 09. 06

Propensity Score Matching（PSM） • (Y 1 , Y 0 ) ╨ D | Z • 實際上如果有許多共變項時，配對過程很麻煩， 且在樣本有限的情況下，有些分層會沒有個案。 Paul Rosenbaum及Donald Rubin在一系列的論 文中，證明用所謂的「傾向分數」（propensity score）將是否會接受視為一種機率，然後以此 分數來從事分層配對是可行的。 資料庫研究與統計方法學 1 06. 09. 06

Propensity Score Matching（PSM） • 如何得到傾向分數？ ▫ 找到有意義可解釋是否會接受 treatment 的共變項， 然後做Logit 或 Probit 迴歸，應變項為是否接受 treatment。 • 根據傾向分數將接受者及不接受者進行配對，並 找到 common support。在 common support 的樣 本中，兩組人的分配是 balanced（檢視matching quality）。 資料庫研究與統計方法學 1 06. 09. 06

Propensity Score Matching（PSM） • 實際從事PSM的運算方法有四大類： ▫ ▫ Exact Matching Nearest Neighbor Matching Interval Matching Kernel Matching • 不同運算方法的差異： With or without replacement How many units to match 資料庫研究與統計方法學 1 06. 09. 06

Propensity Score Matching（PSM） • 選擇不同運算法的兩難 ▫ 要能 maximize 精準的配對（如用 strictly “nearest” or common-support region）， 可能會有比較多的 樣本個案會被排除於分析之外。 ▫ 要能包括比較多的配對樣本個案 （如擴大配對的範 圍），就會有比較多不精準的配對。 • 用bootstrapping方式求得PSM估計值的 standard errors 資料庫研究與統計方法學 1 06. 09. 06

Propensity Score Matching（PSM） • 實際可從事PSM的程式： ▫ Stata: psmatch 2 等 ▫ SPSS: SPSS Macro for Propensity Score Matching (http: //ssw. unc. edu/VRC/Lectures/index. htm) ▫ SAS: “GREEDY” Macro (http: //www 2. sas. com/proceedings/sugi 26/proceed. p df) ▫ R: “Match. It” (http: //gking. harvard. edu/matchit/) 資料庫研究與統計方法學 1 06. 09. 06

PSM其他限制 • 通常需要大樣本。 • Treat group 與 Control group 配對後應該有足夠 的重疊。 • 即使是以觀察到的變項進行配對，仍可能有 hidden bias 。 資料庫研究與統計方法學 1 06. 09. 06