科學研究的確定和不確定
陳瑞麟/國立中正大學 哲學系暨研究所 講座教授
這一兩年來,有不少科學期刊刊出科學家和統計學家在反省 statistical significance 這個概念,這篇報導的標題宣稱要「擁抱不確定性」,好像帶來一種要拋棄「確定性科學」追求的印象?之前本版談過的柯林斯的《重力的幽靈》也宣稱說:追求確定性的牛頓力學是非典型的科學,因為當代科學大多數是使用統計數據來調查現象,尋求規律。如果當代科學確實大量依賴於統計方法、依賴於數據和資料(data),看重大量資料與數據(big data)內的潛在模式(pattern),重複的模式就成為規律。如此一來,當代科學是不是也要 say goodbye to certainty? 這問題值得作個研究,寫篇論文。
以下先作個初步思考:
先簡介一下所謂的statistical significance 和相關的p值概念。有興趣的朋友可以看我的《科學哲學:假設的推理》一書第四章。statistical significance 通常譯成「統計顯著性」,由於significance 也有重要性的意思,所以,也可以譯成「統計重要性」。通常是由p值(或用希臘字母來表達,臉書打不出來)來決定。它是指:在進行統計檢定(統計檢驗)時,根據檢驗過程中抽樣的樣本統計後得到的數字,掉到信賴區間之外(即出錯)的機率。如果p=5%,即是指一百次相同方法(但抽取的樣本不同)統計的結果,有95次會掉在信賴區間內,有5次會在信賴區間外。所以這裡有很大的不確定性,第一個是準確值的估計,要先估計一個準確值,但這只是估計,即假設。這個假設也是用抽樣統計來建立的。第二是信賴區間,一般可能是估計正確值的正負誤差構成的,如果容忍誤差是3%,那麼它的信賴區間的誤差範圍就有6%,即估計值上下各3%。最後是顯著性水準本身,一般常用的5%,當然可以更嚴格,但抽樣的樣本就要更大,也要耗費更多資源去作樣本的調查。
設計5%作為顯著性水準的門檻--或稱「閾值」--是長期經驗的結果,也是社會科學和生醫科學常用的。它的歷史來源,需要追溯,但我沒有去追溯過。可是,因為它太常用,導致一種錯覺,以為達到「顯著性水準」如p值小於5%,就算是「驗證」了假設。如大於5%,就算是否證了假設。例如,如果在藥物療物檢驗上,一次檢驗的結果,沒有達到小於5%的顯著性水準,就結論說該藥物是無效的,換言之,把p值當成一種「確定性」的指標,那就在科學推論上犯了很大的錯誤:完全忽略上段所說的三層不確定性!即使把顯著性水準提高,例如拉到1%,仍然一樣,上文所談的三層不確定性,依然存在。當然,它的不確定性程度會小很多。
因此,下列這篇報導的標題:say goodbye to “statistical significance,” 並不是 say goodbye to certainty 。而是要理解統計檢驗的指標p 值本身,是一種衡量「不確定性」程度的指標。
當代科學大量使用統計方法、使用統計檢驗是個事實。但是,這代表科學不再是追求「確定性」的一門事業了嗎?在我看來,答案是否定的。
對我來說,科學有很大的部分或者說很多科學分支,仍然在追求確定性,有確定性才有辦法作精準預測。特別是高度數學化的理論科學,還有很多以尋求機制mechanism 為目標的實驗科學(實驗物理,實驗化學,分子生物學等等)。
「確定性」是近代科學的目標,這個概念源自十七世紀的笛卡兒。他追求概念確定性,他相信「清晰自明」是概念確定性的一個判準。然而,「清晰自明」只能發生在很少的情況下--特別是數學計算、幾何證明和演繹邏輯的邏輯規則。近代科學的特色是引入數學到自然哲學中,特別是代數函數的演算(笛卡兒本身也有很大的貢獻),所以「邏輯確定性」和「數學確定性」是可得的。又笛卡兒主張一種機械主義(mechanism)的世界觀,實際上人為機械的操作也可以得到確定的結果(想想電腦程式)。
因此,有三種確定性,在科學研究中無所不在。
- 邏輯演繹推論的確定性。
- 使用數學函數的計算確定性。近代物理定律,從牛頓力學、電磁學理論到相對論都是如此,只有量子力學無法獲得數學函數的確定性。這也可稱作「限定論的確定性」(deterministic certainty)。
- 機械操作--即機制--的確定性。
科學的核心目標之一是尋求因果關係,也希望找到「因果確定性」--一個結果確定是某個或某種原因或某幾種固定的因素造成的。「因果確定性」可以由上述的2 和3 這兩種確定性來達成。但是,依賴統計的科學,很難找到「因果確定性」,這也是為什麼有時量子力學被說破壞了「因果性」--但這其實是量子力學顯示在量子世界中,因果確定性是無法達成的。這樣一來,當然也對「因果」的尋求製造了一些麻煩:根據我們的「因果」概念,如果「A cause B」不能是確定的,即「A和B之間沒有因果確定性」,那麼,究竟該不該說「A 是B 的原因」?
對很多複雜現象而言,找出一個數學函數來表達其規律性很困難,對當代科學而言,幾乎是個不可能的任務。但是,機制的確定性仍然是一個可以達成的目標。而且,機制的確定性也意謂我們可以控制這個機制--它的風險大幅降低。
當代分子生物學和很多生物實驗科學並不依賴統計,而是尋求機制mechanism,如果可以找到現象的機制或因果機制,那麼結論可以是確定的。但是,仍然有很多依賴於統計學的學科——族群遺傳學,公共衛生學——要研究一個群體的特定現象,要使用統計來處理大量的樣本,這時得到的數值很難避免不確定性。還有,在嘗試找出因果關係時,第一步也常是找統計相關性,但即使高統計相關,是否有因果關係仍然很不確定。統計相關性指示某種規律性,但是,這種規律是偶然的?或者是其真正由於某種因果關係造成的?分辨這兩者「偶然的規律」和「真正的因果」(確定性)仍然是科學的重要任務。
在我所知的不少物理,化學和分子生物學實驗中,針對統計相關性指示的規律性,進一步設計實驗,尋找其底層的可能機制,是更深的追求目標。找到機制,那麼因果關係就可以朝向確定性的目標前進了。因此,科學並未告別確定性。雖然有另一種更棘手的不確定問題——即多因性的問題。
一個初步的結論是:statistical significance 是一種「偽確定性」,拋棄這個概念不是拋棄p 值,但是 p 值的內具不確定性,必須被牢記。再者,機制和因果機制則是確定的,仍然是許多科學追求的目標。
授權刊登,原文發於 〈陳瑞麟的科哲絮語〉
參考資料 Time to say goodbye to “statistically significant” and embrace uncertainty, say statisticians