名人推薦:
推薦人
曾志朗/前教育部長
白明奇/成大醫學院神經學教授兼老年學研究所所長
特別收錄 / 編輯的話:
機械的挑戰(The Challenge of Machines)
今天,人類的智慧面臨新的挑戰:我們不再是學習的冠軍了。在所有的知識領域,學習法則正在挑戰人類,它可能不再是人類所獨有、獨享的了。現在手機可以辨識面孔和聲音、轉錄演講、翻譯外國語言、控制機器,甚至下西洋棋和圍棋——做的比我們更好,**機器學習(machine learning)**已經變成億萬元的工業,而且還繼續不斷被我們的大腦研發。這些人造演算法則(artificial algorithms)是怎麼運作的?它們的原則可以幫助我們了解學習是什麼嗎?它們是否已經可以模擬我們的大腦,還是在這一點上它們還差得遠?
雖然目前電腦科學的進步令人驚艷,但是它們的上限是很清楚的,目前市面上**深度學習(deep learning)**的法則只是模擬大腦的一小部分而已,我認為只學到我們感覺處理的第一階段,即我們大腦在訊息進來的最初二百或三百毫秒的潛意識歷程。這種處理方式並不是膚淺虛假的處理,在這麼短的時間之內,我們的大腦可以辨識面孔或文字,把它放進情境中,得出意義,甚至可以將之組合成一個短的句子,它的缺點是這個歷程完全是由下而上(bottom-up),沒有任何反思的機會(譯註:因為訊息處理的時間太短),只有在後續的階段,因為速度比較慢了,意識和反思才有機會進來,這時大腦才有機會去發展它的推理、推論和彈性能力——今日的機器還遠遠追不上這些能力。即使最先進的電腦還是比嬰兒建構抽象的外面世界模式的能力差許多。
即使在電腦的專長領域中——例如快速的辨識形狀——現代的演算法則碰到第二個問題:它比我們的大腦效率差。機器學習需要跑幾千百萬次的訓練嘗試。現在機器學習幾乎等於大數據的同義詞了。如果沒有很大的數據來支持,它的演算法則很難去抽取抽象知識再把它應用到新的情境去。換句話說,它們沒有辦法充份利用數據。
在這場比賽中,嬰兒輕而易舉的贏過機器:嬰兒只需要一、二次的重複就能學會一個新字。他們的大腦只要一點點數據就可以學會,這個能力今天的電腦還是沒有辦法,神經元的學習法則通常非常接近最佳的計算:它們可以從最少的觀察中得出重點,假如電腦科學家想叫電腦做出同樣的表現,他們必須借鏡許多學習的技巧,如注意力。注意力使我們選擇相關的資訊,並把它放大;或是睡眠時,我們大腦綜合整理前幾天所學的東西。現在有這些特質的新機器已經開始出現,它們的表現一直在進步中——無疑地,在不久的將來,它們會跟我們的大腦競爭。
我們的大腦為什麼還是比機器強?有一個新的理論認為,是因為大腦是個統計學家,它不停地關注機率和不確定性。它把它的能力發揮到極致來學習。在演化的過程上,我們的大腦學會了一些非常好的法則,使它可以不停追蹤以前學過的東西的不確定性——在數學上來說,這個系統化的注意機率,就是充分利用每一點訊息的最好方法。
最近的實驗數據支持了這個假設,一出生的嬰兒就了解機率,這個了解似乎深植在他們大腦的神經回路中。孩子就像個小小科學家,他們的大腦裡有許多假設,專門用來測試平日經驗的科學假設,用機率來推理基本上是一個潛意識的歷程(我們並不覺得自己在推理),但是這個方法深植在我們學習的邏輯中。它使我們慢慢去拒絕錯誤的假設,只留下可以解釋數據的理論。人類跟別種動物不同,人類可以用這種機率的敏感度去得出外面世界的科學理論。只有智人可以系統化的得出抽象思維的符號,去更新他們對新接觸事物的可能解釋法則。
現在新的電腦法則也開始加入貝氏定理(Bayesian)這個新的學習方法——湯瑪士.貝葉斯(Thomas Bayes,一七○二—一七六一)在十八世紀初奠定了這個理論的基礎。我認為貝氏法則會革命機器的學習——的確,它們已經可以像人類科學家一樣有效率的抽取抽象資訊來了。
現代學習科學的旅程包括三個部分:
在第一部分,〈學習是什麼?〉(What Is Learning?)我們從學習對人類和動物的意義是什麼開始,討論學習時的法則或機器,因為學習就是逐漸形成外在世界的內在模式,不論它是在矽(silicon)或是神經迴路上。當我去到一個新的城鎮時,我會在腦海中形成一個心智地圖——這個城市弄巷街道的小型模型。同樣的,一個孩子在學騎自行車時,他也是在他腦海中,模擬腳要怎麼踩、手要怎麼握龍頭才能維持自行車的平衡。電腦的人臉辨識法則也是先得出眼睛、鼻子、嘴巴的各種形狀和它們的組合,把它形成一個模型模板(template)。
但是我們怎樣能結構出一個合適的心智模式?我們下面會看到,學習者的心智可以連接到一個巨大的機器,上面有幾百萬個可以翻轉的參數,這些參數集合起來就是我們過去已經學會的各種知識。例如,住家附近街道在我們心智地圖中是什麼樣子。在大腦中,這些參數就是我們的突觸(synapses),它是兩個神經元之間的連接,每個連接的強度不同。在最新一代的電腦中,它們是可以改變的加權(weights),或是說,兩個可能假設之間強度的機率。在人類大腦和機器的學習中,學習需要找出這些參數的最佳組合,全部加在一起,界定出心智模式的每一個細節。所以,就這一點來說,學習是一個大量搜索的問題——為了要了解人類大腦是如何學習,我們需要檢視一下現代的電腦是如何運用學習的法則。
當我們比較電腦和人腦運算法則的表現,也就是說,在矽 vs. 細胞(in silico versus in vivo),我們進一步可以知道學習在大腦層次是什麼意思。當然,數學家和電腦科學家還沒有設計出一個像人類大腦那樣強有力的學習法則,但是他們已經開始聚焦到任何系統都可以用的最佳學習法則。假如這個電腦的目的地是達到最大效率的話。根據這個理論,最好的學習者是像科學家一樣,理性的去運用機率和統計的知識。一個新的模式出現了:大腦就像個統計學家,用機率去計算皮質的電路。這個理論很清楚的劃分先天和後天:基因先設定先前假設(a priori hypotheses)的廣大空間——環境,然後選擇最能符合外面世界的假設。這種假設是在基因上就規範的很清楚,選擇權屬於後天的經驗。
那麼,這個假設符合大腦的運作嗎?學習又是如何在我我們大腦的神經迴路上實現?當我們學會一個新的技能或知識時,大腦有什麼改變?我在第二部分〈我們的大腦如何學習〉(How Our Brain Learns)中,會用心理學和神經科學來回答這些問題。我會聚焦在在嬰兒身上,因為他們是真正的學習機器,沒有人比得上。最近的實驗資料顯示,嬰兒的確是如這個理論所預測的,他們是正在長大的統計學家。他們在語言、幾何、數字和統計上的直覺,推翻了過去認為他們是一張白板(a tabula rasa)的說法。嬰兒一生下來,他們的大腦迴路就已經組織好了,可以投射假設到外面的世界去,但是他們同時也有極大的可塑性,這個從大腦突觸永遠都有改變的可能性上可以得之。在這個統計的機械中,先天和後天不是對立的,而是相輔相成的。這個結果就是既有結構又能改變的空間,假如大腦受傷了,它有能力去修補它,它也可以把不再用的神經迴路回收去學習新的技能,例如閱讀和算術,因為演化所賦予的挑戰常常是不可預測的。
在第三部分〈學習的四大支柱〉(The Four Pillars of Learning)中,我會詳細列出為什麼大腦是到現在為止有效率的學習設備。四根支柱就是四個重要的機制,使我們可以學習。
第一根支柱是注意力:這是一組神經電路,它選擇、放大、複製我們認為有關的訊號——這些訊號在我們的記憶是放大了一百倍在運作的。
第二根支柱是主動參與:一個有機體若是被動,基本上學不到任何東西,因為學習需要主動去得出假設,而這個主動需要機動和好奇。
第三根支柱是錯誤回饋:它正好是主動參與的反面。當這個世界違反我們的預期時,我們會驚訝,這時錯誤的訊號會傳遍大腦。它會校正我們的心智模式,刪除不恰當的假設,並穩住最正確的假設。
最後,第四根支柱是固化:透過時間的流逝,我們大腦彙整已經學會的東西,把它轉存到長期記憶中,釋放出神經資源以備未來的學習。複誦在這個固化歷程中,扮演著重要的角色。甚至睡眠也很重要,因為大腦在這個時候,會把過去的事翻出來,快速看過一次,把白天學到的知識重新登錄。睡眠絕對不是像過去以為的是大腦在休息,是靜止沒有動作。睡眠其實是學習很重要的一個關鍵。
這四根支柱有普遍性,嬰兒、孩子、大人在學習時,都用到它們。這是為什麼我們需要把這四個能力操到很熟練——這就是我們可以學習的原因。最後,在總結時,我會討論該怎麼應用這些科學的進步。改變學校的教學法、改變家庭、改變職場其實是不必要的,只要讓孩子有時間去遊戲、滿足他的好奇心、使他社會化、能集中注意力去學習和有充足的睡眠就可以增加我們大腦本來已經有的最大才能:學習。





