2014年7月29日 星期二

異夫規律(Zipf’s law)




異夫的世界
英國《金融時報》中文網專欄作家 何帆
大學是養怪人的地方。異夫(George Kingsley Zipf, Zipf的發音是/zif/)就是一個怪人。他1902年出生於美國的一個德國移民家庭,到他是第三代移民。1924年,異夫在哈佛大學畢業,然後到德國留學。1929年,他拿到了哈佛大學比較文學博士學位,開始在哈佛教授德語。後來,他被聘為哈佛大學德語系系主任,同時擔任校聘講師University Lecturer),這意味著他想講什麼課就可以講什麼課。他除了講授德語,還鑽研漢語、人口學,但真正讓異夫教授青史留名的是,他發現了一個奇特的規律:異夫規律(Zipf’s law)。
20世紀40年代,威斯康辛大學的學者花了14個月的時間,把喬伊絲的名著《尤利西斯》從頭到尾列印在硬紙板上,然後把每一個詞都裁下來,相同的詞黏在同一張大紙上。經過這一番折騰,他們找出了喬伊絲使用的每個辭彙出現的頻率。這個發現引起了異夫的注意。他一眼看出,這裏面暗藏玄機。

在《尤利西斯》中,I出現的頻率排名第10,在全書中共出現了2653次。“say”出現的頻率排名第100,在全書中共出現了265次。“bag”出現的頻率排名第1000,在全書中共出現了26次。排名第10,000的是個生僻的詞:“orangefiery”,這個詞僅出現了兩次。
異夫發現,某個辭彙出現的序號和該詞出現的次數的乘積幾乎是一個常數。第10名出現的次數是第100名的10倍,第1000名的100倍,第10,000名的1000倍。以此類推,第2名出現的次數大約是第1名出現次數的1/2,第3名出現的次數大約是第1名出現次數的1/3後來,人們發現,在英語中使用次數最多的詞是“the”,第2名是“of”,第3名是“and”“the”出現的頻率為7%“of”出現的頻率恰好為3.5%異夫規律不僅僅適用于英文,其他語言,包括中文在內,都符合這一規律。
異夫教授還在其他的地方發現了這一規律。城市人口同樣符合異夫規律。根據1940年美國人口調查,人口最多的城市是紐約,當時有1200萬人,排名第10的是俄亥俄州的克利夫蘭(Cleveland),人口為120萬,排名100的是俄亥俄州的漢密爾頓(Hamilton),人口為11萬。同樣,一個城市的大小排序和其人口數量的乘積幾乎是個常數。異夫規律如今已經成了地理經濟學的秘密武器,它雄辯地指出,城市的擴大能夠帶來規模經濟。美國桑塔菲研究所(Santa Fe Institute)的物理學家Geoffrey West發現,如果城市的規模擴大一倍,創新的數量、人均工資水準都將提高15%,當然,愛滋病發病率、犯罪率同樣也會提高。不同的國家,比如美國和日本的城市化走過的道路相差極大,但殊途同歸,最後的結果都是這樣。克魯格曼在《地理與貿易》一書中就曾感歎,在社會科學中能夠被稱為規律的寥寥無幾,勉強能稱得上規律的,和現實世界擬合得也很不好,唯獨這個異夫規律,居然和現實世界幾乎擬合得天衣無縫。
為什麼會出現這一規律呢?按照異夫的解釋,這是因為最小努力法則principle of least effort)。人生來是懶惰的,能省事就省事。我們頻繁地使用有限幾個辭彙,是因為這樣不用太動腦筋。我們都願意住在大城市,是因為大城市裏生活舒適。異夫的這一觀點只是他自己的臆想。他並沒有給出嚴密的數學證明。從直覺來說,他的說法站不住腳。喬伊絲可不是一個懶惰的作家,他有意地炫耀自己的才華。具有冒險精神的年輕人才會到大城市,懶人很可能會選擇生活在小城市裏。
異夫規律的背後,揭示的是一種人類社會的內在秩序。早在異夫之前,義大利經濟學家帕累托就曾經指出,一個社會中,個人的財富排序和其擁有的財富數量之乘積幾乎是一個常數。第2名富翁的財富大約為第1名的1/2,第3名富翁的財富大約為第1名的1/3,以此類推。這意味著,富有的人極其富有且為數極少,貧窮的人一無所有且人數眾多。1906年,帕累托寫到,在義大利,20%的人口擁有80%的土地。這啟發了一位做管理諮詢的專家Richard Koch。他在1997年出版了一本暢銷書《80/20定律》,將帕累托的思想幾乎推廣到極致:80%的工作是由20%的人完成的(你我都在這20%之內);80%的利潤來自20%的客戶;80%的抱怨也來自20%的客戶;80%的電視觀眾只看20%的電視節目;80%的豔遇來自20%把妹達人,等等。
有意思的是,異夫規律“80/20定律不僅僅出現在人類社會中,在自然界裏也時常可見蹤影。帕累托自己發現,他花園裏80%的豆子來自20%的豆莢。異夫規律“80/20定律說的是同樣一件事情:即一個變數和另一個變數的冪成反比,這被稱為冪定律power laws)。冪定律無處不在:小的地震每時每刻都在發生,但我們幾乎感覺不到,大的地震發生的次數很少,但帶來的破壞力巨大。小的森林火災時有發生,但大多數時候會自生自滅,大的森林火災發生的次數很少,但一旦失控,有可能將整個森林燒掉。
這一切無法僅僅用最小努力法則來解釋。這一切很可能無法用經濟學家所熟悉的動機決定行為的理性選擇套路來解釋。統計學的正態分佈在這裏徹底失靈。正態分佈預言的是一個趨向中庸的社會:天才很少、傻瓜也很少,出現最多的是你我這樣的凡人。異夫規律則預言的是一個趨向極端的世界,少數壓倒多數,少數統治多數。
如何解釋異夫規律冪定律?有的學者看到了其中的隨機遊走,有的學者強調在演進過程中的積累,有的學者認為這代表了自然的常態,有的學者預言這意味著最後會出現革命。我們至今還無法找到一個統一的理論,解釋這種現象的內在動因。但是,就思想的探索而言,異夫規律告訴我們,在我們熟悉的經濟學世界之外,還存在著很多平行宇宙。
【作者注】本文參考了Alex Bellos, Through the Looking-glass: How Life reflects numbers and numbers reflect life. 這是一本關於數學的科普讀物;以及M. E. J. Newman (2005), “Power laws, Pareto distributions and Zipf's law”, Contemporary Physics, Sep/Oct 2005, Vol. 46 Issue 5, p323-351.
Zipf的主要著作包括1941年出版的National unity and disunity, 以及1949年出版的Human behavior and the principle of least effort. 亦可參閱:Richard Koch, The 80/20 principle: The secret of achieving more with less, Nicholas Brealey Publishing. 國內有多種中譯本。



2 則留言:

  1. 據經驗,地球上的定律碰到龍的傳人就會當機,不知道中國第一大城跟中國真正首富套上去合不合。

    回覆刪除

發表意見者,請留稱呼。用匿名不留稱呼者,一律自動刪除。