搜尋此網誌

2011年12月21日 星期三

你所不知道的線上大合作

相信大部份的人都有在網站上輸入驗證碼的經驗,使用者會被要求輸入像圖片中這種歪歪曲曲的數字或字母,這個叫做CAPTCHA,它是Completely Automated Public Turing test to tell Computers and Humans Apart的縮寫,是一種全自動區分電腦與人類的圖靈測試。目的是防止有人利用電腦程式大量在留言板上張貼廣告或其他垃圾訊息,甚至有些線上訂票系統為了防止黃牛利用電腦程大量訂票也會用驗證碼來做把關,因為電腦無法辨識這種曲扭的字母。(但現在有些程式已能破解CAPTCHA

我從沒想到驗證碼這東西竟然對人類知識有貢獻。

前幾天我在TED看了CAPTCHA 的發明人之一Luis von Ahn 的演說。一開始Luis von Ahn 簡單介紹了CAPTCHA,也舉了幾個非常好笑的例子,接著他說據統計一天平均有200 萬人次使用CAPTCHA,剛聽到這個數字Luis 感到有點得意(畢竟是他是發明人之一),但接下來他想到的是假設一個人平均花十秒輸入這個驗證碼,那麼把全部的時間加總起來就讓他笑不出來了,因為這些時間都是浪費掉的。於是他思考有沒有可能好好利用這些被浪費掉的時間?

為了有系統並永久保存人類出版品,典籍電子化是必需的,對於早期的出版品,其電子化過程是用拍照或掃描將書本一頁頁存成影像再利用OCR(Optical Character Recognition光學字元識別)程式將它變成文字,問題是OCR的成功率並不高,尤其是年代久遠的書籍被OCP辨識的成功率更低,於是Luis von Ahn 的團隊便想到利用人們在輸入驗證碼時來做這個辨識的工作以幫忙典籍雷子化。四年後他們設計出了reCAPTCHA

reCAPTCHA 是利用兩組字串做為驗證碼,其中一組是電腦已經知道答案的,另一組是從古書掃描下來同時也是OCR 無法辨識的字串。當使用者輸入這兩組字串時,如果電腦認得的那組字串你輸入正確,它就把你視為人類,同時也假設從古書掃描下來的那組字串你輸入正確。當這組古書字串從不同使用者端(可能是6 10 個人)得到相同答案,它就有了正解,這樣就解決了OCR 無法辨識某些文字的困境,同時也大大提升了典籍電子化的速度。

接下來Luis 團隊又從這兒得到靈感,這次他們想到的是網站翻譯,我們都知道網站自動翻譯程式出錯率不低,請專人翻譯則所費不眥。於是他們設立了一個免費自學語言的網站,透過這個網站使用者一邊學習語言一邊幫忙翻譯網站(Learning by doing),經他們測試,這真的可行,這個網站是www.duolingo.com,目前只有德語和西班語,其它語言陸續增加中。有興趣的人可以參考參考。

欲觀賞Luis von Ahn 的演說請點這裡,演說相當有趣,雖然沒有中文翻譯,多聽起遍應該會懂。

2011年12月17日 星期六

海底驚奇

昨天我在TED上看到的一個非常棒的短片,喜歡海底世界的人一定會愛它。

章魚、魷魚等頭足綱無脊椎動物是極聰明的動物,我在動物頻道上已看過不少介紹,但這個短片仍讓我讚嘆。

點選這裡可觀賞,螢幕下方有30種語言的字幕可選,繁體中文請選Chinese(Traditional)

2011年12月13日 星期二

母音的聯想

假設今天某廠商推出新的冰淇淋,廠商想強調的是他們的冰淇淋很奶味很濃吃起來口感滑順,你憑直覺認為它的名字會是叫 FrishFrosh?

專家研究母音會影響我們的腦部,開口唸一唸以下幾個字,
Bean
Mint
Slim
Little

上面四個字的母音都是把舌頭往前伸,這樣的母音叫 front vowels(暫翻成前母音)。

接著來唸下面幾個字,
Large
Pod
Ought
Fat

上面四個字的母音都是把舌頭後壓,這樣的母音叫 back vowels(暫翻成後母音)。

史丹佛語言學教授 Dan Jurafsky 表示,比較上面提到的兩種母音,會發現一種趨勢,含有前母音的單字往往有小、輕、薄的意思。而含有後母音的單字通常有肥、厚、重的意思。當然,這個推論並非百分之百成立,只是普遍適用。

一份(美國)消費者研究期刊的研究顯示,前面一開頭那個冰淇淋名字的調查結果顯示大部份受訪者認為 Frosh Frish 更讓他們有 creamer(香濃)的感覺。

試試看其它例子,
Detal vs. Dutal (如果是筆電,哪一個比較大台?)
Nellen vs. Nullen (如果是蕃茄醬,哪一個比較濃稠?)
Keffi vs. Kuffe (如果是吸塵器,哪一個比較重?)

Dan Furafsky 教授說大部份受訪者認為有後母音的名字給他們大、濃、重的感覺,類似的研究在不同語言也呈現相近的結果。

他懷疑企業是否知道這個,於是他從網路上下載了81 種不同口味的冰淇淋名字(大部分是由Haagen Dazs Ben & Jerry's 所產),及由一個統計食物熱量的網站下載了592 種薄餅(cracker)名字,結果強調香濃的冰淇淋名字含有相當多的後母音,如 Rocky Road, Jamoca Almond Fudge, Chocolate, Caramel, Cookie Dough, Coconut

而受歡迎的薄餅名稱則多含有前母音,如Cheese Nips, Cheez It, Wheat Thins, Pretzel thins, Ritz, Krispy, Triscuit, Thin Crisps, Cheese Crisps, Chicken in a Biskit, Snack sticks, Toasted chips, Ritz bits

到底為什麼會有這樣的聯想?

語言學家John Ohala 及Eugene Morton 認為隨著演化人類本能地把聲調與大小連結。Lions, bears, seals 的發音音調比較低, canaries, mice, rabbits 則是比較高音調. 並非全部都是這樣,但通常人們聽到低音頻/調時會腦中會想到大及重,相反地則讓人想到小及輕。

當我們講 "Boo!" 時嘴唇是呈現 O 字型,看起來有點誇張,似乎有危險的意味在。但當我們唸含有 "I" 及 "E" 的字時,嘴巴會呈現類似微笑的形狀。看來有”I”的字牽動我們腦部及臉部神經和有 "O" 的字是明顯不同。(最後這句好像廢話)

以上摘自 http://www.npr.org/blogs/krulwich/2011/12/07/143265882/vowels-control-your-brain

2011年12月12日 星期一

暴力的性

美國國家廣播電台上週五的Science Friday 有一則有關床蟲(Bed bug,又叫臭蟲,因為牠的前足會分泌散發臭味的液體)的專題,受訪者是生物學家Rajeev Vaidyanathan。起因是美東近來飽受床蟲危害,不只一般飯店,連住家公寓都淪陷,蟲害之所以會越演越烈是因為床蟲這東西生存及繁殖力都強,尤其是它繁殖的方法讓人瞠目結舌,公床蟲是用牠堅硬如針筒的生殖器在母床蟲的肚子鑽洞,直接把精子送進母床蟲的卵巢,不只這樣,連公床蟲都會被公床蟲戳洞,可能公床蟲的視力不好,看每隻床蟲都是母的,也可能是為了確保自己的精子可以進駐母床蟲,所以只要是床蟲都先給牠戳洞啦!

Rajeev 說他去住飯店會做兩件事,第一是先查要去的那地方是否遭蟲害,第二是把行李放浴室,因為床蟲出現在浴室的機會比較低。另外他還提醒聽眾住飯店時行李要直放不要橫放,行李箱的細縫要封起來,衣服不要放床上,如果真的被蟲咬了,回家要把衣服用熱水洗個好幾回,用殺蟲劑沒有用,床蟲對殺蟲劑已經免疫了。

說到床蟲暴力的繁殖行為,這種戳破母蟲肚子受精的方式英文叫traumatic insemination,雖然暴力卻有效率,因為這樣可以先搶先贏,讓自己的精子能攻佔卵巢,因為如果按照正常管道交配的話,越後進入母床蟲的精子越有利。好玩的是母蟲的身體結構也因為traumatic insemination 而逐漸演變,一是陰道萎縮,變成只是產卵的通道,二是卵巢位置慢慢改變至方便公蟲刺入放置精子而且肚子那個位置演變成比較好戳。(驚)

會演出這種暴力性行為的不只床蟲,有些蜘蛛及蝴蝶也會,真是為難這些母昆蟲了。

註:相片是放大的公床蟲生殖器,看起有點可怕,但總比放真正的bed bug 相片好。

2011年12月6日 星期二

最美的女人

昨天在看書時聽到美國國家廣播電台的主持人Ira Flatow 訪問了1986年普利茲奬得主Richard Rhodes,他的新書Hedy's Folly: The Life and Breakthrough Inventions of Hedy Lamarr, The Most Beautiful Woman in the World 是好萊塢明星Hedy Lamarr(海蒂拉瑪)的自傳,一開始主持人提到Hedy 是世上最美麗的女人也是他本人非常欣賞的美女,我一聽到”世上最美麗的女人”這幾個字就納悶,世界上美女那麼多,怎敢囂張地聲稱某人是最美麗的女人呢?於是仔細聽了訪問內容,不聽還好,一聽就引起了我的興趣。

Hedy Lamarr 外型非常姣好,也因此一般人對她的認識就是她是三、四十年代的好萊塢女星,其實除了女明星外,她還是一位發明家(或說科學),只不過很少人知道她這一面。

Hedy 出生奧地利維也納,父親是銀行家,16 歲那年拍了部捷克電影,其中並有全裸鏡頭,因此成名,18歲那年被父親安排嫁給一位同為猶太人的軍火商。時值二次大戰前夕,身為軍火商,她的丈夫時常參加各種商業會議討論各種最新武器,Hedy 本身就聰明,長期陪伴先生參與這些會議也會學了不少技術,尤其是和後來她的發明有關的用無線電信號控制武器。

因為丈夫支持納粹的立場迫使她離開奧地利而到法國巴黎(其實她是用藥迷昏她的丈夫),再轉往倫敦,在巧合與刻意安排下與米高梅簽下合約,成就她在30, 40年代在好萊塢風光的演藝生涯。

雖然Hedy 從年輕就追求演藝事業,但其實她並不喜歡明星的花花世界,飲酒作樂、參加party對她而言都很無聊,她寧願和一些喜歡思考的朋友聚會。白天演戲的她晚上則用研究發明來填滿夜晚。後來她認識鄰居George Antheil,一位從德國移民到美國的前衛作曲家與鋼琴家,兩人成為好朋友。

1939 年德軍入侵波蘭,第二次世界大戰在歐洲全面爆發。Hedy 與George 在聊天的過程中發現德軍的海軍武力強大,非同盟國可比擬。在當時,想得到的最可靠攻擊方式是運用無線電控制水雷攻擊船隻,前提是要找出頻率,就可以利用來做為干擾或追蹤水雷。那時無線電信號有時會堵塞,Hedy 富有遠見地想到:可以通過不斷並隨意地改變無線電波頻率,防止信號堵塞的發生,從而防止敵方干擾。

George 的音樂背景則替拉瑪的理論提供實際的解決方案。在他的工作生涯中,曾經創作過一段由16台自動鋼琴同時演奏的曲子。自動鋼琴(player piano,或稱pianola)是利用打洞紙捲紀錄鋼琴家的演奏,再將紙捲送入自動鋼琴中的音箱捲軸,藉由氣壓自動彈奏,讓鋼琴家的演奏原音重現,而洞的位置與長度決定演奏當時的音符長短與強弱。

這個裝置啟發了他們,他們想到可以將自動鋼琴的發聲技術應用在水雷與發射器上,這樣在水雷上的頻率就可以不斷地改變,但須確保水雷與發射器上的裝置是同步運轉。1941年6月,拉瑪與安瑟將他們的發明提交到美國專利與商標局(USPTO)申請專利,名稱為「秘密通訊系統」(Secret Communications System)。專利號為2,292,387。1942年8月(如圖2),他們得到美國的專利,這就是“展頻通訊技術”。可惜當時的美國軍方完全不把他們的研究當一回事,拒絕嘗試,還奉勸Hedy應該運用她的美貌,以明星之姿,向世人促銷多購買美國公債,以增加國力。

直到50年代後期,Hedy 的這一傑出設計思想,才被廣泛運用到軍隊計算機芯片中。從那時起,這一技術也啟發了許許多多通信領域的科學家,從而被廣泛運用到手機、無線電話和互聯網協議的研發上,以使很多人共同使用同一頻段的無線電信號。

1997年,當以CDMA(Code Division Multiple Access)為基礎的通信技術開始走入大眾生活時,科學界才想起了已經83歲高齡的Hedy,授予了她Communications Pioneer Freedom Foundation 這個獎,此一獎項對她在電腦通信方面的貢獻給予了承認。但此時,她的專利已經失效,所以她終生未能因此而得利。其實Hedy並不在意是否從中得利,畢竟她當初就是把她的專利給了美國海軍。但她倒是希望被認可,因為她覺得在好萊塢沒有人知道她的聰明才智,而在演藝事業上她也從沒被賦予好的角色發揮,雖然她的確因為演戲而有錢。所以當知道要被授奬時她講了一句話 - 'Well, it's about time.'

高通公司(Qualcomm)的聯合創始人之一Franklin Antonio 在看了Hedy的專利手稿後這樣說 : "I read the patent. You don't usually think of movie stars having brains, but she sure did." 而《高通方程式》 (the Qualcomm Equation)作者Dave Mock 在書中這樣說:“只要你使用過行動電話,你就有必要了解並感謝Hedy Lamarr。要知道,這位性感女明星為全球無線通訊技術所做出的貢獻至今無人能及。”