搜尋此網誌

2011年12月21日 星期三

你所不知道的線上大合作

相信大部份的人都有在網站上輸入驗證碼的經驗,使用者會被要求輸入像圖片中這種歪歪曲曲的數字或字母,這個叫做CAPTCHA,它是Completely Automated Public Turing test to tell Computers and Humans Apart的縮寫,是一種全自動區分電腦與人類的圖靈測試。目的是防止有人利用電腦程式大量在留言板上張貼廣告或其他垃圾訊息,甚至有些線上訂票系統為了防止黃牛利用電腦程大量訂票也會用驗證碼來做把關,因為電腦無法辨識這種曲扭的字母。(但現在有些程式已能破解CAPTCHA

我從沒想到驗證碼這東西竟然對人類知識有貢獻。

前幾天我在TED看了CAPTCHA 的發明人之一Luis von Ahn 的演說。一開始Luis von Ahn 簡單介紹了CAPTCHA,也舉了幾個非常好笑的例子,接著他說據統計一天平均有200 萬人次使用CAPTCHA,剛聽到這個數字Luis 感到有點得意(畢竟是他是發明人之一),但接下來他想到的是假設一個人平均花十秒輸入這個驗證碼,那麼把全部的時間加總起來就讓他笑不出來了,因為這些時間都是浪費掉的。於是他思考有沒有可能好好利用這些被浪費掉的時間?

為了有系統並永久保存人類出版品,典籍電子化是必需的,對於早期的出版品,其電子化過程是用拍照或掃描將書本一頁頁存成影像再利用OCR(Optical Character Recognition光學字元識別)程式將它變成文字,問題是OCR的成功率並不高,尤其是年代久遠的書籍被OCP辨識的成功率更低,於是Luis von Ahn 的團隊便想到利用人們在輸入驗證碼時來做這個辨識的工作以幫忙典籍雷子化。四年後他們設計出了reCAPTCHA

reCAPTCHA 是利用兩組字串做為驗證碼,其中一組是電腦已經知道答案的,另一組是從古書掃描下來同時也是OCR 無法辨識的字串。當使用者輸入這兩組字串時,如果電腦認得的那組字串你輸入正確,它就把你視為人類,同時也假設從古書掃描下來的那組字串你輸入正確。當這組古書字串從不同使用者端(可能是6 10 個人)得到相同答案,它就有了正解,這樣就解決了OCR 無法辨識某些文字的困境,同時也大大提升了典籍電子化的速度。

接下來Luis 團隊又從這兒得到靈感,這次他們想到的是網站翻譯,我們都知道網站自動翻譯程式出錯率不低,請專人翻譯則所費不眥。於是他們設立了一個免費自學語言的網站,透過這個網站使用者一邊學習語言一邊幫忙翻譯網站(Learning by doing),經他們測試,這真的可行,這個網站是www.duolingo.com,目前只有德語和西班語,其它語言陸續增加中。有興趣的人可以參考參考。

欲觀賞Luis von Ahn 的演說請點這裡,演說相當有趣,雖然沒有中文翻譯,多聽起遍應該會懂。

沒有留言:

張貼留言