每日經濟新聞
商業精選

每經網首頁 > 商業精選 > 正文

搜狗云輸入的“腦容量”:200億本《新華字典》

2010-07-20 01:11:17

“敲入mantiandaxue,出來的正是  ‘漫天大雪’,為什么不是‘滿天大雪’,或者‘漫天大學’?”網民小姚在網上提出了這樣的問題。

        小姚不知道的是,輸入法如此“善解人意”的背后,決定性因素是一種名為“語料”的東西。日前,搜狗輸入法宣布,其語料庫容量已超1TB,是其他中文輸入法的數十倍,對于韓文、日文等語系,這更是“天文數字”。

“享受輸入”之謎

        小姚是搜狗輸入法的忠實粉絲,“平時用習慣了倒沒覺得什么,一次重裝系統無法上網,只用系統自帶的智能ABC,那種感覺太痛苦了,一夜回到了解放前。”

        在中國上網的計算機中,有80%安裝了搜狗,他們與小姚一樣,已經習慣了“享受輸入”。

        “語料”正是重要的幕后功臣之一。據搜狗輸入法工程師介紹,很多人都知道“詞庫”,詞庫越大,則輸入法越聰明,不過“語料庫”的重要性有過之而無不及,它決定了詞庫中詞匯的組合,并且決定了哪一個詞被排在輸入結果的最前面。

        一般來說,語料庫越大,則輸入效率越高。據統計,目前多數輸入法語料庫大約在40GB~150GB,搜狗輸入法的1TB,即約1000GB,多出數十倍。如此龐大的信息量相當于200億本  《新華字典》收錄的字數。

搜狗的自我挑戰

雖然已遠比對手“聰明”,但搜狗還在“自己跟自己較勁”。按照搜狗語料庫目前的容量,它的輸入準確率可以接近90%,而其他輸入法只有50%~80%,但當這個容量再擴大,它對輸入效率的提升將越來越難。

        對此,搜狗做了兩方面的工作,力圖讓語料庫爆炸增長:其一,發揮“人肉”的優勢,讓用戶貢獻;其二,通過搜索引擎抓取互聯網上的詞匯。

        顯然,圍繞“語料”,搜狗已率先找到了一條可讓其無限、爆炸增長的路,這也是過去幾年里,它能引領輸入體驗潮流,不斷推高文字錄入效率水準的原因。

中文輸入的未來

        回首輸入法的發展歷程,它已從過去的“單機軟件”變成了今天來自云端的“互聯網服務”,集搜索引擎、大規模數據處理、自然語言處理、大規模網絡并發處理等多項技術于一身。

        業內人士指出,搜狗對文字輸入的最大貢獻在于,它既給出了輸入法的宏觀方向,又形成了自己體系化的方法論。

        在未來,語料庫、詞庫會以更快的速度爆炸增長,通過對人類思考的模擬,輸入法會更理解用戶的思維和意圖,讓“享受輸入”越來越成為必然。這顯然是一件極富使命感的任務,數據顯示,每天有3億人依賴搜狗錄入文字,不難想象,搜狗輸入法每將準確率提升1%,將為國人的學習、工作、娛樂節省無數時間和精力成本,從而為整個社會創造無窮的社會價值和經濟價值。  (董暉)



如需轉載請與《每日經濟新聞》報社聯系。未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

聯系電話:021-60900099轉688

每經訂報電話

北京:010-58528501        上海:021-61283003        深圳:0755-83520159        成都:028-86516389        028-86740011        無錫:15152247316

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
日本道免费综合中文字幕 | 亚洲国产精品91 | 日本中文一二区高清精品在线 | 亚洲一区二区三区精品视频 | 日韩AV在线免费观看 | 日本精品专区一二三区 |