主題演講:海量公司首席科學家、博士周富秋

時間:2011-11-15 17:01   來源:台灣網

  很高興今天下午能夠聽到尤其在遊戲行業裏關於雲計算的實質性應用。因為上個月我參加了全國第十屆網際網路大會,我聽的最多的是大家談概念,我可以直白的講,大陸有一個毛病就是喜歡炒概念,沒有真正實質性的去談到一些應用。我的結論是參加第十屆網際網路大會,聽眾非常多,但是他們談的更多是雲的概念而不是雲的計算。就想起了什麼都是浮雲。今天很高興能夠聽到很多新的想法。

  如果真正要談到雲計算,實際上最初提出雲計算概念是24年前提出來,當時實際上是雲計算的雛形,由於種種原因沒有付諸實施。隨著時代的變化,IT行業的變化,如果追溯到遠一點60年代IBM推出大型電腦,現在我們看得最多的是每個人手上拿的移動設備,平板電腦等等。另外一個是網際網路,網際網路的興起和發展尤其是在大陸,在臺灣提出網際網路比較早一些,真正網際網路在國內的興起是1996年,我記得1995年從美國回來的時候,很多人問我什麼是網際網路,甚至有人問我什麼是電子郵件,短短的16年期間網際網路在大陸簡直是蓬勃發展,現在的興起簡直是勢不可當,滲入生活當中的各個層面。但是更大的問題是什麼呢?網際網路的興起,我認為最大的弊病在於數據急劇增加,我對現在網際網路數據的增加最大的概括,網際網路給我們的生活帶來陽光,但是只有幾屢陽光,還不是充滿陽光,就像一首歌講的還有很多陰霾,就是多、雜、亂、難。我們實際上很多人在遭受一種病症就是資訊污染綜合症。我們十年以前、十五年以前、二十年以前是遭受資訊匱乏的病症,現在是資訊太多。怎麼辦?我談到兩個原因,計算平臺的轉移和網際網路的興起,在呼救雲計算。

  我認為談雲計算更多在計算上下功夫,如果現在是這樣的現狀,網際網路大量的資訊需要超級的計算模式去解析它,去分析它,找出它真正能夠給人們的生活和工作帶來價值的東西提供給我們的客戶。這就是我們海量資訊技術有限公司致力於追求的,我們有智慧計算的手段去處理海量的網際網路的資訊,把這個平臺建立在雲計算的框架裏。現在最大的問題是看到一大堆問題,真正要分享很難,谷歌兩位年輕人很厲害,他們説建立谷歌的目的是梳理世界上的資訊,使之在全球範圍內可得。是要梳理它,不是説把這個東西給你,現在我們在谷歌和百度拿到一大堆原始數據的羅列,看到第三頁,我想我看到第二頁就不想看了。怎麼讓電腦去處理,真正解決我們的社會問題。這就是我認為最關鍵的智慧計算帶來的社會價值。

  以前我們關心更多的是技術上的東西,我們應該轉移態度多關注社會上的問題。基於這一點,我認為將來的網際網路是什麼樣子?很多人都講是移動化的,無國界的,互動性的,網際網路將來也是不可分割的一部分,我認為更關鍵的是怎麼處理這些數據,這麼多資訊怎麼去解析它,我提出一個觀點就是一定要智慧化、結構化的網際網路,這才是將來的方向,這個不謀而合和矽谷的大師凱文講的一樣,不會太好,但是不一樣。不一樣在什麼地方?用三個字來解釋,首先是聰明、智慧,網際網路能看到東西,能理解數據,能歸納數據,能篩選數據,給出的是我們所需要最終的知識和情報,而不是一大堆原始的東西。二是更加個性化,因為我們市場的細分。三是無處不在,一天24小時。這是未來網際網路的憧憬,我認為這完全符合我們所打造的。

  我們已經實現了電腦的互聯,在80年代、90年代初的時候是用的大型機,然後是用了PC,基本上可以把網際網路上相互之間的電腦連接起來,現在我們做到網頁互聯,谷歌和百度就是,把同樣的資訊分類出來,我可以在網站裏查到我的資訊,可以從我的電腦聯繫到另外一台電腦。但是有一點沒有做到,就是讓網際網路更加智慧,就是把網頁裏談到的東西聯繫起來,這就非常難了。就是讓它智慧化,網頁裏提到的事物之間到底有什麼關係,這一點是更重要的。將來我們的網際網路是語義網路,是數據的網路,將來呈現在我們面前是一個網狀的東西,而不是豎狀的。我們期望網際網路將來的數據是結構化,是相互關聯的。一個頁面上的概念和另外一個頁面上的概念是相關的。提到的人、事、物都有獨一無二的身份,有獨一的屬性。我看到網頁上有姚明,它談的是一個人,跟NBA有關係,跟上海球隊有關係等等,這就是網際網路賦予人理解文本的這種解釋。比如讀到北京,互聯就就知道它是一個地名,有經度、有緯度,有人口等等。不是做不到,而是必須要做到。

  所以我們海量公司一直在追求這個,我們一定要把網際網路上的數量變成品質,要從資訊服務轉化為知識獲取。比如一個老闆有一個秘書,老闆提出需求,你給我找一個東西,找一個我做抉擇的依據,秘書第二天拿一大堆的資料給他,這是一種解決方案。另外一種解決方案可能是通過一個團隊的工作,把一大堆的資料濃縮成一個表格,我想老闆肯定是喜歡第二種做法。我們希望這個壓縮的工作讓機器去做,不是做不到,是能夠做到。以內容為紐帶,將網路搭成一個語義邏輯整體。最後讓機器讀懂網際網路。機器能看懂網際網路上的內容。

  要這樣做一定是依賴於雲計算大的框架,四年以前還沒有興起雲概念的時候,剛才大家談到IAAS、PAAS、SAAS,我們已經基於雲計算大框架,根據客戶提出的對數據加工的需求,我們提出了雲的采編服務。城邦的公司肯定他們的編輯要處理大量的工作,而且很多大量的工作是用手工做的,我們能不能讓機器做一些案頭工作,把編輯做的找轉編發這些進行智慧化,這就是雲采編服務。還有雲凈化服務,國務院一再強調不能有不良資訊、色情的資訊、違法的資訊在網上散發,很多網站很緊張,錄用一大批小姑娘、小夥子成天在這兒看,看到不好的就刪掉。我們提出一個雲計劃的凈化服務,我們可以用機器來刪除,我們刪掉的目標已經做到95%。我們可以看看客戶群裏已經有這樣的反饋,它可以做到95%到98%的機器凈化。而只提出2%到5%讓客戶進行審核。還有雲發佈也是基於雲計算的發佈,可以提高網站的流量等等。我們還推出我一直比較希望推出的通過這個平臺的建立,能夠推出一個雲的標引,數據來了以後怎麼給數據打上標簽,讓這些數據更加智慧化。雲的標簽,對出版商、對網站,因為我以前在美國工作了15年,處理了大量的美國200年的數據庫,因為是非結構化的文本,怎麼把它結構化,就是必須打上標簽,就便於後端和前端用戶進行檢索和分析。

  這WOS平臺應用架構圖。我們採用了很多業界的標準東西,最終的目的是什麼?是希望客戶提供所需要的資訊。如果客戶來了以後,他提出信源,有很多不同的資訊來源,這些是非結構化的,這些是不同文本和格式,通過我的平臺就把它轉換成結構化的數據,這個結構化的數據就是大家談的RDF,大量的文本來了以後,要變成一個表格一樣的東西,變成幾行字來解決。知道裏面提到的人事物,因為文本往往是這樣的,自然語言往往是這樣的,在談事情的時候必須要提到人,必須要提到專有名詞,必須要提到時間、地點等等。我們通過智慧化處理以後,人與物、人與人都建立語義管理,這樣我們對人的行為進行分析,我們可以進行連結和推送服務。

  舉一個例子,中文要做到真正讓中文能夠讓機器理解中文,首先要把中文分詞分清楚,你看不出中間這個詞是怎麼分的,可以説乒乓球拍賣完了,也可以説是乒乓球,拍賣完了。這是不一樣的。給大家看一下怎麼用智慧的方法去理解一篇文章,首先分詞很重要。所謂智慧分詞、命名實體、語義網。比如寧靜這個詞,比如寧靜的夏天、寧靜的夜晚,往往從這個理解,我們的機器也按照這個方向理解。往往在娛樂圈裏,在中國大陸寧靜是一個很有名的演員,我能不能在一篇文章裏把寧靜分出來,它不是一般的詞,而是指一個人名,然後給她建立關係,她跟紅河谷有關係,她演過的所有電視劇和電影有關係,而且和其他的明星有關係等等。智慧分詞從這兒做起。

  再舉一個例子,有一個客戶找到我們,説我是幫助企業尋找廣告代言人,一般廣告代言人都找明星,我設廣告代言人所設定的明星在一個時間段裏,我們通過智慧分析,它給我們兩個人,一個是王菲,一個是李亞鵬,我在想大陸都知道這是一對很有名的夫婦。他們的曝光率在這四個點上,第一個點把關鍵詞和特徵詞看一下,這個點他們談什麼,有什麼具體的題目,這個點和這個點上是什麼,在這個時間段裏他們倆在網路上的曝光率就是這樣的狀態。然後給了我們上千個影視明星,他就非常高興,説可以幫助企業很快的找到這個新聞的熱點,怎麼發現新聞的熱點,根據名人,然後進行跟蹤,最終幫助他們篩選出要做廣告代言人的選擇。

  還有在垂直行業,有一個醫療網站叫“好大夫線上”,他們每天要收到成千上萬份不同的客戶在網上提出的需求,他描述我到底身體有哪些不適,有哪些病狀和問題,可是描述得往往不專業,不會用專業的醫療詞彙等等。這樣的話,好大夫線上抓住這個時機,因為有很多網民年齡大了就希望自己能夠在網上得到醫療的諮詢,就招了一大批有醫療背景的人坐在那裏分診,這個網站可以分400條不同的病例,網民提出的需求到底是哪種病,分給哪個醫院,哪個大夫都是通過人工的。他們找到我們,我們做了關鍵的幾步,把大量的網上談到醫療方面的資訊進行抽取,找了專業詞彙,找了一些模糊的地方,然後進行對比,基本上把網站所需要用人去處理的分診系統基本上95%替代。還能夠根據他的病症提出不同的解決方案,比如哪個醫院,哪個大夫更有效等等。

  我們在移動行業當中,我拿著手機,將來拿著手機什麼都沒有,只要我提出需求,我要得到什麼就得到什麼。這也是凱文凱利夢寐以求的。比如拿著手機看到樓房,通過衛星定位知道我在什麼地方,這是基本上能夠實現的。更關鍵的是這片樓裏在幹什麼,有什麼活動,有什麼樣的商店,有什麼樣的影院,有什麼樣的餐飲等等。這從雲當中獲得,這些都是經過結構化處理的,經過海量的結構化處理。把結構化處理後的資訊能不能夠疊加在手機上,讓它知道最終能夠知道到底需要什麼。可以看出這一片的樓的價格比另一片樓的價格更低或者更高等等。這都是應用雲計算來做。最關心的是怎麼從網路當中獲取資訊。

  “雲”中的智慧計算,在網際網路當中怎麼做智慧計算?現在的網際網路不再是PGC佔主導地位,就是專業人士知道的東西,現在已不佔主流,關鍵是UGC,這個非常龐大,而且非常亂,我們一定要對這些數據進行結構化、智慧化的處理以後,它才能夠發揮作用,才能夠從雲中得到圖像、視頻、購物等等。這是我們認為雲中的智慧關鍵,也就是網上大量非結構化的資訊,有條理的統一的處理,這就是智慧計算。

  我們希望通過“雲”中的智慧計算,我們迎來的網際網路首先是有效的,現在的網際網路你以為他給你帶來很多很好的好處,確實是可以上網,但是真正關鍵的東西查了嗎?百度、谷歌做了權威性的調查,實際上百度、谷歌的搜索引擎只能滿足人們對資訊需求的20%,有80%並沒有滿足。但是怎麼讓那80%呈現在用戶面前,首先通過智慧計算是有效的。二是安全的。三是可操作的。四是可靠的。五是一致的。六是可擴展的。中間這個球就是網際網路,也就是凱文講的。未來的網際網路通讓它擁有語義網路的服務,最終無時不在,無所不包,而且是24小時不間斷運作。最後實現大家夢寐以求的夢想。謝謝大家。

編輯:郭慶娜

相關新聞

圖片

本網快訊

熱點新聞

奇聞趣事

兩岸