2013年7月28日 星期日

冷靜面對“大數據”熱

科技專論繼物聯網、雲計算之後,文件倉大數據已經成為當前信息技術產業最受關注的概念之一。面對社會各界紛紛關注的"大數據"熱,應充分認識其內在機理及帶來的挑戰,進一步理清對策思路。大數據蘊含著巨大的潛在經濟及社會價值種類繁雜、數量龐大的大數據,為我們更深入、更準確地認識和把握事物發展的內在規律提供了信息基礎,其中蘊涵著非常大的潛在價值。這一點不僅是許多業內研究機構的共識,也已經在商業應用中得到了體現。大數據的應用已經有了許多典型案例,如IBM日本公司利用互聯網搜索數據建立的經濟指標預測系統,以及美國印第安納大學利用穀歌公司提供的心情分析工具對道瓊斯工業指數變化的預測,已經達到比較高的準確率。除了經濟分析外,在農業、醫藥衛生、製造業等領域,也有一些成功應用大數據進行預測的案例。據美國麥肯錫公司預測,大數據將為美國醫療服務業每年帶來3000億美元的潛在增加值,為歐洲的公共管理每年帶來2500億歐元的潛在價值,為位置服務產業帶來6000億美元的潛在年收入。零售商充分利用大數據可實現運營利潤增長60%,製造業充分利用大數據可降低設備裝配成本50%。經合組織(OECD)的一項最新研究成果還對互聯網數據的市場價值進行了估計,佐證了大數據的巨大潛在價值。總體而言,大數據的應用和發展離不開以下三大要素:一是不同參與主體產生的大量數據信息。這是大數據應用發展的"原材料"基礎,也是催生這一概念的基本條件。日本EMC公司與美國IDC公司于2013年年初共同公佈了關於大數據方面的最新預測結果:到2020年,人類產生的數據總量將達到40ZB。除了擁有大數據平台的互聯網和電子商務企業之外,政府部門、科研院所、高等院校、非營利機構等組織也擁有大量尚未得到有效利用的數據。二是支撐大數據存儲和運算的IT基礎設施。這是大數據應用發展所必需的"設備"基礎。大數據的存儲和高效處理需要雲計算數據中心的支撐,大數據的高速傳輸則需要足夠帶寬的互聯網通道。有了足夠的數據承載能力,才有可能進行進一步的分析挖掘。三是挖掘大數據潛在價值並進行應用的能力。這是大數據產業能否成功發展的"瓶頸"所在。數據量的不斷增長盡管帶來了巨大的潛在價值,但同時也對我們的價值挖掘能力提出了巨大挑戰。2012年全球被創建和被複制的數據總量達2.7ZB,其中較容易處理的有序的結構化數據相對較少,而大量的文本、圖片、音視頻、醫療影像等非結構化數據則超過85%。如何把這些龐雜無序的數據進行分析、處理和集成,變成有用的信息,是大數據應用發展面臨的核心問題。我國發展大數據應用需冷靜面對諸多挑戰據國內有關研究機構初步統計,目前我國大數據產業還處於發展初期,市場規模仍然比較小,2012年僅為4.5億元,而且主導廠商仍以外企居多。據預測,2016年我國大數據應用的整體市場規模將突破百億元量級,未來將形成全球最大的大數據產業帶。事實上,相對於發展前景的樂觀預測,我國發展大數據產業面臨的現實挑戰更值得認真分析和對待。首先,如何使分散在不同部門和主體的數據得到合理有效應用。需要明確哪些數據可以用、哪些數據不能任意地進行商業應用。大量的互聯網數據掌控在企業手中,但是屬於個人隱私或涉及國存倉信息安全的則應該進行合理限制和規範。對於政府部門、研究機構和高校掌握的專業數據,則須明確是否應向社會公�開放。其次,如何構建可支撐大數據的IT基礎設施。這一點涉及到對傳統數據中心的改造和利用、新型雲計算存儲和處理系統的建設,以及如何儘快建設一個高速、方便接入的互聯網通道。第三,如何掌握大數據挖掘技術和培養大數據專業人才。大數據分析需要相關技術與人才的支撐。發達國家的部分IT企業已經初步掌握了一些數據分析預測的關鍵技術,我國相關企業的技術能力還比較落後。麥肯錫公司預測美國到2018年需要大數據分析人才40多萬,人才缺口將達10多萬。我國剛剛引入大數據概念,人才匱乏問題更加突出。第四,如何避免未來出現大數據產業重複建設甚至產能過剩問題。近幾年來,部分新興產業已經出現了產能過剩的苗頭,體制性原因導致的重複、超前建設問題比較突出。對於熱度正高的大數據產業,如何避免因政府不當干預導致這些問題重演,是對我國當前區域競爭下產業發展體制的一個挑戰。做好基礎性工作,促進大數據應用發展面對社會各界的"大數據"熱,應理性分析、冷靜觀察,扎實做好幾個方面的基礎性工作。這些工作可能是長期性、前瞻性的,需要逐步推進,很難立竿見影、一蹴而就。第一,不必急於出台戰略性規劃和設立產業專項資金。國內的IT企業和地方政府已經意識到大數據產業的發展前景,對發展大數據應用有著較大熱情。某些城市已經�動了大數據發展戰略,計劃到2017年形成至少500億元的產業規模。在這種情況下,以規劃和專項資金等方式進行鼓勵,有可能扭曲正常的市場行為,甚至催生泡沫。第二,合理改造、建設和布局IT基礎設施。對現有的傳統數據中心及大量的舊服務器資源,可以通過建立虛擬數據中心或進行就近合併等方式進行改造利用,探索如何通過虛擬化技術和雲計算平台管理軟件來提高利用效率。對新建的大規模雲計算數據中心應進行統籌、合理布局,協調不同省市之間加強互補合作,將能源和氣候因素作為項目建設的重要條件,保證經濟上的合理性。按照網絡建設適度超前于產業發展的原則,加快"寬帶普及提速工程"的推進速度,儘快解決大數據應用發展的網絡帶寬瓶頸。第三,推動數據隱私保護和公共機構信息公開等立法修法工作。2012年12月,全國人大常委會通過了《關於加強網絡信息保護的決定》。應在此基礎上繼續完善個人隱私保護的相關立法,對哪些互聯網個人數據可以進行商業化應用、應用範圍如何界定、數據濫用應承擔哪些責任等具體問題做出規範。應繼續推動政府及公益性機構信息公開,對政府信息公開條例進行修改完善,清晰界定各部門和機構數據公開的對象、時限和應用範圍,使更多的可公開數據得到合理應用。此外,對於哪些數據可以向境外流動或允許境外企業開發利用,也應有相應的法律規定。第四,資助大數據競爭前技術的研究,培養大數據分析人才。在現有政府科技計劃中,適度安排項目資金支持大數據關鍵技術的研發,重點在於競爭前技術,鼓勵企業牽頭或參與承擔。人才培養應從高等教育和企業技術人員再培訓兩個方面入手,允許大學設立大數據相關專業並進行招生,鼓勵地方政府出台關於大數據技術人才培訓的相關政策。(作者單位:國務院發展研究中心技術經濟研究部)自存倉

沒有留言:

張貼留言