大部分大數據集由一個重要的元數據進行定義,但這些大數據集亦給當前及未來的數據管理實踐帶來嚴峻挑戰。
一般來講,NASA 方面的主要任務在於從太空中的航天器處持續獲取信息,而且其生成速度要遠高於當前的數據管理、存儲與分析速度。
NASA 主要擁有兩種航天器類型,其一為深空飛船,其二則為近地軌道衛星。
深空飛船的作用在於以每秒 MB 量級向地球發回數據,而近地衛星盡管在運轉機制上與深空飛船類似,但傳輸的數據量卻為每秒 GB 級別。
NASA 利用激光等通信技術將大規模數據的下載能力加速至上千倍。
但就目前而言,NASA 無法處理這麼多數據,而其顯然有必要為此做好準備。
事實上,當下 NASA 設定的目標為在一天之內處理 24 TB 數據。
如果我們將其整體數據量視為單一任務,那麼其單日數據處理量將達到國會圖書館的 2.4 倍。
NASA 專註於從大量數據當中收集最為重要的信息,而非存儲全部數據——這是因為從航天器處將數據轉移至 NASA 數據中心將帶來極為高昂的成本。
而在數據中心內數據量的積累過程中,NASA 亦面臨著對這批數據進行存儲、管理、可視化以及分析的一系列後續任務。
為了對 NASA 需要處理的任務規模擁有初步了解,我們這裡分享一項實例:截至 2030 年底,全球氣候變化數據庫的規模預計會增加至 230 PB。
更確切地進行比對,美國一年之內郵政服務所發送的全部信件總數據量僅相當於 5 PB。
除了航天器之外,NASA 還需要處理來自在線平臺、低成本傳感器以及移動設備的數據。
2012 年 10 月,《哈弗商業評論》雜志發表的一篇文章將這項任務描述為『我們每個人都相當於一臺會走動的數據生成器』。
與其它眾多機構一樣,NASA 的大數據挑戰似乎同樣極難得到解決。