大數據與統計新思維
譯著《大數據時代》(英國 ViktorMayer-Schǒnberger,Kenneth Cukier 著)和《駕馭大數據》( 美國 Bill Franks 著),以及我國學者涂子沛、郭曉科的《大數據》等幾本書引起了廣泛的關注,其他各種媒體關于大數據的討論也層出不窮,大數據已成為流行語。有人認為,大數據是一場新的革命,將橫掃一切領域,重構世界。不少國家已將大數據作為國家發展戰略,而商業領域更是將其視為下一個投資的寶庫。毫無疑問,大數據時代已經來臨,它正在悄悄地改變著人們的行為與思維,難以阻擋,無法抗拒。在計算機科學、電子商務等領域已率先在大數據技術開發與應用方面做出不俗成就的時候,以數據為研究對象的統計學該如何應對?無動于衷還是盲目追從?正確的態度應該是理性對待、積極跟進、改變思維、謀求發展。
一、對大數據的初步認識
到底什么是大數據,不同的學科領域、不同行業的從業人員肯定會有不同的理解。與傳統意義上的數據相比,大數據的“大”與“數據”都有了新的含義,絕不僅僅是體量的問題,更重要的是數據的內涵問題。或許,“大”與“數據”根本就不能分開,只有把“大數據”當作一個整體概念來理解才有意義。那么從統計學的角度,我們該如何來理解大數據?筆者認為大數據不是基于人工設計、借助傳統方法而獲得的有限、固定、不連續、不可擴充的結構型數據,而是基于現代信息技術與工具可以自動記錄、儲存和連續擴充的、大大超出傳統統計記錄與儲存能力的一切類型 的 數 據。有 人 用 4V( Volume,Variety、Velocity 和 Value) 來形容大數據的特征,最根本之處就是數字化基礎上的數據化。通俗地說,大數據就是一切可記錄信號的集合。
如果說,傳統統計研究的數據是有意收集的結構化的樣本數據,那么現在我們面對的數據則是一切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數據。樣本數據與大數據的這種區別,具有什么樣的統計學意義? 我們知道,樣本數據是按照特定研究目的、依據抽樣方案獲得的格式化的數據,不僅數據量有限,而且如果過程偏離方案,數據就不能滿足要求。基于樣本數據所進行的分析,其空間十分有限———通常無法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問題,數據的不可擴充性缺點就暴露無疑。而大數據是一切可以通過現代信息技術記錄和量化的數據,不僅所蘊含的信息量巨大,而且不受各種框框的限制———任何種類的數據都來者不拒、也無法抵拒。不難發現,大數據相比于樣本數據的最大優點是,具有巨大的數據選擇空間,可以進行多維、多角度的數據分析。更為重要的是,由于大數據的大體量與多樣性,樣本不足以呈現的某些規律,大數據可以體現; 樣本不足以捕捉的某些弱小信息,大數據可以覆蓋; 樣本中被認為異常的值,大數據得以認可。這將極大地提高我們認識現象的能力,避免丟失很多重要的信息,避免失去很多決策選擇的機會。
這里,我們自然就想到了大量觀察與大數據這兩個概念中的“大”的區別。對于傳統的統計研究方法而言,大量觀察法是基礎,是收集數據的基本理論依據,其主要思想是要對足夠量的個體進行調查觀察,以確保有足夠的微觀基礎來消除或削弱個體差異對整體特征的影響,足以歸納出關于總體的數量規律。所以,這里的“大”是足夠的意思。大量觀察法的極端情況就是普查,但限于各種因素不能經常進行,所以一般情況下只能進行抽樣調查,這就需要精確計算最小的樣本量。基于大量觀察法獲得的樣本數據才符合大數法則或大數定律,才能用以推斷總體。而大數據則指不限量的數據,是基于現代信息技術的一切可以記錄的全體數據,其特征之一就是盡量多地包含數據,它與樣本容量無關,只與信息來源的數量與儲存容量有關。因此,這里的“大”是全體的意思。
可見,統計學的研究對象沒有變,變的是數據的來源、體量、類型、速度與量化的方式。這種變化對統計研究帶來了什么樣的挑戰? 《大數據時代》提出了三個最顯著的變化: 一是樣本等于總體,二是不再追求精確性,三是相關分析比因果分析更重要。這些觀點具有很強的震撼力,迫使我們對現有的統計研究思維進行反思。盡管這些觀點值得進一步商榷,但至少告訴我們這樣一個道理: 統計研究對象的基礎變了,統計思維也要跟著變化,否則統計研究的對象只是全部數據的 5%,而且越來越少,那又怎么能說統計學是一門關于數據的科學呢? 又怎么去完善和發展開展數據分析研究的統計方法論呢?
二、統計思維的變化
改變統計思維,是大數據時代的必然要求。否則,統計學科就有可能被大數據的潮流所吞沒,至少會被邊緣化,失去一次重要的參與推動歷史變革的機遇。當然,統計思維的變化應該以一個永恒不變的主題為前提,那就是通過數據分析去揭示事物的真相,這個真相就是事物的生存規律、聯系規律和發展規律。也就是說,數據分析要以數據背后的數據去還原事物的本來面目,以達到求真的目的。如果說,我們原來限于各種條件只能根據有限的樣本數據去實現這個目的,那么現在我們則可以在很多方面借助大數據去實現這個目的,關鍵就看我們開展數據分析的能力有多大,或者說利用大數據、從一切數據中提取有價值信息的能力有多大———因為大數據無疑增加了統計分析的難度,而這又首先取決于我們統計思維能否適應大數據時代的變化。正如邁爾 – 舍恩伯格所說: 大數據發展的核心動力就是人類測量、記錄和分析世界的渴望。
那么,統計思維應該發生怎樣的變化? 筆者認為主要要有如下三大變化:
(一) 認識數據的思維要變化
前面已經提到,與傳統數據相比,大數據不僅體量大、變化快,而且其來源、類型和量化方式都發生了根本性的變化,使得數據雜亂、多樣、不規整。
首先,從來源上看,傳統的數據收集因為具有很強的針對性,因此數據的提供者大多是確定的,身份特征是可識別的,有的還可以進行事后核對。但大數據通常來源于物聯網,不是為了特定的數據收集目的而產生,而是人們一切可記錄的信號( 當然,任何信號的產生都有其目的,但它們是發散的) ,并且身份識別十分困難。從某種意義上講,大數據來源的微觀基礎是很難追溯的。
其次,從類型上看,傳統數據基本上是結構型數據,即定量數據加上少量專門設計的定性數據,格式化,有標準,可以用常規的統計指標或統計圖表加以表現。但大數據更多的是非結構型數據、半結構型數據或異構數據,包括了一切可記錄、可存儲的信號,多樣化、無標準、難以用傳統的統計指標或統計圖表加以表現。同時,不同的網絡信息系統有不同的數據識別方式,相互之間也沒用統一的數據分類標準。再者,現在有的數據庫是非關系型的數據庫,不需要預先設定記錄結構即可自動包容大量各種各樣的數據。
第三,從量化方式上看,傳統數據的量化處理已經有一整套較為完整的方式與過程,量化的結果可直接用于各種運算與分析。但大數據中大量的非結構化數據如何量化( 結構化) 、如何從中提取信息、如何與結構化數據對接是一個嶄新的問題。正如Franks 所說: “幾乎沒有哪種分析過程能夠直接對非結構化數據進行分析,也無法直接從非結構化的數據中得出結論。”更為重要的是,“量化”的含義恐怕也不一樣了,即此“量化”不一定等同于彼“量化”,量化結果的表現形式自然也不相同。顯然,我們不能套用已有的方式去量化非結構化數據。
可以說,大數據是雜亂、不規整、良莠不齊的,但我們不能因此而回避它、拒絕它,只能接納它、包容它。我們需要將統計研究的對象范圍從結構型數據擴展到一切數據,需要重新思考數據的定義和分類方法,并以此為基礎發展和創新統計分析方法。從某種意義上講,沒有無用的數據,只有未被欣賞的數據,關鍵是我們從哪個角度看數據。
(二) 收集數據的思維要變化
收集數據是開展統計分析的前提,“沒有黏土,如何做磚?”以往,收集統計數據的思維是先確定統計分析研究的目的,然后需要什么數據就收集什么數據,所以要精心設計調查方案,嚴格執行每個流程,但往往是投入大而數據量有限。現在,我們擁有了大數據,就等于擁有了超大量可選擇的數據———備選“黏土”的體量與種類都極大地增加了,所要做的最重要的工作就是比較與選擇,因此我們的思維應該是如何充分利用大數據,凡是大數據源中能找到的數據就不再需要進行專門的調查。
但是,由于大數據來源與種類的多樣性,以及數據增加的快速性,我們在享受數據的豐富性的同時也不得不面臨這樣一些困境: 存儲能力夠不夠,分析能力夠不夠( 是否及時、充分),如何甄別數據的真偽,如何選擇關聯物,如何提煉和利用數據,如何確定分析節點? 現在 TB 級的數據庫已經很多,PB 級的數據庫也不少見,以后還會出現EB、甚至ZB、YB級的數據庫。今天的大數據,明天就不再是大數據。這樣一來,電子存儲能力能否跟得上數據增加的速度就成為首要的問題。如果讓數據庫自動更新就有可能失去一些寶貴的數據信息,而到了一定級別以后擴充存儲容量或對數據進行拷貝,其代價是十分巨大的,因此我們不得不對數據進行分類、篩選,有針對地刪除那些垃圾數據、不重要或次重要的數據。如果說以前有針對地獲得數據叫做收集,那么今后有選擇地刪除數據就意味著收集。也就是說,大數據時代的數據收集將更多的是從已有的超大量數據中進行再過濾、再選擇。因此,我們要做好丟棄一部分數據的準備。
當然,并不是任何數據都可以從現成的大數據中獲得,這里存在一個針對性、安全性和成本比較問題。因此,我們既要繼續采用傳統的方式方法去收集特定需要的數據,又要善于利用現代網絡信息技術和各種數據源去收集一切相關的數據,并善于從大數據中進行再過濾、再選擇。問題在于什么是無用的或不重要的數據?該如何過濾與選擇數據?這就需要對已經存在的數據進行重要性分析、真偽別和關聯物定位。
此外,大的數據庫可能需要將信息分散在不同的硬盤或電腦上,這樣一來,在不能同步更新數據信息的情況下如何選擇、調用和匹配數據又是一個問題。因此從某種意義上講,從大數據中收集數據就是識別、整理、提煉、汲取( 刪除) 、分配和存儲元數據的過程。
(三) 分析數據的思維要變化
基于上述兩個變化,數據分析的思維必然要跟著變化,那就是要主動利用現代信息技術與各種軟件工具從大數據中挖掘出有價值的信息,并在這個過程中豐富和發展統計分析方法。
關于數據分析思維的變化,特別需要強調三點:
第一,傳統的統計分析過程是“定性—定量—再定性”,第一個定性是為了找準定量分析的方向,主要靠經驗判斷,這在數據短缺、分析運算手段有限的情況下很重要。現在我們是在大數據中找礦,直接依賴數據分析做出判斷,因此基礎性的工作就是找到“定量的回應”,這在存儲能力大為增強、分析技術與分析速度大為提高的今天,探測“定量的回應”變得越來越簡單,所要做的就是直接從各種“定量的回應”中找出那些真正的、重要的數量特征和數量關系,得出可以作為判斷或決策依據的結論,因此統計分析的過程可以簡化為“定量—定性”,從而大大提高得到新的定性結論的可能性。
第二,傳統的統計實證分析,一般都要先根據研究目的提出某種假設,然后通過數據的收集與分析去驗證該假設是否成立,其分析思路是“假設—驗證”,但這種驗證往往由于受到假設的局限、指標選擇的失當、所需數據的缺失而得不出真正的結論。特別是,一旦假設本身不科學、不符合實際,那么分析結論就毫無用處、甚至扭曲事實真相。事實證明,很多這樣的實證分析純粹是為了湊合假設。現在,我們有了大數據,可以不受任何假設的限制而從中去尋找關系、發現規律,然后再加以總結、形成結論。也就是說,分析的思路是“發現—總結”。這將極大地豐富統計分析的資源與空間,有助于發現更多意外的“發現”。
第三,傳統的統計推斷分析,通常是基于分布理論,以一定的概率為保證,根據樣本特征去推斷總體特征,其邏輯關系是“分布理論—概率保證—總體推斷”,推斷的評判標準與具體樣本無關,但推斷是否正確卻取決于樣本的好壞。現在,大數據強調的是全體數據,總體特征不再需要根據分布理論進行推斷,只需進行計數或計量處理即可。不僅如此,還可以根據全面數據和實際分布來判斷其中出現某類情況的可能性有多大,其邏輯關系變成了“實際分布—總體特征—概率判斷”,也即概率不再是事先預設,而是基于實際分布得出的判斷。按照邁爾 -舍恩伯格的觀點,這個概率判斷就可用于預測了。
伴隨著上述三大變化,統計分析評價的標準又該如何變化? 傳統統計分析的評價標準無非兩個方面,一是可靠性評價,二是有效性評價,而這兩種評價都因抽樣而生。所謂可靠性評價是指用樣本去推斷總體有多大的把握程度,是以概率來度量的———有時表現為置信水平,有時表現為顯著性水平。特別是在假設檢驗和模型擬合度評價中,顯著性水平怎么定是一個難題,一直存在爭議,因為所參照的分布類型不同其統計量就不同,顯著性評價的臨界值就不同,而臨界值又與顯著性水平的高低直接相關。然而在大數據的背景下,大數據在一定程度上就是全體數據,我們可以對全體數據進行計數或計量分析,這就不存在以樣本推斷總體的問題了,那么這時還有沒有可靠性的問題?還要不要確定置信水平?怎么確定?依據是什么?如何比較來自不同容量數據庫的分析結論的可靠性?
所謂有效性評價指的是真實性,即誤差大小。這里又有兩個相關的概念: 準確性與精確性。準確性一般是指一個觀察值與真實值的吻合程度,通常情況下是無法做出測度的; 而精確性一般指樣本統計量分布的離散程度,以抽樣分布的標準差來衡量。很顯然,精確性是針對樣本數據而言的。也就是說樣本數據既有精確性問題又有準確性問題,樣本數據中的誤差既包括抽樣誤差也可能包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進行計算和控制,而非抽樣誤差只能通過各種方式加以識別或判斷,但多數情況下由于樣本量不是太大而可以得到較好的防范。但對于大數據,由于它是全體數據,因而不再有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數據的真實性只表現為準確性而非精確性。然而由于大數據是超大量數據,再加上混雜性與多樣性,因此其非抽樣誤差很難防范與控制,這就使得準確性評價問題變得更為困難———如何測度?標準怎樣?
三、積極應對大數據
面對大數據,我們唯有積極應對,別無選擇。如何應對,需要考慮以下幾個方面:
(一) 需要改變總體、個體乃至樣本的定義方式
傳統的統計分析,是先有總體,再有數據,即必須先確定總體范圍和個體單位,再收集個體數據,分析總體。但對大數據來說,情況完全不同了,是先有數據,再有總體。從某種意義上說,大數據的產生系統多數是非總體式的,即無事先定義的目標總體,只有與各個時點相對應的事后總體,原因就在于個體是不確定的,是變化著的,是無法事先編制名錄庫的,這與傳統的總體與個體有很大的不同。更為復雜的是,事后個體的識別也很困難,因為同一個個體可能有多個不同的網絡符號或稱謂,而不同網絡系統的相同符號( 稱謂) 也未必就是同一個個體,而且還經常存在個體異位的情況( 即某一個體利用另一個體的符號完成某種行為) ,因此我們對于大數據往往是只見“數據”的外形而不見“個體”的真容。但對大數據的分析,仍然有一個總體口徑問題,依然需要識別個體身份。這就需要我們改變總體與個體的定義方式———盡管它們的內涵沒有變。與此對應,如果要從大數據庫中提取樣本數據,那么樣本的定義方式也需要改變。當然,考慮到大數據的流動變化性,任何時點的總體都可以被理解為一個截面樣本。
(二) 需要改變對不確定性的認識
眾所周知,統計學是為了認識和研究事物的不確定性而產生的,因為無論是自然現象還是社會經濟現象,都時時處處充滿著因個體的差異性而引起的不確定性,因為在大多數情況下我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息,而人們總是期望通過量化事物的不確定性去發現規律、揭示真相,認識不確定性背后的必然性。要研究不確定性就需要收集數據,在只能進行抽樣觀測的情況下,這種不確定性就表現為如何獲得樣本、如何推斷總體( 包括估計與檢驗) 和如何構建模型等方面。對于大數據,仍然存在著個體的差異性,區別只在于它包括了一定條件下的所有個體,而不是隨機獲得的一個樣本。這樣,大數據的不確定性就不再是樣本的獲取與總體的推斷,而是數據的來源、個體的識別、信息的量化、數據的分類、關聯物的選擇、節點的確定,以及結論的可能性判斷等方面。可以說,大數據的不確定性只來自于其來源的多樣性與混雜性,以及由于個體的可變性所引起的總體多變性,而不是同類個體之間的差異性———因為我們已經掌握了一定條件下的完全信息。
(三) 需要建立新的數據梳理與分類方法
大數據的多樣性與混雜性,以及先有數據、后有總體的特點,原有的數據梳理與分類方法將受到諸多的限制。傳統的數據梳理與分類是按照預先設定的方案進行的,標志與指標的關系、分類標識與分組規則等都是結構化的,既是對有針對性地收集的數據的加工,也是統計分析的組成部分。但對于大數據,由于新的網絡語言、新的信息內容、新的數據表現形式不斷出現,使得會產生哪些種類的信息、有哪些可以利用的分類標識、不同標識之間是什么關系、類與類之間的識別度有多大、信息與個體之間的對應關系如何等,都無法事先加以嚴格設定或控制,往往需要事后進行補充或完善。面對超大量的數據,我們從何下手? 只能從數據本身入手,從觀察數據分布特征入手。這就需要采用不同的數據梳理與分類方法。否則,要想尋找到能有效開展數據分析的路徑是不可能的。因此根據大數據的特點,創新與發展數據的梳理與分類方法,是有效開展大數據分析的重要前提。這里需要強調的是,能否建立起能自動進行初步的數據梳理與分類的簡單模型? 因為從技術上講,我們已經具備了一定的對大數據進行多次迭代建模的算法。
(四) 需要強化結構化數據與非結構化數據的對接研究
有效實現結構化數據與非結構化數據的對接,是數據概念拓展的必然結果。盡管大數據是超大量數據,但大數據不能涵蓋所有的數據,因此傳統意義上的結構化數據與大數據中的非結構化數據必將長期并存。大數據時代的來臨,使得數據收集、存儲與分析的能力大為增強,而且步伐越來越快,但出于針對性與安全性考慮,總有一些結構化數據要通過專門的方式去收集而不能依賴于公共網絡系統( 例如政府統計數據,專題研究數據) 。這樣,如何既能有針對性地收集所需的結構化數據,又能從大量非結構化數據中挖掘出有價值的信息,使兩者相輔相成、有機結合,就成了一個新的課題,值得探討的問題包括非結構化數據如何結構化或結構化數據能否采用非結構化的表現形式等。通過特定的方法,實現結構化數據與非結構化數據的轉化與對接是完全可能的。但要實現這種對接,必須要增強對各種類型數據進行測度與描述的能力,否則大數據分析就沒有全面牢固的基礎。如果說傳統的基于樣本數據的統計分析側重于推斷,那么基于大數據的統計分析需要更加關注描述。
(五) 需要轉變抽樣調查的功能
對于傳統的數據收集而言,抽樣調查是最重要的方式。盡管樣本只是總體中的很小一部分,但由于依據科學的抽樣理論,科學設計的抽樣調查能夠確保數據的精確度和可靠性。但抽樣調查畢竟存在著信息量有限、不可連續擴充、前期準備工作要求高等缺陷,很難滿足日益增長的數據需求。現在有了大數據,我們應該利用一切可以利用的、盡量多的數據來進行分析而不是僅局限于樣本數據。但這是否意味著抽樣調查可以退出歷史舞臺呢? 筆者認為還為時過早,在信息化、數字化、物聯網還不能全覆蓋的情況下,仍然還有很多數據信息需要通過抽樣調查的方式去獲取。與此同時,盡管我們可以對大數據進行全體分析,但考慮到成本與效率因素,在很多情況下抽樣分析仍然是不錯的或明智的選擇。當然,抽樣調查也要適當轉變其功能以便進一步拓展其應用空間: 一是可以把抽樣調查獲得的數據作為大數據分析的對照基礎與驗證依據; 二是可以把抽樣調查作為數據挖掘、快速進行探測性分析的工具———從混雜的數據中尋找規律或關系的線索。
(六) 需要歸納推斷法與演繹推理法并用
哲人培根說過“知識就是力量”。統計研究的任務就是為了發現新的知識,歸納法則是發現新知識的基本方法。因此,歸納推斷法成為最主要的統計研究方法,使得我們能夠從足夠多的個體信息中歸納出關于總體的特征。當然,歸納推斷的依據通常是樣本數據,即在歸納出樣本特征的基礎上再推斷總體。對于大數據,我們依然要從中去發現新的知識,依然要通過具體的個體信息去歸納出一般的總體特征,因此歸納法依然是大數據分析的主要方法。正如 C. R. 勞指出: “‘從數據中提取一切信息’或者‘歸納和揭示’作為統計分析的目的一直沒有改變。”但是,大數據是一個信息寶庫,光重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個體信息,以及某些特殊的、異常的信息———或許它( 們) 代表著一種新生事物或未來的發展方向,還需要通過已掌握的分布特征和相關知識與經驗去推理分析其他更多、更具體的規律,去發現更深層次的關聯關系,去對某些結論做出判斷,這就需要運用演繹推理法。演繹法可以幫助我們充分利用已有的知識去認識更具體、細小的特征,形成更多有用的結論。只要歸納法與演繹法結合得好,我們就既可以從大數據的偶然性中發現必然性,又可以利用全面數據的必然性去觀察偶然性、認識偶然性、甚至利用偶然性,從而提高駕馭偶然性的能力。
(七) 需要相關分析與因果分析并重
《大數據時代》認為,我們只須從大數據中知道“是什么”就夠了,沒必要知道“為什么”,并且指出“通過給我們找到一個現象的良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來”以及“建立在相關關系分析法基礎上的預測是大數據的核心”。毫無疑問,從超大量數據中發現各種真實存在的相關關系,是人們認識和掌控事物、繼而做出預測判斷的重要途徑,而大數據時代新的分析工具和思路可以讓我們發現很多以前難以發現或不曾注意的事物之間的聯系,因此大力開展相關分析是大數據時代的重要任務。但是,我們僅僅停留于知道“是什么”是不夠的,還必須知道“為什么”,正所謂“既要知其然,更要知其所以然”,只有這樣才能更好地理解“是什么”———為什么需要把手電筒與蛋撻放在一起。只有知道原因、背景的數據才是真正的數據。因此探求“是什么”背后的原因始終是人類探索世界的動力,因果分析是人類永恒的使命。哲學家德謨克利特早就指出: “與其做波斯國王,還不如找到一種因果關系。”如果我們只知道相關關系而不知道因果關系,那么數據分析的深度只有一半,一旦出現問題或疑問就無從下手。而如果我們知道了因果關系,就可以更好地利用相關關系,就可以更好地掌握預測未來的主動權,就可以幫助我們更科學地進行決策。當然,因果分析是困難的,正因為困難,所以要以相關分析為基礎,要更進一步利用好大數據。相關分析與因果分析不是互相對立的,而是互補的,兩者必須并重。
(八) 需要統計技術與云計算技術融合
盡管用于收集和分析數據的統計技術已相對成熟、自成體系,但其所能處理的數據量是有限的,面對不可同日而語的大數據、特別是其中大量的非結構化數據,恐怕單憑一己之力是難以勝任的,只能望“數”興嘆。首先遇到的問題就是計算能力問題,這就要求我們在不斷創新與發展統計技術的同時,還要緊緊依靠現代信息技術、特別是云計算技術。云計算技術主要包括虛擬化、分布式處理、云終端、云管理、云安全等技術,或者說以編程模型、數據存儲、數據管理、虛擬化、云計算平臺管理等技術最為關鍵。借助云計算技術可以將網格計算、分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術與現代網絡技術融合起來,把多個計算實體整合成一個具有強大計算能力的系統,并借助 SaaS、PaaS、IaaS、MSP 等商業模式把它分布到終端用戶手中。云計算的核心理念就是不斷提高“云”處理能力來減少用戶終端的處理負擔,使用戶終端簡化成一個單純的輸入輸出設備,并能按需享受強大的“云”計算處理能力。可見,統計技術與云計算技術的融合是一種優勢互補,只有這樣統計技術才能在大數據時代一展身手、有所作為,才能真正把統計思想在數據分析中得到體現,實現統計分析研究的目的。
數據創造統計,流量創新分析。由于各個應用領域的不斷變化,特別是數據來源與類型的不斷變化,使得統計學還難以成為一門真正成熟的科學。因此,在數據分析的世界里,不斷提高駕馭數據的能力是統計學發展的終身動力。
文章熱詞: 大數據管理專題; ·大數據 ·統計新思維作者:不詳;上傳用戶:minghao;上傳時間:2016-6-17;來源:360大數據