在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 傳統統計數據和大數據探究范文

傳統統計數據和大數據探究范文

本站小編為你精心準備了傳統統計數據和大數據探究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

傳統統計數據和大數據探究

《電信快報雜志》2016年第9期

摘要:

傳統統計數據與大數據之間的演變歷史、數據特征等方面展開討論,厘清兩者之間存在的千絲萬縷但又千差萬別的聯系,提出傳統統計數據是大數據的簡單形式和初期階段,大數據是傳統統計數據的復雜演化形態的論斷,指出兩者在數據分析思維方式上存在巨大差異,并對數據質量管理內涵、全周期數據質量保證等問題提出不同的解決思路和方案。

關鍵詞:

傳統統計數據;大數據;數據分析;數據質量

0引言

傳統統計數據的內涵在于揭示數字背后信息與現實世界的關系。大數據是指巨量數據,是無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。從傳統統計數據到大數據的持續演變導致在理論層面大數據內涵復雜,并與傳統統計數據在信息界限上概念模糊。從傳統統計數據到大數據不僅是量的積累,更是質的飛躍。厘清傳統統計數據與大數據之間的內涵辯證關系,是有效利用數據的基礎和關鍵。

1傳統統計數據向大數據演變的動力

信息技術的進步為傳統統計數據向大數據演變提供了物質和技術基礎。隨著互聯網的日益發展,每一次網絡存儲技術的進步都使信息的生產、存儲、傳輸成本大幅度降低,而流通的范圍、深度、速度則顯著提升。JimGray的新摩爾定理認為,每18個月全球新增信息量是計算機有史以來全部信息量的總和,新摩爾定律以信息量的維度確定了數據化演變信息的節奏。這種趨勢導致的基本形態就是數據信息空前豐富,大數據成為了研究和利用熱點。信息需求多樣化與個性化是傳統統計數據向大數據演變的基本動力。數據最終是為信息需求服務的,用戶信息價值最大化才是數據應用的關鍵所在。在數據化趨勢下,隨著人們認知實踐與需求狀態的變化,數據一方面從滿足基本特定信息需求到利用復雜的數據屬性解析出多樣化信息需求轉變,另一方面從被動滿足簡單需求到主動發掘復雜有效需求,并探知用戶個性化信息需求轉變。這兩方面成為傳統統計數據項大數據內涵演變的基本動力。相應地,數據內涵也從樸素的信息真實業務邏輯向滿足復雜需求的數據化邏輯遷移。隨著信息技術的發展和用戶需求的變化,信息效率價值的實時化及數據泛濫造成數據噪聲增強和有效信息稀缺現象,大數據應運而生。傳統統計數據是大數據的簡單形式和初期階段,大數據是傳統統計數據的復雜演化形態。

2傳統統計數據與大數據的數據特征差異

數據量增多是人們區別傳統統計數據與大數據的第一個認識。傳統統計數據數據量小,以MB、GB、TB等為存儲單位。大數據數據量大,一般以PB、EB、ZB等為存儲單位。但這兩者之間特征區別并不僅僅是體量,還包括數據類型、研究對象的范圍、信息視角等方面。

2.1傳統統計數據與大數據的數據類型對比

傳統統計數據是一種結構化的標準數據。其數據類型單一,主要以結構化、體量小、標準化、價值密度高及周期化數值為特征,數據產生和變化的速度慢。其數據特點是樸素真實、簡單有限、準確性高及被動有用性。大數據統計范疇擴大、數據類型復雜,其中包括:a)非結構化非標準數據,如動態實時時序數據。b)半結構化數據和非結構化數據,如文本、圖像、視頻等。c)現有的結構化數據,如傳統統計數據。其數據模型具有復雜多維的特征,統計結果多是非精確多種相關性趨勢數據。大數據具有4個V基本特征,即Volume(體量浩大)、Variety(模態繁多)、Velocity(生成快速)和Value(價值巨大但密度很低),且具有來源多樣、實時、多元的信息化特點。這些特點導致數據在產生、獲取、存儲、傳輸和計算過程中,因體量大、快速多變易產生沖突和不一致,人工很難檢測和修復。

2.2傳統統計數據與大數據的研究對象范圍不同

傳統統計數據的研究對象是宏觀視角下有限的隨機樣本數據。隨著信息化的發展,實踐中產生大量冗余沉淀數據,這一時期經過清洗的全樣本數據是數據挖掘的研究對象。而大數據面對的則是原生態全樣本數據,也就是所謂的總體數據。從隨機樣本數據到經過清洗的全樣本數據再到原生態總體數據,數據內涵總體信息視角從宏觀向中觀和微觀擴散。研究對象范圍向寬度和深度兩個方向不斷擴展,不斷深入系統微觀的多維度個體感知,信息能力和價值也不斷提升。這種轉變來自技術和需求的驅動,新型數據處理技術及需求獲取能力成為演變的關鍵因素。

3大數據相對傳統統計數據分析方式的變革

數據中蘊含的寶貴價值成為人們存儲和處理數據的驅動力,數據分析是實現數據價值的必要途徑。由于傳統統計數據與大數據在體量、結構、內涵等方面有著本質的區別,所遵循的數據分析理論基礎、分析思路、相關技術也不同。

3.1傳統統計數據與大數據數據分析的理論基礎

對傳統統計數據進行數據分析的理論基礎是分布理論,以概率為保證,即根據樣本去推斷總體特征,其邏輯關系是“分布理論—概率保證—總體推斷”,分析過程是“假設—驗證”基礎上的“定性—定量—再定性”。對大數據進行數據分析是以全體數據為基礎,以數據信息相關為保證,其邏輯關系是“實際分布—總體特征—概率判斷”,可以不受任何假設的限制去尋找關系、發現規律,分析過程是“定量—定性”及“發現—總結”重要數量特征和關系基礎上的定量回應。

3.2傳統統計數據與大數據數據的分析思路

傳統統計數據價值的實現路徑為“數據到信息再到知識和智慧”。傳統統計數據分析著力于經典嚴密封閉系統的精確性和因果關系的探索,找到事物屬性之間的因果關系,比較容易實現。對于開放復雜的巨系統,傳統的因果分析難以奏效,因為系統中各個組成部分之間相互有影響,可能互為因果,因果關系隱藏在整個系統中。因果關系本質上是一種相互糾纏的相關性。大數據數據分析無法檢驗邏輯上的因果關系,不能致力于尋找真正的原因。Mayer-Sch觟nberger在《大數據時代》一書中指出了大數據時代處理數據理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。因此,大數據分析邏輯體現為走“數據直接到價值”的捷徑。大數據數據分析關注事物相關性認知分析,所謂相關性是指兩個或兩個以上變量的取值之間存在某種規律性,即對數量巨大的數據進行統計性的搜索、比較、聚類、分類等分析歸納。相關分析的目的是找出數據集里隱藏的相互關系網(關聯網),一般用支持度、可信度、興趣度等參數反映相關性。

3.3傳統統計數據與大數據的數據分析處理技術

進行數據分析需要相應的數據分析處理技術以及技術人員的全力參與。數據分析領域面臨的主要矛盾是快速增長的數據信息需求與有限統計資源和滯后數據處理能力的矛盾。信息技術應用成本的低廉化和性能效率的聚變成為數據需求和質量要求快速增長的基本動力。傳統統計數據的分析和處理遵循一般的關系數據庫的數據分析和處理技術,技術人員經過一定的訓練即可勝任。對大數據進行分析和處理需考慮以下技術因素:a)數據清洗。大數據價值密度低、冗余數據增多、垃圾數據泛濫,大數據清洗需要專業和細致。數據不能清洗過細,否則會增加數據清洗復雜度,甚至有可能過濾掉有用信息。數據也不能清洗過粗,要保證數據篩選的效果。b)以MapReduce(一種編程模型)和Hadoop(Apache基金會所開發的分布式系統基礎架構)為代表的非關系型數據庫的非關系型數據分析技術,因其具有良好的橫向擴展性,在大數據分析處理中得到廣泛應用。c)要深入分析數據,數據分析人員既要熟悉數據分析技術和工具,又要具備相關領域的專業知識。

4傳統統計數據與大數據的數據質量內涵

高質量數據是進行數據分析的前提和基礎,是數據發揮效能的保證。傳統統計數據數據質量以有限信息邏輯的因果性、確定性、清晰且高度的結構化為主要特征,主要關注數據自身本源的質量問題,例如準確性、完整性和客觀性。質量標準至少應該包括指標解釋(含義、范圍、口徑)、數據特征、調查方法、統計誤差、獲取時間、頻率及渠道等方面的內容。大數據以既定邊界內總體數據系統相關性的隨機、自身的不確定性以及總體的非結構化為特征。由于數據質量問題在大數據環境下會被不斷放大,因此,大數據主要關注數據可信與溯源等非數據本源性質量問題,即數據資源產生后在傳輸、存儲和應用過程中產生的突顯問題。下面重點從流程和管理兩方面分析傳統統計數據和大數據所面臨的數據質量的挑戰及應對措施。

4.1從流程視角看數據質量保證

從流程的角度(即從數據生命周期角度)來看,可以將數據生產過程分為數據采集、數據存儲和數據使用三個階段,三個階段對傳統統計數據和大數據的質量保證提出了不同的要求。

1)數據采集過程中數據質量保證問題

數據采集階段是整個數據生命周期的開始,這個階段的數據質量對后續階段的數據質量有著直接的、決定性的影響。傳統統計數據數據量小,通過編寫簡單的匹配程序,甚至是人工查找即可實現多數據源中不一致數據的檢測和定位。大數據由于數據來源復雜,數據之間存在著沖突、不一致或相互矛盾的現象。因此,需要在數據獲取階段保證數據定義的一致性及元數據定義的統一性,以保證數據質量。

2)數據存儲過程中數據質量保證問題

數據存儲是實現高水平數據質量的基本保障,如果數據不能被一致、完整、有效的存儲,數據質量將無從談起。傳統統計數據以結構化數據為主,主要采用傳統的結構化數據存儲架構(如關系型數據庫)進行數據的存儲。大數據數據結構多樣、數量龐大、數據結構復雜、變化速度快,需要使用專門的數據庫技術和專用的數據存儲設備進行大數據存儲,以保證數據存儲的有效性,方便對數據進行快速讀取。數據庫一般采用分布式文件系統和分布式并行數據庫(如HDFS〔分布式文件系統〕、BigTable〔Google設計的分布式數據存儲系統〕等),在數據存儲過程中,數據格式的轉換非常關鍵和復雜,要根據大數據結構的要求和特點合理設計數據存儲和使用規則。

3)數據使用過程中數據質量保證問題

數據價值的發揮在于對數據的有效分析和應用。傳統統計數據的使用需要遵從關系型數據的完整性約束和數據一致性保證技術要求。由于大數據使用人員眾多,數據規模龐大、變化速度快,對數據的處理速度要求較高,很多時候需要同步、不斷地對數據進行提取、分析、更新和使用,因此需要保證數據使用的一致性。

4.2從管理視角看數據質量保證

傳統統計數據一般由業務部門負責掌管數據,IT部門負責信息技術的應用,這種分離式的運營管理方式容易造成業務人員不了解分析不同數據所需的不同IT工具,而IT人員在運用IT技術分析數據時不了解數據本身的內涵,甚至會做出錯誤的數據解釋,影響了企業決策的準確性和有效性。為了更好地利用大數據,保證大數據的質量,企業高層管理者應給與重視和支持,需在高層配備專業數據管理人員。在大數據生產過程的任何一個環節,企業都應該配備相應的專業數據管理人員,如由專門人員負責記錄定義并記錄元數據,收集原始數據,建模、提取并利用隱藏在大數據中的信息。

5結束語

傳統統計數據和大數據是數據科學發展過程中由于技術的發展和客戶需求的多樣化、個性化而必然出現的數據階段。由于兩者之間關系不清,界限模糊,采集、分析、處理等技術多樣,難度大,因此,從業者難免存在模糊認識和畏難情緒。本文從兩者的演變歷史、數據特征、數據分析和質量管理等方面對兩者的異同進行辨析,指出傳統統計數據是大數據的簡單形式和初期階段,大數據是傳統統計數據的復雜演化形態,大數據從廣義上來講包含了傳統統計數據。試圖通過對兩者的辨析為從業者提供一個辯證和清晰的思路。數據的分析應用無止境,任重而道遠。

參考文獻:

1劉軍華.大數據視野下統計數據質量演變的信息回歸、分布與趨勢[J].統計與信息論壇,2015(9):7-11.

2祝君儀.大數據時代背景下統計數據質量的評估方法及適用性分析[J].中國市場,2015(29):41-42.

3李國杰.對大數據的再認識[J].大數據,2015(1):1-9.

4程學旗,靳小龍,等.大數據系統和分析技術綜述[J].軟件學報,2014(9):1889-1908.

5宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013(5):38-43.

作者:李敬華 賈蓓 李倩茹 單位:西安通信學院

主站蜘蛛池模板: 亚洲国产成人在人网站天堂 | 在线小视频 | 国产高清自拍视频 | 亚洲国产精品67194成人 | 欧美日韩免费在线观看 | 欧美综合视频在线 | 一级片在线观看 | 日本波多野结衣在线观看 | 久久精品亚洲视频 | 丁香激情综合色伊人久久 | 中文字幕在线不卡精品视频99 | 在线高清免费爱做网 | 婷婷丁香六月天 | 羽田真理n1170在线播放 | 麻豆精品久久久一区二区 | 久久综合久久精品 | 自拍天堂| 最近电影免费观看在线 | 一级片在线观看 | 欧美精品福利在线视频 | 热久久最新视频 | 一区二区三区亚洲视频 | 精品久久免费视频 | 亚洲高清一区二区三区久久 | 亚洲六月丁香六月婷婷色伊人 | 国产黄色在线免费观看 | 日韩精品久久一区二区三区 | 亚洲午夜精品在线 | 一区二区在线看 | 亚洲国产欧美自拍 | 色播视频在线观看免费 | 日韩欧美在线观看 | 国产精品一二三区 | 久久高清免费 | 国产精品久久久久久久久久一区 | 最近中文字幕电影大全免费版 | 五月婷婷六月综合 | 中文字幕永久免费 | 成人在线一区二区 | 亚洲国产精品免费 | 国产高清在线观看视频手机版 |