- 註冊時間
- 2012-1-6
- 積分
- 8438
- 精華
- 0
- 帖子
- 1525
- 閱讀權限
- 100
- 最後登錄
- 2024-10-15
- UID
- 5
- 帖子
- 1525
- 主題
- 739
- 記錄
- 1
- 分享
- 0
- 日誌
- 213
- 閱讀權限
- 100
- 最後登錄
- 2024-10-15
- 在線時間
- 2326 小時
|
資料前處理
本帖最後由 hlperng 於 2020-9-15 12:47 編輯
品質與統計技術息息相關、人工智慧基於統計學習的發展。
資料分析是利用統計技術與機率理論尋找資料的規律與趨勢,分辨出其中那些是對決策制定有用的真實趨勢、那些是沒有意義的統計雜訊,統計技術對資料分析的影響是不可言語的。
資料分析可以應用在特徵工程 (feature engineering)、資料科學與資料工程 (data science and data engineering)。
資料分析的實踐包括物理、數理、道理等過程。
資料分析分為探索式資料分析 (exploratory data analysis, EDA) 與確認式資料分析 (confirmatory data analysis, CDA)兩類。
探索式資料分析 (EDA) 是一種運用視覺化或基本統計工具進行資料全貌探索分析的方法. 研究人員在應用統計技法之前,根據本身對於物理與工程的專業直覺或知識基礎,從宏觀的角度觀察資料,利用圖形與資料轉換技法,先行對資料進行概廓式的診斷、分析與判斷,作為後續進一步引用更精準細膩方法的基礎。基本上,EDA 是一種藝術、哲學、而不是科學。EDA 是大數據與人工智慧應用的基本功,可以提早發現資料的品質問題,找出重要的變數,甚至為後續分析提供更明確的方向。- 了解資料:資料可以提供的資訊,資料的結構等。
- 檢查資料:資料是否有離群值或異常值,或者不尋常數值。
- 資料之間關聯:煮出重要的變數。
EDA 包括定量分析法與圖解分析法兩部分,定量分析技法的案例包括:假設檢定、變異數分析,參數點推定語區間推定、最小平方回歸。常用的圖解分析法包括:散布圖、直方圖、機率圖、殘差圖、盒鬚圖、方塊圖等。
即使是簡單的資料,圖形也可以提供許多內涵的訊息。圖形有助於理解與獲得統計模型的品質,避免太早對提議的模型有未審先判與欠缺驗證造成虛耗浪費分析工作的疑慮。
NIST 工程統計手冊推薦的 EDA 視覺化四圖 (4 plot) 圖形:- 走勢次序圖 (run sequence plot)
- 遲滯圖 (lag plot)
- 直方圖 (histogram)
- 常態機率圖 (normal probability plot)
六圖圖形:
- 預測散布圖:反應與預測值對獨立變數
- 殘差散布圖:殘差對獨立變數
- 殘差預測散布圖:殘插對預測值散布圖
- 殘差遲滯圖
- 殘差直方圖
- 殘差常態機率圖
確認式資料分析 (CDA) 為傳統統計資料分析,包括機率分布適配、統計假設推定、圖解參數推論、變異數分析、相關與回歸等。
描述統計量
參考資料:
|
|