睿地可靠度論壇(TW-REDI Forum)

標題: QKC20200911:彭鴻霖_人工智慧 (AI) 在品質技術的應用系列 (7) 問題確認與資料前處理 [打印本頁]

作者: hlperng    時間: 2020-9-9 13:30:28     標題: QKC20200911:彭鴻霖_人工智慧 (AI) 在品質技術的應用系列 (7) 問題確認與資料前處理

本帖最後由 官生平 於 2020-9-15 08:49 編輯

品質學會品質知識社群 (QKC) 研討會
專題:研討會_人工智慧 AI 在品質技術的應用系列 (7) 問題確認與資料前處理
時間:2020 年 09 月 11 日 (星期五) 19:00 - 21:00   
地點:品質學會九樓教室(台北市羅斯福路 2 段 75 號)
主講:官生平會友
[attach]3124[/attach][attach]3125[/attach][attach]3126[/attach][attach]3127[/attach][attach]3123[/attach][attach]3121[/attach]
作者: hlperng    時間: 2020-9-10 07:46:11     標題: 資料前處理

本帖最後由 hlperng 於 2020-9-15 12:47 編輯

品質與統計技術息息相關、人工智慧基於統計學習的發展。
資料分析是利用統計技術與機率理論尋找資料的規律與趨勢,分辨出其中那些是對決策制定有用的真實趨勢、那些是沒有意義的統計雜訊,統計技術對資料分析的影響是不可言語的。

資料分析可以應用在特徵工程 (feature engineering)、資料科學與資料工程 (data science and data engineering)。

資料分析的實踐包括物理、數理、道理等過程。

資料分析分為探索式資料分析 (exploratory data analysis, EDA)  與確認式資料分析 (confirmatory data analysis, CDA)兩類。

探索式資料分析 (EDA) 是一種運用視覺化或基本統計工具進行資料全貌探索分析的方法.  研究人員在應用統計技法之前,根據本身對於物理與工程的專業直覺或知識基礎,從宏觀的角度觀察資料,利用圖形與資料轉換技法,先行對資料進行概廓式的診斷、分析與判斷,作為後續進一步引用更精準細膩方法的基礎。基本上,EDA 是一種藝術、哲學、而不是科學。EDA 是大數據與人工智慧應用的基本功,可以提早發現資料的品質問題,找出重要的變數,甚至為後續分析提供更明確的方向。
EDA 包括定量分析法與圖解分析法兩部分,定量分析技法的案例包括:假設檢定、變異數分析,參數點推定語區間推定、最小平方回歸。常用的圖解分析法包括:散布圖、直方圖、機率圖、殘差圖、盒鬚圖、方塊圖等。
即使是簡單的資料,圖形也可以提供許多內涵的訊息。圖形有助於理解與獲得統計模型的品質,避免太早對提議的模型有未審先判與欠缺驗證造成虛耗浪費分析工作的疑慮。

NIST 工程統計手冊推薦的 EDA 視覺化四圖 (4 plot) 圖形:
[attach]3113[/attach]


六圖圖形:

[attach]3114[/attach]



確認式資料分析 (CDA) 為傳統統計資料分析,包括機率分布適配、統計假設推定、圖解參數推論、變異數分析、相關與回歸等。

描述統計量



參考資料:




作者: hlperng    時間: 2020-9-10 17:16:57     標題: 資料前處理方法

本帖最後由 hlperng 於 2020-9-10 17:29 編輯

了解數據分析背後的動機,尋找與資料最搭配的數學模型。

標準化 (standardization):

常態化 (normalization):資料前處理步驟,尋求不變量,以便消除或減少後續資料處理作業負擔。

規則化 (regularalization):a method to avoid high variance and overfitting as well as increase generalization.

通用化 (generalization):資料處理時選擇適配的模型進行推論決策 (參數推定或假設檢定) 制定,減少資料量、提前停止、權重衰減、整合、輸入轉換、隨意規則化。增加數學模型的參數數目,擴大模型的詮釋能力或應用領域。適配過度 (overfitting) 或適配不足 (underfitting)
最適化 (optimization):損失最小的最是參數組合。

偏差 (bias) 與變異 (variance)








歡迎光臨 睿地可靠度論壇(TW-REDI Forum) (http://tw-redi.com/) Powered by Discuz! X2