數據科學是一門新興的以數據為研究中心的學科。作為一門學科,數據科學以數據的廣泛
性和多樣性為基礎,探尋數據硏究的共性。數據科學也是一門關于數據工程的學科,它需要同
時具備理論基礎和工程經驗,需要掌握各種工具的用法。數據科學主要包括兩個方面:用數據
的方法來硏究科學和用科學的方法來研究數據。數據清洗是數據科學家完成數據分析和處理任
務過程中必須面對的重要環。具體來說,數據科學的一般處理過程包括如下幾個步驟:
(1)問題陳述:明確需要解決的問題和任務。
(2)數據收集與存儲:通過多種手段采集和存放來自眾多數據源的數據。
(3)數據清洗:對數據進行針對性的整理和規范,以便于后面的分析和處理。
(4)數據分析和挖掘:運用特定模型和算法來尋求數據中隱含的知識和規律。
(5)數據呈現和可視化:以恰當的方式呈現數據分析和挖掘的結果
(6)科學決策:根據數據分析和處理結果來決定問題的解決方案。
來自多樣化數據源的數據內容并不完美,存在著許多“臟數據”,即數據不完整、有
缺失,存在錯誤和重復的數據,數據中有不一致和沖突等缺陷。數據清洗就是對數據進行
審查和校驗,發現不準確、不完整或不合理的數據,進而刪除重復信息、糾正存在的錯誤,
并保持數據的一致性、精確性、完整性和有效性,以提高數據的質量。
數據清洗并沒有統一的定義,其定義依賴于具體的應用領域。從廣義上講,數據清洗
是將原始數據進行精簡以去除冗余和消除不一致性,并使剩余的數據轉換成可接收的標準
格式的過程。