資訊通常「隱藏」在非顯而易見的資料中,分析人員需花費數週才能發現有用的資訊,而多數的資料並未經過分析。在未建立假設之下分析資料,進而發現假設的想法中,出現了「資料探勘(Data Mining)」的分析方法。資料探勘可以想成是為了從大量的資料發現假設或規則,所進行的一種資料分析過程。本書是學習資料探勘的入門圖解書,因為是定位在「入門」與「圖解」,所以盡力不出現數學的話題。因此,基本上是採取按照手法的內容去分析,即可得出此種結果之方式來說明,對於手法的數學背景幾乎不涉獵。
本書是在如下的方針來撰寫:
1.以例題方式作為基本。
2.解說資料探勘可以做什麼?如何閱讀結果?如何活用?不說明計算方法與理論上的背景。
3.可以理解分析方法的觀念。
4.例題不偏向行銷領域,也從製造、醫學、工程等領域中列舉。
本書是以例題方式解說資料探勘的想法與方法,由於資料探勘是以大量資料作為對象,故在說明例題時,將全部資料揭載是做不到的。可是,這又會讓讀者無法一面依循資料一面去理解。因此,例題中所列舉的資料量,對資料探勘而言是不適合的少量。然而,這是為了讓讀者理解「想法」所採取的不得已作法。因此,在本書例題中出現的資料量,並非是實際資料探勘中所採用的資料量,僅止於內容的說明與用法,想進一步了解相關內容,請參考五南圖書出版的《資料探勘與顧客分析》。作者
陳耀茂
日本(國立)電氣通信大學經營工學博士
東海大學企管系教授
目錄
序言
第1章 何謂資料探勘
1-1 資料探勘的意義與過程(1)
1-2 資料探勘的意義與過程(2)
1-3 例題說明
1-4 資料探勘的特徵(1)
1-5 資料探勘的特徵(2)
1-6 資料探勘的特徵(3)
第2章 檢查資料
2-1 資料的確認
2-2 判定偏離值(1)
2-3 判定偏離值(2)
2-4 判定偏離值(3)
2-5 判定偏離值(4)
第3章 資料分類
3-1 何謂分類
3-2 如何分類(1)
3-3 如何分類(2)
3-4 如何分類(3)
3-5 如何分類(4)
第4章 發現關聯
4-1 關聯的定義(1)
4-2 關聯的定義(2)
4-3 資料重排
4-4 關聯的強度
4-5 關聯的應用(1)
4-6 關聯的應用(2)
4-7 關聯的應用(3)
4-8 關聯的應用(4)
4-9 關聯的應用(5)
4-10 資料的遺漏
第5章 發現差異
5-1 判別差異(1)
5-2 判別差異(2)
5-3 決策樹
5-4 判別規則
5-5 以Logistic迴歸判別
5-6 使用交叉表判別
5-7 使用決策樹CHAID判別
5-8 交叉表無法判別的情形
5-9 不只一個最好的決策樹
5-10 找出有特徵的群
5-11 尋找不良品發生的原因(1)
5-12 尋找不良品發生的原因(2)
5-13 尋找不良品發生的原因(3)
5-14 決策樹CHAID與CART的判別結果的不同
5-15 誤判別
第6章 預測分析
6-1 預測結果
6-2 迴歸式的建立方法(1)
6-3 迴歸式的建立方法(2)
6-4 預測比率時利用Logistic迴歸
6-5 數個變數的情形
6-6 驗證
6-7 質變數混在一起的情形
6-8 其他的預測方式
6-9 迴歸樹的有用性(1)
6-10 迴歸樹的有用性(2)
第7章 文字探勘法
7-1 大量資料的整理
7-2 大量資料的統計解析(1)
7-3 大量資料的統計解析(2)
7-4 大量資料的統計解析(3)
7-5 大量資料的統計解析(4)
第8章 品質管理的應用
8-1 SPSS與Modeler簡介(1)
8-2 SPSS與Modeler簡介(2)
8-3 SPSS與Modeler簡介(3)
8-4 有關品質管理諸工具的構成(1)
8-5 有關品質管理諸工具的構成(2)
8-6 有關品質管理諸工具的構成(3)
8-7 有關品質管理諸工具的構成(4)
8-8 有關品質管理諸工具的構成(5)
8-9 有關品質管理諸工具的構成(6)
序/導讀
依據資料下決策其重要性從以前即一直有所強調。依據資料的態度是意謂在事前設定假設,再以資料驗證假設是否成立,接著,為了使依據資料的決策具體實現,以往以統計作為理論背景的統計分析扮演著重要的任務。隨著資訊技術的發展,即使是在取得、儲存、加工大量資料甚為容易的時代中,統計分析的有效性,仍是不會改變的。
另一方面,因為容易取得大量資料,所以在依據資料的態度上,也引進了新的想法,那就是未建立假設之下分析資料進而發現假設的想法。以實現此想法的方法來說,出現了「資料探勘(data mining)」的方法。資料探勘可以想成是為了從大量的資料發現假設或規則所進行的資料分析的一種過程。由於資料探勘的出現,利用資訊科技可以取得大量資料,從此資料去發現未知的規則或假設的方法,可以說已有所確立。
本書是學習資料探勘的入門圖解書,因為是定位在「入門」與「圖解」,所以盡力不出現數學的話題。因此,基本上是採取如果按照所說的手法去分析,即可得出此種結果之說明方式,手法的數學背景幾乎不涉獵。
本書是在如下的方針來撰寫。
1.以例題方式作為基本。
2.解說資料探勘可以做什麼,如何閱讀結果,如何活用,不說明計算方法與理論上的背景。
3.可以理解分析方法的觀念。
4.例題不偏於行銷領域,像製造領域、醫學領域、工程領域等,也從許多的領域中去列舉。
由於資料探勘是以大量資料作為對象,故在說明例題時,將全部資料揭載是做不到的。可是,這又會讓讀者無法一面依循資料一面去理解。因此,例題中列舉的資料量,對資料探勘而言是不適合的少量。然而,這是為了讓讀者理解「想法」所採取的不得已作法。因此,在本書的例題中出現的資料量,並非是實際資料探勘中所採用的資料量,這一點請不要誤解。而且,例題雖然使之接近現實的例子,但由於減少資料量或將資料本身加以修正,因之例題中所陳述的結論,也並非可以照樣適用於現實的機會中,這一點也請諒解。
本書的構成如下:
第1章 何謂資料探勘
第2章 檢查資料
第3章 資料分類
第4章 發現關聯
第5章 發現差異
第6章 預測分析
第7章 文字探勘法
第8章 品質管理的應用
本書的執筆是利用資料探勘工具的「Modeler」與統計解析軟體的「SPSS」。關於這些軟體的利用,請參閱下列相關書籍。
*《資料探勘與顧客分析—Modeler應用》,五南出版。
*《醫護統計與SPSS分析方法與應用》,五南出版。