你是領先群倫的專業人士,
因此擔心自己或公司在資訊技術日益進步的時代淪為落伍者?
你覺得「大數據、機器學習」對你來說是「遙不可及」嗎?
你更憂慮不知道該如何下手?!
這本書就是來教你「具體該怎麼做」!
作者精心設計用最白話、最易懂的方式,一個步驟一個步驟地教你如何由網路收集資料、如何統計分析。
只有建立你自己的資料庫、活用大數據,
靠量化分析才能讓你做出最精準的判斷與決策,
無論你是否學過,只要有一部電腦或一台筆電!
這是一本任何人都學得會,並且做得到的大數據、機器學習之最佳入門書!
其實,任何背景的人要從網路下載大量資料,進行量化分析,甚至導入機器學習的方法,做更進一步的分析,都只要幾個小時的「苦練」。
市場上有關程式設計、甚至機器學習的書及課程很多,他們的目的是在教導讀者全面性的觀念,而你學會之後,再運用在你有興趣的地方。這樣很好,不過,對初學者而言較難。大多數人學會了之後,也不知如何運用。
本書則是以不同的方式編寫,作者先教你如何由網路上下載資料,再教你整理並分析的相關技術。我們會把所有的程式碼上網公布,方便你剪貼運用,你可以很快的用這本書的內容做資料收集及分析的工作(特別是量化分析)。
你不必成為程式設計師,但是至少要知道如何運用資訊科技來搜集並分析資料。而且雖然萬事起頭難,可是你一旦會用excel vba、簡單的機器學習工具來分析資料,你會發現再擴展到其他領域其實不是那麼難。你由此出發,有興趣再去補其他資訊科技之不足。
你可能會問為什麼要學會資料分析、機器學習的相關技術,好吧!俗氣的來說,這是當紅的技術。而且你如果把它運用在工作上,可以提升你或你公司的營運效率。
我想你應當受夠了和老闆及同事開會時各說各話的情況,決策全憑大家的「捷思」法,舉出版一本書的例子來說:我認為投資書要以投資系統為寫作主題,而你認為要寫名詞解釋的入門書比較好,雙方都可以自憑記憶找出佐證,但是由網站把所有書下載,比比看誰賣得好、誰出得多,在量化的基礎上不僅可以免除偏見,並有助於進行更進一步的討論。
現有軟體已經可以對固定化格式的資料進行大量的分析,不過,機器學習的技術可以讓資料分析有更高的可信度。一些需要人工判斷的資料,要先經過人工處理、分群,然後再加以分析。如果資料幾百筆,OK,你用人工分。但如果資料上萬筆呢?如此就要引進機器學習的技術,讓它替你分群,或是讓它學會你分群的邏輯,接手你的工作。
以上聽起來有點難,但是原理不難理解,本書也將提供入門的指引。
本書特色
◆專心於資料分析的資訊技術,減少學習的負擔
一般的上班族就算對資料的分析有需求,對程式的設計也沒有興趣,本書只討論有關資料取得、分析等方面的程式工具。有資料分析需求的讀者,學會這些就夠了,其他的有時間再深入。
◆大量的程式可供下載套用,拿來改一改就可以用了
分析網路資料大約有幾個部分:資料下載、資料整理、資料分析。其中運用到的程式語法說多不多,說少不少,一個一個重新打,很煩人。本書的所有程式碼都開放下載,你自己修改起來就方便許多。
◆作者成立讀者社群,提供相關資訊下戴,也有利於相互共同學習
作者
贊贊小屋
政大新聞,台大哲學,在校研習了法律、經濟、會計等領域學識。畢業後從事會計工作,四大會計師事務所到上市集團會計經理,累積十年實務歷練。出版主題包括Excel會計實務、VBA大數據分析、手機App應用,授課主題包括Excel操作、簡報製作、網路爬蟲、會計實務、財務分析、稅務法令、手機App、程式設計等。
臉書專頁:https://www.facebook.com/acctexcel
部落格:www.b88104069.com
E-Mail:b88104069@gmail.com
目錄
作者序
第一篇 建立原始資料庫
第一章 建立網路資料分析系統的準備工作
第一節 VBA編輯環境
第二節 編寫VBA程式
第三節 新增工作表
第四節 程式匯出匯入
第五節 取得網頁資料
第二章 用VBA把雜亂資料整理成你要的型式
第一節 原始資料分析
第二節 多餘資料刪除
第三節 報表格式整理
第四節 分析欄位設置
第五節 多工作表合併
第三章 如何利用程式(VBA)自動下載海量資料
第一節 網頁原始格式
第二節 取得連結網址
第三節 跨網頁特定資料取得的方法
第四節 自動在大量網頁下載資料
第五節 只下載新資料以提升效率
第二篇 網路資料統計分析的方法
第四章 Excel分析工具
第一節 網路資料彙總
第二節 表格分析工具
第三節 交叉分析篩選器
第四節 建立樞紐分析表
第五節 樞紐分析圖表
第五章 利用Power BI建立自動化資訊的儀表板
第一節 匯入Excel資料
第二節 趨勢分析區域圖
第三節 資料分割重組與分析—Power Query
第四節 資料自動更新
第五節 Power BI進階篩選
第六章 統計數學計算
第一節 原始資料整理—處理重複值
第二節 整理原始資料,以進行分析的準備
第三節 Excel統計函數
第四節 樞紐統計分析
第五節 進階統計工具
第三篇 如何利用機器學習幫你分類資料
第七章 用機器學習提供全新的分析視角—K平均演算法分群(K-means Clustering Analysis)
第一節 用相關性散佈圖,確定因素間的相關性
第二節 找到資料點間的差距—最小平方法迴歸
第三節 K平均演算法分群
第四節 運用EXCEL規劃求解工具簡化資料分群工作
第五節 消除不同資料不同計量單位的影響-資料標準正規化
第八章 如何讓電腦學會你的分類邏輯,進而自動進行資料分析及分類—線性判別分析
第一節 WORD VBA下載網路資料
第二節 以量化的方法表現不同類別資料的差異—多元線性迴歸
第三節 電腦判斷力的來源-線性判別分析
第四節 導入新資料,確認電腦的判斷力—模型交叉驗證
第五節 提升電腦判斷的精度-用VBA程式自動執行規劃求解
序/導讀
作者序
在這個資訊量爆炸的時代,大數據分析這個名詞早已朗朗上口,每個人都有興趣,但可能總是覺得有點模糊,不知道具體該如何著手。
如今電視、電腦、網路、手機的資料無所不在,如果能有個系統化方式將這些資料記錄下來,利用科學量化方法建立計算模型,便是具體而微的大數據分析了。這本書將以Excel作為主要工具,為各位介紹在這條路上可以走得多遠。
也許你有疑問,Excel進行機器學習的量化分析?
首先在資料取得的部分,Excel正好是一般企業普遍使用的資料處理應用,所以,很有可能企業資料已經是Excel檔案了,馬上能拿來使用。況且Excel還外掛了VBA,可以設計程式網路爬蟲取得所需資料,自動整理為格式規範的資料庫。這是本書第一篇的重點,體現了以日常生活所見資料進行大數據分析的初衷。
接著在資料分析的部分,這是Excel一直努力發展的重點,近年還開發了已經完備再獨立出來的Power BI商業工具。本書第二篇會跟各位介紹VBA所取得整理好的資料,如何運用Excel及Power BI進行深入分析。
最後,Excel雖然不是主流的機器學習工具,不過,機器學習根基於統計學,而微軟很早就幫Excel開發了一套功能強大而且便捷的統計分析工具,運用此工具配合豐富多樣的函數指令,Excel也足以建立一套機器學習模型。況且Excel的工作表儲存格不但是輸入表單,同時也是計算過程和結果的呈現,剛好很適合第一次或剛開始接觸機器學習的新手。這些將會是本書第三篇的內容。
網路爬蟲、大數據分析、機器學習,準備好搭上這班資訊AI的時代列車了嗎?本書將為您打開大門!