Python網路爬蟲:大數據擷取、清洗、儲存與分析 王者歸來(第二版)
 
作者: 洪錦魁 
書城編號: 23188016

原價: HK$250.00
現售: HK$237.5 節省: HK$12.5

購買此書 10本或以上 9折, 60本或以上 8折

購買後立即進貨, 約需 7-12 天

 
 
出版社: 深智數位
出版日期: 2021/10
頁數: 552
ISBN: 9789860776478

商品簡介


Python網路爬蟲
大數據擷取、清洗、儲存與分析
王者歸來(第二版)
★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
★★★★★【26個主題】+【400個實例】★★★★★
★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
★★★★★【網路趨勢】+【了解輿情】★★★★★


第二版和第一版做比較,增加下列內容:
★:全書增加約50個程式實例
★:網路趨勢,了解輿情
★:網路關鍵字查詢
★:YouBike資訊
★:國際金融資料查詢
★:博客來圖書排行榜
★:中央氣象局
★:租屋網站
★:生活應用

下列是本書有關網路爬蟲知識的主要內容:
★:認識搜尋引擎與網路爬蟲
★:認識約定成俗的協議robots.txt
★:從零開始解析HTML網頁
★:認識與使用Chrome開發人員環境解析網頁
★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
★:說明lxml模組
★:XPath方法解說
★:css定位網頁元素
★:Cookie觀念
★:自動填寫表單
★:使用IP代理服務與實作
★:偵測IP
★:更進一步解說更新的模組Requests-HTML
★:認識適用大型爬蟲框架的Scrapy模組

在書籍內容,筆者設計爬蟲程式探索下列相關網站:
☆:國際與國內股市資訊
☆:基金資訊
☆:股市數據
☆:人力銀行
☆:維基網站
☆:主流媒體網站
☆:政府開放數據網站
☆:YouBike服務網站
☆:PTT網站
☆:電影網站
☆:星座網站
☆:小說網站
☆:博客來網站
☆:中央氣象局
☆:露天拍賣網站
☆:httpbin網站
☆:python.org網站
☆:github.com網站
☆:ipstack.com網站API實作
☆:Google API實作
☆:Facebook API實作

探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
★:CSV檔案格式
★:JSON檔案格式
★:XML、Pickle
★:Excel
★:SQLite

在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
☆:URL編碼與中文網址觀念
☆:將中文儲存在JSON格式檔案
☆:亂碼處理
☆:簡體中文在繁體中文Windows環境資料下載與儲存
☆:解析Ajax動態加載網頁,獲得更多頁次資料
☆:使用Chromium瀏覽器協助Ajax動態加載

作者

洪錦魁

一位跨越電腦作業系統與科技時代的電腦專家,著作等身的作家。
■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
■ Internet 時代他的代表作品是網頁設計使用 HTML。
■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。
■ 人工智慧時代他的代表作品是機器學習彩色圖解 + 基礎數學與基礎微積分 + Python實作。

除了作品被翻譯為簡體中文、馬來西亞文外,2000 年作品更被翻譯為Mastering HTML 英文版行銷美國,近年來作品則是在北京清華大學和台灣深智同步發行:

1:Java 入門邁向高手之路王者歸來
2:Python 最強入門邁向頂尖高手之路王者歸來
3:Python 最強入門邁向數據科學之路王者歸來
4:Python 網路爬蟲:大數據擷取、清洗、儲存與分析王者歸來
5:演算法最強彩色圖鑑 + Python 程式實作王者歸來
6:網頁設計HTML+CSS+JavaScript+jQuery+Bootstrap+Google Map 王者歸來
7:機器學習彩色圖解 + 基礎數學篇 + Python 實作王者歸來
8:機器學習彩色圖解 + 基礎微積分篇 + Python 實作王者歸來
9:R 語言邁向Big Data 之路
10:Excel 完整學習邁向最強職場應用王者歸來

他的近期著作分別登上天瓏、博客來、Momo 電腦書類暢銷排行榜第一名,他的書著作最大的特色是,所有程式語法會依特性分類,同時以實用的程式範例做解說,讓整本書淺顯易懂,讀者可以由他的著作事半功倍輕鬆掌握相關知識。

目錄

第零章 認識網路爬蟲
0-1 認識HTML
0-2 網路地址URL
0-3 爬蟲的類型
0-4 搜尋引擎與爬蟲原理
0-5 網路爬蟲的搜尋方法
0-6 網路爬蟲是否合法
0-7 認識HTTP 與HTTPS
0-8 表頭(headers)

第一章 JSON 資料與繪製世界地圖
1-1 JSON 資料格式前言
1-2 認識json 資料格式
1-3 將Python 應用在json 字串形式資料
1-4 將Python 應用在json 檔案
1-5 簡單的json 檔案應用
1-6 世界人口數據的json 檔案
1-7 繪製世界地圖
1-8 XML

第二章 使用Python 處理CSV 文件
2-1 建立一個CSV 文件
2-2 用記事本開啟CSV 檔案
2-3 csv 模組
2-4 讀取CSV 檔案
2-5 寫入CSV 檔案
2-6 寫入與讀取含中文的 CSV 文件
2-7 專題—使用 CSV 檔案繪製氣象圖表
2-8 pickle 模組
2-9 Python 與Microsoft Excel

第三章 網路爬蟲基礎實作
3-1 上網不再需要瀏覽器了
3-2 下載網頁資訊使用 requests 模組
3-3 檢視網頁原始檔
3-4 分析網站使用Chrome 開發人員工具
3-5 下載網頁資訊使用urllib 模組
3-6 認識httpbin 網站
3-7 認識Cookie
3-8 設置代理IP

第四章 Pandas 模組
4-1 Series
4-2 DataFrame
4-3 基本Pandas 資料分析與處理
4-4 檔案的輸入與輸出
4-5 Pandas 繪圖
4-6 時間序列(Time Series)
4-7 專題—鳶尾花
4-8 專題—匯入網頁表格資料

第五章 BeautifulSoup 解析網頁
5-1 解析網頁使用BeautifulSoup 模組
5-2 其它HTML 文件解析
5-3 網路爬蟲實戰—圖片下載
5-4 網路爬蟲實戰—找出台灣彩券公司最新一期威力彩開獎結果
5-5 網路爬蟲實戰—列出Yahoo 焦點新聞標題和超連結
5-6  IP 偵測網站 FileFab

第六章 網頁自動化
6-1 hashlib 模組
6-2 環保署空氣品質JSON 檔案實作
6-3 檢測網站內容是否更新
6-4 工作排程與自動執行
6-5 環保署空氣品質的CSV 檔案

第七章 Selenium 網路爬蟲的王者
7-1 順利使用Selenium 工具前的安裝工作
7-2 獲得webdriver 的物件型態
7-3 擷取網頁
7-4 尋找HTML 文件的元素
7-5 XPath 語法
7-6 用Python 控制點選超連結
7-7 用Python 填寫表單和送出
7-8 用Python 處理使用網頁的特殊按鍵
7-9 用Python 處理瀏覽器運作
7-10 自動化下載環保署空氣品質資料

第八章 PTT 爬蟲實戰
8-1 認識批踢踢實業坊
8-2 進入PTT 網址
8-3 解析PTT 進入須滿18 歲功能鈕
8-4 各篇文章的解析
8-5 解析文章標題與作者
8-6 推文數量
8-7 文章發表日期
8-8 將PTT 目前頁面內容以JSON 檔案儲存
8-9 前一頁面處理的說明
8-10 進入PPT 的beauty 論壇網站
8-11 ipstack

第九章 Yahoo 奇摩電影網站
9-1 本週新片
9-2 中文片名和英文片名
9-3 上映日期
9-4 期待度
9-5 影片摘要
9-6 劇照海報
9-7 爬取兄弟節點
9-8 預告片
9-9 排行榜

第十章 台灣主流媒體網站
10-1 蘋果日報
10-2 聯合報
10-3 經濟日報
10-4 中國時報
10-5 工商時報

第十一章 Python 與SQLite 資料庫
11-1 SQLite 基本觀念
11-2 資料庫連線
11-3 SQLite 資料類型
11-4 建立SQLite 資料庫表單
11-5 增加SQLite 資料庫表單紀錄
11-6 查詢SQLite 資料庫表單
11-7 更新SQLite 資料庫表單紀錄
11-8 刪除SQLite 資料庫表單紀錄
11-9 DB Browser for SQLite
11-10 將台北人口數儲存SQLite 資料庫

第十二章 股市數據爬取與分析
12-1 證券櫃檯買賣中心
12-2 台灣證券交易所
12-3 Yahoo 股市資訊
12-4 台灣股市資料讀取與圖表製作
12-5 國際股市數據爬取

第十三章 金融資訊的應用
13-1 台灣銀行利率查詢
13-2 取得HTML 文件
13-3 分析HTML 文件
13-4 將利率表儲存成CSV 檔案
13-5 取得最優惠利率
13-6 基金資料

第十四章 YouBike 數據
14-1 台北市的YouBike 數據
14-2 認識YouBike 的JSON 數據
14-3 下載與儲存YouBike 資料
14-4 獲得天母運動公園的YouBike 數據
14-5 計算YouBike 車輛使用效率

第十五章 星座屋網站
15-1 進入星座屋網站
15-2 分析網站與爬取星座運勢文字
15-3 星座圖片的下載

第十六章 小說網站
16-1 進入小說網站
16-2 解析網站
16-3 處理編碼問題
16-4 爬取書籍章節標題
16-5 爬取章節內容的連結
16-6 從章節超連結輸出小說內容
16-7 將小說內文存入檔案

第十七章 台灣高鐵與中央氣象局數據
17-1 台灣高鐵
17-2 中央氣象局

第十八章 維基百科
18-1 維基百科的中文網址
18-2 爬取台積電主文

洪錦魁 作者作品表

AI音效、語音與音樂:設計創意影片新時代

Python x AI辦公室作業自動化:Word、Excel、PowerPoint、PDF、CSV、Pandas-多執行緒、排程、藝術二維碼、短網址、電子郵件、爬蟲

ChatGPT 4 Omni領軍 - Copilot、Claude、Gemini、36組GPT ...全面探索生成式AI的無限可能

演算法 圖解原理 x Python實作 x 創意應用 王者歸來

無料AI:ChatGPT + Gemini + Claude + Copilot + Coze + PlaygroundAI + Ideogram + Stylar + Faceswappe

AI助攻 Python超級入門 創意設計 x AI程式實作

AI輔助學習Excel VBA最強入門邁向辦公室自動化之路王者歸來 上冊

AI行銷:未來商業新視界

AI輔助學習Excel VBA最強入門邁向辦公室自動化之路王者歸來 下冊

AI職場:智慧浪潮的工作新規則

世界第1強AI ChatGPT Turbo自學魔法寶典- Data Analyst +GPTs + DALL-E + Copilot + Prompt +Midjourney + Suno + D-ID + Runway + Gamma

Python + ChatGPT 零基礎+高效率學程式設計與運算思維(第四版)

史上最強Python入門邁向頂尖高手之路王者歸來 第3版(全彩印刷)

Excel x ChatGPT入門到完整學習邁向最強職場應用王者歸來(全彩印刷)

Bing Chat與Copilot邁向文字、視覺、繪圖、語音、程式的AI體驗王者歸來(全彩印刷)

ChatGPT 4 + API創新體驗AI世界邁向開發機器人程式王者歸來(全彩印刷)

ChatGPT-4 與Bing Chat - 創新體驗文字/繪圖/音樂/動畫/影片的AI世界

Python資料視覺化從2D到3D使用matplotlib實作 - 王者歸來(全彩印刷)

AI和ChatGPT 人類和機器共生的未來

Python + ChatGPT 零基礎+高效率學程式設計與運算思維 (第三版)

還有... [顯示所有作品]

2021年10月中文新書 同類商品


野鳥完全圖鑑:詳盡比對辨識,盡覽鳥類之美

國防論:「戰」與「不戰」的經典論述(第二版)

月亮燈燈

小情書(精裝版)

詩意空間

廠佬東莞奇遇記

等一生都等

武士的日本史

從零開始

Oppa看風景(精裝)

記得要忘記

我是這樣讀莊子的

別怕!零基礎的財務報表解讀術  輕鬆理解三大報表,工作投資都上手!

你的身體就是最好的健身房(暢銷數位版,書+示範影片)

我們都要好好的:保庇套書(神木偵探+奉納百景)

神木偵探:神宿之樹的秘密

電影南渡:「南下影人」與戰後香港電影(1946--1966)(增訂版)

60萬米高空看中國

春夏秋冬

郵購、喬琪、虱目魚:桂花飄香的南瀛時光

還有... [顯示所有書籍]

* 以上資料僅供參考之用, 香港書城並不保證以上資料的準確性及完整性。
* 如送貨地址在香港以外, 當書籍/產品入口時, 顧客須自行繳付入口關稅和其他入口銷售稅項。

 

 

 

  我的賬戶 |  購物車 |  出版社 |  團購優惠
加入供應商 |  廣告刊登 |  公司簡介 |  條款及細則
 
  香港書城 版權所有 私隱政策聲明
 
  顯示模式: 電腦版 (改為: 手機版)