Python 網路爬蟲

編輯書籍資訊

我的評分

大數據擷取、清洗、儲存與分析

4 / 1

作者：洪錦魁
出版社：深智數位

語言：繁體中文
ISBN：986-5501-02-3
頁數：564 頁
出版日期：2019/10/15

這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍，全書以約350個程式實例，完整解說大數據擷取、清洗、儲存與分析相關知識，下列是本書有關網路爬蟲知識的主要內容。

認識搜尋引擎與網路爬蟲認識約定成俗的協議robots.txt 從零開始解析HTML網頁認識與使用Chrome開發人員環境解析網頁認識Python內建urllib、urllib2模組，同時介紹好用的requests模組說明lxml模組 Selenium模組 XPath方法解說 css定位網頁元素 Cookie觀念自動填寫表單使用IP代理服務與實作偵測IP 更進一步解說更新的模組Requests-HTML 認識適用大型爬蟲框架的Scrapy模組

在書籍內容，本書設計爬蟲程式探索下列相關網站，讀者可以由不同的網站主題，深入測試自己設計網路爬蟲的能力，以適應未來職場的需求。

金融資訊股市數據人力銀行交友網站維基網站主流媒體網站政府開放數據網站社群服務網站 PTT網站電影網站星座網站小說網站台灣高鐵露天拍賣網站 httpbin網站 python.org網站 github.com網站 ipstack.com網站API實作 Google API實作 Facebook API實作

探索網站成功後，本書也說明下列如何下載或儲存不同資料格式的數據。

CSV檔案格式 JSON檔案格式 XML、Pickle Excel SQLite資料庫

本書沿襲作者著作的特色，程式實例豐富，相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。