這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,下列是本書有關網路爬蟲知識的主要內容。
認識搜尋引擎與網路爬蟲 認識約定成俗的協議robots.txt 從零開始解析HTML網頁 認識與使用Chrome開發人員環境解析網頁 認識Python內建urllib、urllib2模組,同時介紹好用的requests模組 說明lxml模組 Selenium模組 XPath方法解說 css定位網頁元素 Cookie觀念 自動填寫表單 使用IP代理服務與實作 偵測IP 更進一步解說更新的模組Requests-HTML 認識適用大型爬蟲框架的Scrapy模組在書籍內容,本書設計爬蟲程式探索下列相關網站,讀者可以由不同的網站主題,深入測試自己設計網路爬蟲的能力,以適應未來職場的需求。
金融資訊 股市數據 人力銀行 交友網站 維基網站 主流媒體網站 政府開放數據網站 社群服務網站 PTT網站 電影網站 星座網站 小說網站 台灣高鐵 露天拍賣網站 httpbin網站 python.org網站 github.com網站 ipstack.com網站API實作 Google API實作 Facebook API實作探索網站成功後,本書也說明下列如何下載或儲存不同資料格式的數據。
CSV檔案格式 JSON檔案格式 XML、Pickle Excel SQLite資料庫本書沿襲作者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。