2015年2月19日 星期四

Python 小說抓抓 第一天

小說成癮的我,每每覺得要下載一篇小說繞來繞去,而且還得找很多大陸小說網非常痛苦;很久以前就知道有爬蟲的存在,在此介紹我製作小說爬蟲的過程,完整的程式碼我就不貼上來了(怕有小說版權等等問題產生)。

在使用 Python 之前我有試著使用 JavaScript ,本來是想說順便學學 Node.js 的使用,但是架站真的是太困難了以此作罷,但是 JavaScript 真的是不錯的爬蟲工具,不到50行就能輕鬆抓到我要的小說了(等我搞懂 Node.js 再來 po 吧...),因此就選擇 Python 了!!

事前準備:
  1. Python 2.7
  2. 某個準備很多小說的網站
開始!!

網路上很多關於爬蟲的 Python 程式,google 前一兩個的內容就不錯了,主要差別就是兩個:
  1. 連線問題
  2. html 分析

v0.0.1 第一行主要是 python 檔案內部的編碼,在 Python 2 這段是很重要的,如果不寫的話...(XDD)。至於 pyquery 要另外安裝,window 步驟有點麻煩,有 easy install 的話就簡單許多;連線的部分,不使用 v0.0.2 的方法是有原因的,很多網站都有防制非人訪問,因此使用 v0.0.2 在某些網站是不行的。在 v0.0.1 最後一行,就可以獲得 html ,也就是之後需要分析的主要部分。

至於 html 就像是 連結 一樣,需要從其中的 class 或者 id 來把小說文章分析出來,這一章大概就寫到這裡!!