在使用 Python 之前我有試著使用 JavaScript ,本來是想說順便學學 Node.js 的使用,但是架站真的是太困難了以此作罷,但是 JavaScript 真的是不錯的爬蟲工具,不到50行就能輕鬆抓到我要的小說了(等我搞懂 Node.js 再來 po 吧...),因此就選擇 Python 了!!
事前準備:
- Python 2.7
- 某個準備很多小說的網站
開始!!
網路上很多關於爬蟲的 Python 程式,google 前一兩個的內容就不錯了,主要差別就是兩個:
- 連線問題
- html 分析
v0.0.1 第一行主要是 python 檔案內部的編碼,在 Python 2 這段是很重要的,如果不寫的話...(XDD)。至於 pyquery 要另外安裝,window 步驟有點麻煩,有 easy install 的話就簡單許多;連線的部分,不使用 v0.0.2 的方法是有原因的,很多網站都有防制非人訪問,因此使用 v0.0.2 在某些網站是不行的。在 v0.0.1 最後一行,就可以獲得 html ,也就是之後需要分析的主要部分。
至於 html 就像是 連結 一樣,需要從其中的 class 或者 id 來把小說文章分析出來,這一章大概就寫到這裡!!
至於 html 就像是 連結 一樣,需要從其中的 class 或者 id 來把小說文章分析出來,這一章大概就寫到這裡!!