思尹程式練習空間: 2015

小說成癮的我，每每覺得要下載一篇小說繞來繞去，而且還得找很多大陸小說網非常痛苦；很久以前就知道有爬蟲的存在，在此介紹我製作小說爬蟲的過程，完整的程式碼我就不貼上來了（怕有小說版權等等問題產生）。

在使用 Python 之前我有試著使用 JavaScript ，本來是想說順便學學 Node.js 的使用，但是架站真的是太困難了以此作罷，但是 JavaScript 真的是不錯的爬蟲工具，不到50行就能輕鬆抓到我要的小說了（等我搞懂 Node.js 再來 po 吧...），因此就選擇 Python 了!!

事前準備：

Python 2.7
某個準備很多小說的網站

開始!!

網路上很多關於爬蟲的 Python 程式，google 前一兩個的內容就不錯了，主要差別就是兩個：

連線問題
html 分析

v0.0.1 第一行主要是 python 檔案內部的編碼，在 Python 2 這段是很重要的，如果不寫的話...(XDD)。至於 pyquery 要另外安裝，window 步驟有點麻煩，有 easy install 的話就簡單許多；連線的部分，不使用 v0.0.2 的方法是有原因的，很多網站都有防制非人訪問，因此使用 v0.0.2 在某些網站是不行的。在 v0.0.1 最後一行，就可以獲得 html ，也就是之後需要分析的主要部分。

至於 html 就像是連結一樣，需要從其中的 class 或者 id 來把小說文章分析出來，這一章大概就寫到這裡!!

思尹程式練習空間

2015年2月19日星期四

Python 小說抓抓第一天

2015年2月19日 星期四

Python 小說抓抓 第一天

2015年2月19日星期四

Python 小說抓抓第一天