伊莉討論區

標題: 爬...文? [打印本頁]

作者: stephenwei_lu 時間: 2019-12-26 10:28 AM 標題: 爬...文?

小弟,雖然有寫過python,但沒爬過, 想跟大家討論一下.
如果你要爬一個網站, 比如說我現在發文的網站
需要哪些關鍵技術以及細節?

作者: tryit244178 時間: 2019-12-27 08:45 AM

本帖最後由 tryit244178 於 2019-12-27 10:09 AM 編輯

如果是用google的搜尋引擎，想要找特定網站的內容，
可以用「site:url」來尋找。
例如想找伊莉這網站裡的程式的關鍵字就是：
「程式 site:www.eyny.com」

順便提供個人的5點搜尋技巧：

1. 搜尋引擎的選用
會鎖IP和鎖關鍵字的，基本上就不需考慮了。

2. 萃取關鍵字
盡量避免整串文字拿來搜尋，搜尋精簡的關鍵字。

3. 搜尋引擎的使用方法
有些搜尋引擎會提供特殊的搜尋方法，像這裡的「site」就是。

4. 一個一個網站的看
這沒什麼技巧。透過搜尋引擎提供的幾行預覽文字，覺得可疑的網站，通通點進去看；再不行，不可疑的也點進去看。廣告就不用點進去看了……

5. 下個禮拜再搜尋看看
安西教練說：「放棄的話比賽就結束了。」也許下禮拜剛好有人貼文……

如果你能掌握這些技巧，你就能得到全世界。
去吧！所有的寶藏都藏在網海了！

作者: kwj 時間: 2019-12-28 10:17 PM

在講的是寫爬蟲去爬某個指定的網站（例如伊莉）嗎？
是的話，無關語言的部份就是要搞懂 HTTP 協定，包括 Header 裡的內容是什麼意思等等。因為要寫一支可以拿到網頁內容的程式很容易，但要拿到「想要的內容」就不見得很容易。

「想要的內容」指的是比如說在伊莉基本上沒登入的使用者是沒辦法看到文章的全文的，因此如果你什麼特別的事情都沒做，直接讓程式去看某一篇伊莉的文章，只會拿到一段 HTML 上面寫了一堆要登入的文字，而不會拿到你真的想要看到的文章內容。所以你必須先搞懂 Header 裡都在寫什麼，這樣你才能搞懂網站到底怎麼判斷像是使用者有沒有登入，以便讓你能夠用程式去模擬出一樣的動作。

作者: tryit244178 時間: 2019-12-29 09:57 AM

原來在講爬蟲…我搞成爬文了……
標題就是那樣寫的！我沒有錯！！

歡迎光臨伊莉討論區 (http://swww.eyny.com/)