各家的 web crawler 要多加油

本人已不在此站活動
2
0 0	2007-09-27	quote

哈哈，這些本來就是「一把抓」呀！

將來搞不好會有法令限制要怎麼抓？

eliu
3
0 0	2007-09-27	quote

現在就可以用 robot.txt控制哪些不要 index，也可以用

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

只是懶得弄，現在看來，如果要讓自己的網頁能快點被搜尋到，最好還是要控制。

caleb
4
0 0	2007-09-27	quote

各家的 bot 都不是全抓，每個連結都進去砍站的話，根本砍不完。

新的站幾乎都不會有啥內容上大站吧，要等一陣子才行。

對於 low Page Rank site, Google search delay 個三五個月是蠻常見的。

對於各家 bot 的行為分析，網路上有詳細研究比較，找來看看還蠻好玩的。

eliu
5
0 0	2007-09-27	quote

以 Google 來說，效率似乎不太好，URL中 eid=???是隨 directory 變化的，login.php output 的內容是不會變的。

66.249.70.118 - - [22/Sep/2007:16:48:25 +0800] "GET /login.php?eid=107 HTTP/1.1" 200 716 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

# grep Google access_log | grep login.php | wc -l
115

edited: 1

site admin
6
0 0	2007-11-01	quote

由於 search engine 的 BOT 對新網站的 traverse quota 很小，search engine 常常去traverse 沒用的 URL，不僅浪費 quote，且造成不必要的 disk read/write。

決定還是把 robots.txt 給弄起來，以減少不必要的浪費。

eliu
7
0 0	2007-11-02	quote

加了 robots.txt 後，果然好很多，現在 access_log 看起來清爽多了。

現在只剩 baidu，完全不讀 robots.txt，果然是土匪。

China 還有一個 BOT 叫 yodao，就有 read robots.txt。

edited: 1

eliu
8
0 0	2007-11-02	quote

還有一個 QihooBot(顯然是China) 也是不看 robots.txt，台灣的 search engine 完全被 yahoo & google 消滅。