cht電腦資訊網路
adm Find login register

各家的 web crawler 要多加油

eliu
1 各家的 web crawler 要多加油
Promote 0 Bookmark 12007-09-27quote  

[root@www httpd]# grep -i yahoo access_log | wc -l
1743
[root@www httpd]# grep -i google access_log | wc -l
3211
[root@www httpd]# grep -i baidu access_log | wc -l
1819

本站才剛成立,沒多少文章,被24小時 crawl 半天,結果去 search,文章進去還很少。

去看 download 的 URL,大部份不是有內容的 URL,像是 search/login/edit ..,那當然沒用。

似乎應該要有統計分析那一個 .php 會有比較多的內容的能力。

本人已不在此站活動
2
Promote 0 Bookmark 02007-09-27quote  

哈哈,這些本來就是「一把抓」呀!Laughing

將來搞不好會有法令限制要怎麼抓? 

eliu
3
Promote 0 Bookmark 02007-09-27quote  

現在就可以用 robot.txt控制哪些不要 index,也可以用

 <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

只是懶得弄,現在看來,如果要讓自己的網頁能快點被搜尋到,最好還是要控制。

caleb
4
Promote 0 Bookmark 02007-09-27quote  

各家的 bot 都不是全抓,每個連結都進去砍站的話,根本砍不完。

新的站幾乎都不會有啥內容上大站吧,要等一陣子才行。

對於 low Page Rank site, Google search delay 個三五個月是蠻常見的。

對於各家 bot 的行為分析,網路上有詳細研究比較,找來看看還蠻好玩的。

eliu
5
Promote 0 Bookmark 02007-09-27quote  

以 Google 來說,效率似乎不太好,URL中 eid=???是隨 directory 變化的,login.php  output 的內容是不會變的。

66.249.70.118 - - [22/Sep/2007:16:48:25 +0800] "GET /login.php?eid=107 HTTP/1.1" 200 716 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

# grep Google access_log | grep login.php | wc -l
 115

edited: 1
site admin
6
Promote 0 Bookmark 02007-11-01quote  

由於 search engine 的 BOT 對新網站的 traverse quota 很小,search engine 常常去traverse 沒用的 URL,不僅浪費 quote,且造成不必要的 disk read/write。

決定還是把 robots.txt 給弄起來,以減少不必要的浪費。

 

eliu
7
Promote 0 Bookmark 02007-11-02quote  

加了 robots.txt 後,果然好很多,現在 access_log 看起來清爽多了。

現在只剩  baidu,完全不讀 robots.txt,果然是土匪。

China  還有一個 BOT 叫 yodao,就有 read robots.txt。

edited: 1
eliu
8
Promote 0 Bookmark 02007-11-02quote  

還有一個 QihooBot(顯然是China) 也是不看 robots.txt,台灣的 search engine 完全被 yahoo & google 消滅。

site admin
9
Promote 0 Bookmark 02007-11-04quote  

baidu 也有,只是最多可能 5 天才抓一次 robots.txt

cht電腦資訊網路
adm Find login register
views:29772