Yblog = yourblog,你的優質部落格。願真田幸村紅鎧策馬赤備突擊的身影,帶給我們更多的勇氣。
星期二, 一月 24, 2006
封鎖2個中國的網段存取本站
昨天下午和午夜,又發生伺服器效能嚴重被影響的情形,都是這兩個網段的伺服器在做大量存取,分別是202.108.1.* 與202.96.63.*。

士可忍孰不可忍,把這兩個網段整個封鎖掉。我覺得他們是很惡劣的搜尋引擎或網站、伺服器,幾乎是用mirror的方式在抓我這邊整個網站的資料,哪有搜尋引擎是這樣子做事的。

大量存取就算了,還一直在嘗試存取網站不存在的目錄或頁面,明顯就是屬於惡意的攻擊行為,希望中華人民共和國的信息產業部或公安部門,能遏止他們這種行為,以還網際網路的正常秩序。

也希望有看到本文的站長們,協助推廣將這兩個網段封鎖,不讓他們來大量存取各網站的伺服器。

下面是他們存取的「一小部分」錯誤紀錄,請問有看過這樣子抓網站的嗎?
[Mon Jan 23 18:00:48 2006] [error] [client 202.108.1.26] File does not exist: note
[Mon Jan 23 18:01:34 2006] [error] [client 202.108.1.26] File does not exist: note
[Mon Jan 23 18:02:15 2006] [error] [client 202.108.1.26] File does not exist: note
[Mon Jan 23 18:02:27 2006] [error] [client 202.108.1.12] File does not exist: jxclient.exe
[Mon Jan 23 18:05:44 2006] [error] [client 202.108.1.15] File does not exist: DIY
[Mon Jan 23 18:06:47 2006] [error] [client 202.108.1.7] script 'viewthread.php' not found or unable to stat
[Mon Jan 23 18:07:15 2006] [error] [client 202.108.1.14] File does not exist: product
[Mon Jan 23 18:09:11 2006] [error] [client 202.108.1.27] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:09:11 2006] [error] [client 202.108.1.13] script 'pm.php' not found or unable to stat
[Mon Jan 23 18:09:45 2006] [error] [client 202.108.1.26] File does not exist: TEMPLATES
[Mon Jan 23 18:10:17 2006] [error] [client 202.96.63.2] File does not exist: images
[Mon Jan 23 18:10:55 2006] [error] [client 202.108.1.9] File does not exist: SoftChannel
[Mon Jan 23 18:11:47 2006] [error] [client 202.108.1.2] File does not exist: wap_other_info.aspx
[Mon Jan 23 18:11:54 2006] [error] [client 202.108.1.3] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:12:20 2006] [error] [client 202.108.1.27] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:14:06 2006] [error] [client 202.96.63.2] File does not exist: bbs
[Mon Jan 23 18:15:50 2006] [error] [client 202.96.63.2] File does not exist: images
[Mon Jan 23 18:16:32 2006] [error] [client 202.108.1.27] File does not exist: tuangou.asp
[Mon Jan 23 18:17:53 2006] [error] [client 202.96.63.3] File does not exist: xfzn.asp
[Mon Jan 23 18:19:15 2006] [error] [client 202.108.1.6] File does not exist: rs_f
[Mon Jan 23 18:19:20 2006] [error] [client 202.108.1.27] File does not exist: vip
[Mon Jan 23 18:19:58 2006] [error] [client 202.108.1.26] File does not exist: 007bbs
[Mon Jan 23 18:20:26 2006] [error] [client 202.108.1.27] File does not exist: bbs
[Mon Jan 23 18:22:32 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:22:50 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:23:14 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:23:43 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:24:00 2006] [error] [client 202.108.1.27] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:24:50 2006] [error] [client 202.108.1.6] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:25:32 2006] [error] [client 202.108.1.5] File does not exist: bbsnew
[Mon Jan 23 18:25:34 2006] [error] [client 202.108.1.4] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:25:46 2006] [error] [client 202.108.1.4] File does not exist: api/search/api
[Mon Jan 23 18:26:32 2006] [error] [client 202.108.1.3] File does not exist: url.asp

再來是最多的存取log,兩分鐘內它居然要存取百多個頁面....

迴響留言

說到這個,我前幾天也把百度的spider暫時擋掉,因為他們實在是耙的太誇張。
給各位看一些數據

#reqs     %bytes     host
218179     60.33%     202.108.23.72 (baiduspider 百度)
24365     2.56%     66.249.66.243 (googlebot google)

這是累積一段時間後,整理出的數據。同樣是search engine 耙網頁,怎麼百度需要耙這麼多次
(60.33比2.56, google的快30倍)

你說的這兩個網段,我倒是還沒受到摧殘。
不過感謝你提供的資訊,會把它列為觀察黑名單。

但是請問有完整的 IP 嗎,不知道用traceroute可不可以查出是從哪來的?
很想知道是從何而來,因為也不想錯殺無辜。

由 站長甲 發表於 14:17, Jan 24, 2006
218.168.72.* | 標記為廣告
我列了一小段給你看,我的log檔裡面一堆這個東西。

這是error的部分而已,access的部分更誇張,是將你整個頁面所有的連結通通抓一份,哪有搜尋引擎是這樣搞的。

光他就佔掉了幾G以上的資料流量吧,那其它人要連網站怎麼辦,切~
ivan 發表於 14:30, Jan 24, 2006
208.97.143.* | ivanusto at gmail dot com | 標記為廣告

看看這個 IP 202.108.1.4

http://network-tools.com/default.asp?prog=lookup&Netnic=whois.arin.net&host=202.108.1.4

查到的結果:
IP address: 202.108.1.4
Host name: xk-1-4-a8.bta.net.cn

.bta.net.cn ?
跟百度 spider 都是一樣來自 .bta.net.cn

所以極有可能這些都同樣來自百度?


由 站長甲 發表於 15:50, Jan 24, 2006
218.168.72.* | 標記為廣告
滿有可能的,另一個網段202.96.63.3就怪了,很像是公家單位
ivan 發表於 16:16, Jan 24, 2006
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
ivan, 我把此篇收入Hemidemi書籤,有人提問喲:
http://www.hemidemi.com/bookmark/info/10590
工頭 發表於 19:05, Jan 24, 2006
221.169.45.* | kenworker at gmail dot com | 標記為廣告
好的,謝謝,我要註冊才可以回的樣子,那晚一點好了。

已經回好了
ivan 發表於 20:15, Jan 24, 2006
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
>網段整個封鎖拒絕連線。
請問這樣怎麼做呢?
alan 發表於 14:16, Jan 28, 2006
218.174.139.* | lichihua at hotmail dot com | 標記為廣告
要在你的網頁伺服器軟體裡面加,比方說IIS、Apache都可以。

或者是透過防火牆加,只要限制這個網段不能存取即可。
ivan 發表於 15:42, Jan 28, 2006
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
站長大人有用過 servers.txt 這個嗎^^

對粉多搜尋引擎網站都有效喔

請參考
http://help.yahoo.com/help/tw/ysearch/ysearch-27.html
由 桃園遊子 發表於 16:51, Feb 6, 2006
60.248.24.* | liangyi at ms10 dot url dot com dot tw | 標記為廣告
應該是robots.txt才對喔,這個我很早就有設置了,但你看一下前面網友講的,robots.txt對百度搜尋引擎幾乎無效,它好像不care robots.txt裡面寫什麼,很扯。
ivan 發表於 20:44, Feb 6, 2006
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
剛好覺得這個202.108.1.3抓的有點過火,google一下終於知道是何方神聖:

中國搜索

似乎內地抓網站都抓的十分...過火

曾經有一個ip, referrer, user-agent什麼也沒有+有link就抓-明顯是flahget一類,抓了不到一半給我去了10多MB+感覺到被拖慢(即是1秒delay也沒有)...要是bandwidth少一點真的不夠他們來...
V!c 發表於 20:45, Jun 27, 2006
218.102.208.* | 標記為廣告
中國很多網站都這麼做,所以碰到有很明顯的,就把他們的ip阻擋掉,以維護網站的運作,我認為這是近幾年網站管理人員必須要面對的問題。
ivan 發表於 23:14, Jun 29, 2006
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
没办法啊,不加入搜索引擎么不好,加入么狂搜啊,google也是这样。昨天晚上它扫了我一晚~郁闷,流量啦,IIS连接数什么的。还好我的空间不限制IIS。
66.249.65.195 Mediapartners-Google/2.1 google点击广告爬虫
72.30.111.88 Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo搜索引擎爬虫
66.154.102.222 Gigabot Gigabot搜索引擎爬虫
66.154.103.167 Gigabot/2.0; http://www.gigablast.com/spider.html 被google吞并的gigabot搜索引擎
202.96.51.171 lanshanbot/1.0     有人说是中搜爬虫
202.108.1.* Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) 中搜的,不知道是干什么的
66.249.65.198 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 著名的google.com搜索引擎
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU) 这不是爬虫,不过还是要解释下,这是用foxmail6.0订阅了你的rss
202.160.179.35 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) yahoo音乐搜索
220.181.19.65 sogou spider 搜狗搜索引擎扫描器
220.181.8.80 OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com) 疑是搜索Email地址的,又像sohu家的
220.181.19.94 未知扫描器,不过可以放心,它不是攻击器。不过结合上面的IP可猜测,这个IP应该属于sohu家族的
InetURL:/1.0 也许是漏洞扫描器,也许是小偷程序。也有好多是广告机,灌水机。
218.90.13.32 Mozilla/3.0 (compatible; Indy Library) 广告发布机,还好Hosin blog有验证码
72.14.199.2 \rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) google的rss搜索扫描器
210.72.225.189 \rss.asp feedsky_spider http://www.feedsky.com 一款rss扫描器,有兴趣者进入此网站添加您的rss
207.46.98.139 msnbot/1.0 (+http://search.msn.com/msnbot.htm) MSN蜘蛛
61.135.146.199 Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.2.1) Gecko/20030225 这信息是某人在Linux系统上使用firefox 2.0浏览器访问。
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322) Sleipnir/2.45 使用Sleipnir浏览器,kuhanzhu也使用这款日本人开发的多页面浏览器,不过我一直用1.65版的
209.237.238.177 ia_archiver Alexa排名爬虫
kuhanzhu 發表於 9:40, Aug 24, 2006
220.188.48.* | 標記為廣告
google的搜尋機器人還會看伺服器承受程度來決定索引資料的頻率,或者是你自己也可以到google設定google機器人造訪自己網站的頻率,這對小型網站來說很好用。

不過我因為主機已經換很強的,故抓取頻率已經設定為最高。
ivan 發表於 1:53, Jan 2, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
我的頻寬上個月才提高50%,由4G提高到6G... :)不好意思,小站,只有這些小家當
結果,那些爬虫當月份就把這個頻寬幹光了,害我差點倒站

現在,我做了一個「訪客-點閱速限管制器」..........
任何爬虫、蜘蛛、網路小偷、正規生意人、老實學生......通通可以進來逛

假如有人要來掃站、砍站.......也無所謂。反正,搜狐、搜狗、孤狗天天都做這樣的事情
不論他的點閱數離譜到什麼程度,本站不封鎖人家ip....
什麼搜狐、搜狗、孤狗......通通歡迎,個人用戶使用flashget、tleleport.......百無禁忌
我不封鎖人家ip的,我們小小 6G 的頻寬一定夠用,
上個月他們給我搞了36萬個的點閱數,創下了本站歷史新高;昨天又掃了將近2萬筆,再次刷新紀錄。

沒關係,我們頂得住的。儘管來吧
孤狗、搜狗、搜狐,都是幫我打廣告的。我絕對不封鎖他的ip

朋友們也可以來試試看,能點多少就點多少。我頻寬只有6G,我不封鎖您的ip


http://www.aman.38.com/phpnuke/modules.php?name=EzPage&pid=130
aman 發表於 1:39, Dec 9, 2006
61.229.12.* | 標記為廣告
先前測試過了,效果還不錯,感謝你提供的訊息,我想這對各位站長來說,是很好的一種方式,不過不同的網頁文件系統,在搭配和實做上都會有一些不一樣,研究出頭緒並找出適合自己系統的最重要。
ivan 發表於 1:51, Jan 2, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告
引用列表
» virushuo: 转贴不说话--封鎖兩個大陸的網段存取本站
[詳全文...]
被引用於13:48, Jan 24, 2006










Collablog Portal enabled