[Mon Jan 23 18:00:48 2006] [error] [client 202.108.1.26] File does not exist: note
[Mon Jan 23 18:01:34 2006] [error] [client 202.108.1.26] File does not exist: note
[Mon Jan 23 18:02:15 2006] [error] [client 202.108.1.26] File does not exist: note
[Mon Jan 23 18:02:27 2006] [error] [client 202.108.1.12] File does not exist: jxclient.exe
[Mon Jan 23 18:05:44 2006] [error] [client 202.108.1.15] File does not exist: DIY
[Mon Jan 23 18:06:47 2006] [error] [client 202.108.1.7] script 'viewthread.php' not found or unable to stat
[Mon Jan 23 18:07:15 2006] [error] [client 202.108.1.14] File does not exist: product
[Mon Jan 23 18:09:11 2006] [error] [client 202.108.1.27] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:09:11 2006] [error] [client 202.108.1.13] script 'pm.php' not found or unable to stat
[Mon Jan 23 18:09:45 2006] [error] [client 202.108.1.26] File does not exist: TEMPLATES
[Mon Jan 23 18:10:17 2006] [error] [client 202.96.63.2] File does not exist: images
[Mon Jan 23 18:10:55 2006] [error] [client 202.108.1.9] File does not exist: SoftChannel
[Mon Jan 23 18:11:47 2006] [error] [client 202.108.1.2] File does not exist: wap_other_info.aspx
[Mon Jan 23 18:11:54 2006] [error] [client 202.108.1.3] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:12:20 2006] [error] [client 202.108.1.27] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:14:06 2006] [error] [client 202.96.63.2] File does not exist: bbs
[Mon Jan 23 18:15:50 2006] [error] [client 202.96.63.2] File does not exist: images
[Mon Jan 23 18:16:32 2006] [error] [client 202.108.1.27] File does not exist: tuangou.asp
[Mon Jan 23 18:17:53 2006] [error] [client 202.96.63.3] File does not exist: xfzn.asp
[Mon Jan 23 18:19:15 2006] [error] [client 202.108.1.6] File does not exist: rs_f
[Mon Jan 23 18:19:20 2006] [error] [client 202.108.1.27] File does not exist: vip
[Mon Jan 23 18:19:58 2006] [error] [client 202.108.1.26] File does not exist: 007bbs
[Mon Jan 23 18:20:26 2006] [error] [client 202.108.1.27] File does not exist: bbs
[Mon Jan 23 18:22:32 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:22:50 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:23:14 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:23:43 2006] [error] [client 202.108.1.6] File does not exist: MoreLink.Asp
[Mon Jan 23 18:24:00 2006] [error] [client 202.108.1.27] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:24:50 2006] [error] [client 202.108.1.6] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:25:32 2006] [error] [client 202.108.1.5] File does not exist: bbsnew
[Mon Jan 23 18:25:34 2006] [error] [client 202.108.1.4] Invalid URI in request GET HTTP/1.0
[Mon Jan 23 18:25:46 2006] [error] [client 202.108.1.4] File does not exist: api/search/api
[Mon Jan 23 18:26:32 2006] [error] [client 202.108.1.3] File does not exist: url.asp
再來是最多的存取log,兩分鐘內它居然要存取百多個頁面....
星期二, 一月 24, 2006
封鎖2個中國的網段存取本站
昨天下午和午夜,又發生伺服器效能嚴重被影響的情形,都是這兩個網段的伺服器在做大量存取,分別是202.108.1.* 與202.96.63.*。
士可忍孰不可忍,把這兩個網段整個封鎖掉。我覺得他們是很惡劣的搜尋引擎或網站、伺服器,幾乎是用mirror的方式在抓我這邊整個網站的資料,哪有搜尋引擎是這樣子做事的。
大量存取就算了,還一直在嘗試存取網站不存在的目錄或頁面,明顯就是屬於惡意的攻擊行為,希望中華人民共和國的信息產業部或公安部門,能遏止他們這種行為,以還網際網路的正常秩序。
也希望有看到本文的站長們,協助推廣將這兩個網段封鎖,不讓他們來大量存取各網站的伺服器。
下面是他們存取的「一小部分」錯誤紀錄,請問有看過這樣子抓網站的嗎?

由 ivan 發表於 2:00 PM | 文章分類: 數位科技, 站務相關
關閉迴響 | 友善列印
« ATI推出Radeon X1900 | 優格網首頁 | 《Grand Chase》居然命名為《3小俠... »
士可忍孰不可忍,把這兩個網段整個封鎖掉。我覺得他們是很惡劣的搜尋引擎或網站、伺服器,幾乎是用mirror的方式在抓我這邊整個網站的資料,哪有搜尋引擎是這樣子做事的。
大量存取就算了,還一直在嘗試存取網站不存在的目錄或頁面,明顯就是屬於惡意的攻擊行為,希望中華人民共和國的信息產業部或公安部門,能遏止他們這種行為,以還網際網路的正常秩序。
也希望有看到本文的站長們,協助推廣將這兩個網段封鎖,不讓他們來大量存取各網站的伺服器。
下面是他們存取的「一小部分」錯誤紀錄,請問有看過這樣子抓網站的嗎?








由 ivan 發表於 2:00 PM | 文章分類: 數位科技, 站務相關
關閉迴響 | 友善列印
« ATI推出Radeon X1900 | 優格網首頁 | 《Grand Chase》居然命名為《3小俠... »
迴響留言
看看這個 IP 202.108.1.4
http://network-tools.com/default.asp?prog=lookup&Netnic=whois.arin.net&host=202.108.1.4
查到的結果:
IP address: 202.108.1.4
Host name: xk-1-4-a8.bta.net.cn
.bta.net.cn ?
跟百度 spider 都是一樣來自 .bta.net.cn
所以極有可能這些都同樣來自百度?
我列了一小段給你看,我的log檔裡面一堆這個東西。
這是error的部分而已,access的部分更誇張,是將你整個頁面所有的連結通通抓一份,哪有搜尋引擎是這樣搞的。
光他就佔掉了幾G以上的資料流量吧,那其它人要連網站怎麼辦,切~
這是error的部分而已,access的部分更誇張,是將你整個頁面所有的連結通通抓一份,哪有搜尋引擎是這樣搞的。
光他就佔掉了幾G以上的資料流量吧,那其它人要連網站怎麼辦,切~
看看這個 IP 202.108.1.4
http://network-tools.com/default.asp?prog=lookup&Netnic=whois.arin.net&host=202.108.1.4
查到的結果:
IP address: 202.108.1.4
Host name: xk-1-4-a8.bta.net.cn
.bta.net.cn ?
跟百度 spider 都是一樣來自 .bta.net.cn
所以極有可能這些都同樣來自百度?
由 站長甲 發表於 15:50, Jan 24, 2006
218.168.72.* | 標記為廣告
218.168.72.* | 標記為廣告
剛好覺得這個202.108.1.3抓的有點過火,google一下終於知道是何方神聖:
中國搜索
似乎內地抓網站都抓的十分...過火
曾經有一個ip, referrer, user-agent什麼也沒有+有link就抓-明顯是flahget一類,抓了不到一半給我去了10多MB+感覺到被拖慢(即是1秒delay也沒有)...要是bandwidth少一點真的不夠他們來...
中國搜索
似乎內地抓網站都抓的十分...過火
曾經有一個ip, referrer, user-agent什麼也沒有+有link就抓-明顯是flahget一類,抓了不到一半給我去了10多MB+感覺到被拖慢(即是1秒delay也沒有)...要是bandwidth少一點真的不夠他們來...
没办法啊,不加入搜索引擎么不好,加入么狂搜啊,google也是这样。昨天晚上它扫了我一晚~郁闷,流量啦,IIS连接数什么的。还好我的空间不限制IIS。
66.249.65.195 Mediapartners-Google/2.1 google点击广告爬虫
72.30.111.88 Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo搜索引擎爬虫
66.154.102.222 Gigabot Gigabot搜索引擎爬虫
66.154.103.167 Gigabot/2.0; http://www.gigablast.com/spider.html 被google吞并的gigabot搜索引擎
202.96.51.171 lanshanbot/1.0 有人说是中搜爬虫
202.108.1.* Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) 中搜的,不知道是干什么的
66.249.65.198 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 著名的google.com搜索引擎
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU) 这不是爬虫,不过还是要解释下,这是用foxmail6.0订阅了你的rss
202.160.179.35 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) yahoo音乐搜索
220.181.19.65 sogou spider 搜狗搜索引擎扫描器
220.181.8.80 OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com) 疑是搜索Email地址的,又像sohu家的
220.181.19.94 未知扫描器,不过可以放心,它不是攻击器。不过结合上面的IP可猜测,这个IP应该属于sohu家族的
InetURL:/1.0 也许是漏洞扫描器,也许是小偷程序。也有好多是广告机,灌水机。
218.90.13.32 Mozilla/3.0 (compatible; Indy Library) 广告发布机,还好Hosin blog有验证码
72.14.199.2 \rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) google的rss搜索扫描器
210.72.225.189 \rss.asp feedsky_spider http://www.feedsky.com 一款rss扫描器,有兴趣者进入此网站添加您的rss
207.46.98.139 msnbot/1.0 (+http://search.msn.com/msnbot.htm) MSN蜘蛛
61.135.146.199 Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.2.1) Gecko/20030225 这信息是某人在Linux系统上使用firefox 2.0浏览器访问。
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322) Sleipnir/2.45 使用Sleipnir浏览器,kuhanzhu也使用这款日本人开发的多页面浏览器,不过我一直用1.65版的
209.237.238.177 ia_archiver Alexa排名爬虫
66.249.65.195 Mediapartners-Google/2.1 google点击广告爬虫
72.30.111.88 Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo搜索引擎爬虫
66.154.102.222 Gigabot Gigabot搜索引擎爬虫
66.154.103.167 Gigabot/2.0; http://www.gigablast.com/spider.html 被google吞并的gigabot搜索引擎
202.96.51.171 lanshanbot/1.0 有人说是中搜爬虫
202.108.1.* Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) 中搜的,不知道是干什么的
66.249.65.198 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 著名的google.com搜索引擎
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU) 这不是爬虫,不过还是要解释下,这是用foxmail6.0订阅了你的rss
202.160.179.35 Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) yahoo音乐搜索
220.181.19.65 sogou spider 搜狗搜索引擎扫描器
220.181.8.80 OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com) 疑是搜索Email地址的,又像sohu家的
220.181.19.94 未知扫描器,不过可以放心,它不是攻击器。不过结合上面的IP可猜测,这个IP应该属于sohu家族的
InetURL:/1.0 也许是漏洞扫描器,也许是小偷程序。也有好多是广告机,灌水机。
218.90.13.32 Mozilla/3.0 (compatible; Indy Library) 广告发布机,还好Hosin blog有验证码
72.14.199.2 \rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) google的rss搜索扫描器
210.72.225.189 \rss.asp feedsky_spider http://www.feedsky.com 一款rss扫描器,有兴趣者进入此网站添加您的rss
207.46.98.139 msnbot/1.0 (+http://search.msn.com/msnbot.htm) MSN蜘蛛
61.135.146.199 Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.2.1) Gecko/20030225 这信息是某人在Linux系统上使用firefox 2.0浏览器访问。
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322) Sleipnir/2.45 使用Sleipnir浏览器,kuhanzhu也使用这款日本人开发的多页面浏览器,不过我一直用1.65版的
209.237.238.177 ia_archiver Alexa排名爬虫
google的搜尋機器人還會看伺服器承受程度來決定索引資料的頻率,或者是你自己也可以到google設定google機器人造訪自己網站的頻率,這對小型網站來說很好用。
不過我因為主機已經換很強的,故抓取頻率已經設定為最高。
不過我因為主機已經換很強的,故抓取頻率已經設定為最高。
我的頻寬上個月才提高50%,由4G提高到6G... :)不好意思,小站,只有這些小家當
結果,那些爬虫當月份就把這個頻寬幹光了,害我差點倒站
現在,我做了一個「訪客-點閱速限管制器」..........
任何爬虫、蜘蛛、網路小偷、正規生意人、老實學生......通通可以進來逛
假如有人要來掃站、砍站.......也無所謂。反正,搜狐、搜狗、孤狗天天都做這樣的事情
不論他的點閱數離譜到什麼程度,本站不封鎖人家ip....
什麼搜狐、搜狗、孤狗......通通歡迎,個人用戶使用flashget、tleleport.......百無禁忌
我不封鎖人家ip的,我們小小 6G 的頻寬一定夠用,
上個月他們給我搞了36萬個的點閱數,創下了本站歷史新高;昨天又掃了將近2萬筆,再次刷新紀錄。
沒關係,我們頂得住的。儘管來吧
孤狗、搜狗、搜狐,都是幫我打廣告的。我絕對不封鎖他的ip
朋友們也可以來試試看,能點多少就點多少。我頻寬只有6G,我不封鎖您的ip
http://www.aman.38.com/phpnuke/modules.php?name=EzPage&pid=130
結果,那些爬虫當月份就把這個頻寬幹光了,害我差點倒站
現在,我做了一個「訪客-點閱速限管制器」..........
任何爬虫、蜘蛛、網路小偷、正規生意人、老實學生......通通可以進來逛
假如有人要來掃站、砍站.......也無所謂。反正,搜狐、搜狗、孤狗天天都做這樣的事情
不論他的點閱數離譜到什麼程度,本站不封鎖人家ip....
什麼搜狐、搜狗、孤狗......通通歡迎,個人用戶使用flashget、tleleport.......百無禁忌
我不封鎖人家ip的,我們小小 6G 的頻寬一定夠用,
上個月他們給我搞了36萬個的點閱數,創下了本站歷史新高;昨天又掃了將近2萬筆,再次刷新紀錄。
沒關係,我們頂得住的。儘管來吧
孤狗、搜狗、搜狐,都是幫我打廣告的。我絕對不封鎖他的ip

朋友們也可以來試試看,能點多少就點多少。我頻寬只有6G,我不封鎖您的ip
http://www.aman.38.com/phpnuke/modules.php?name=EzPage&pid=130
引用列表
訪客來源網址(僅列最多的10個外部來源):
- https://www.google.com.tw/ (83)
- https://www.google.com/ (12)
- http://blog.donews.com/virushuo/page/8 (10)
- https://www.google.com.tw (6)
- http://blog.donews.com/virushuo/archive/2006/01 (5)
- http://yblog.org (5)
- http://www.google.com.tw/ (3)
- http://tw.search.yahoo....amp;v=0&vm=r (2)
- http://c.yam.com/ (2)
- https://www.google.com (2)
- http://60.199.173.6/archive/index.php/5862 (1)
- http://www.bing.com/sea...10&form=pere (1)
- http://www.bing.com/sea...42&form=pere (1)
- http://tw.search.yahoo....ei=utf-8&v=0 (1)
- http://www.bing.com/sea...27&form=pere (1)
說到這個,我前幾天也把百度的spider暫時擋掉,因為他們實在是耙的太誇張。
給各位看一些數據
#reqs %bytes host
218179 60.33% 202.108.23.72 (baiduspider 百度)
24365 2.56% 66.249.66.243 (googlebot google)
這是累積一段時間後,整理出的數據。同樣是search engine 耙網頁,怎麼百度需要耙這麼多次
(60.33比2.56, google的快30倍)
你說的這兩個網段,我倒是還沒受到摧殘。
不過感謝你提供的資訊,會把它列為觀察黑名單。
但是請問有完整的 IP 嗎,不知道用traceroute可不可以查出是從哪來的?
很想知道是從何而來,因為也不想錯殺無辜。
218.168.72.* | 標記為廣告