Yblog = yourblog,你的優質部落格。願真田幸村紅鎧策馬赤備突擊的身影,帶給我們更多的勇氣。
星期一, 十月 1, 2007
不只是無名小站的Robots.txt排除其他搜尋引擎,Yahoo知識+、新聞也是
今天看了大神蔡依林長輩文章提到無名小站把搜尋引擎機器人判讀抓資料用的Robots.txt配置修改,居然只限定Yahoo的抓資料機器人可以讀取,排除了其他搜尋引擎的抓取動作,這引起了很多爭議。

雖然,我們都知道,守規矩的搜尋引擎機器人是會依據網站經營者放在網站主機上的Robots.txt來抓資料,不守規矩的就根本不理Robots.txt裡面列的規則,比方說中國的X度、搜X等搜尋引擎。不過無名小站這麼一改,守規矩的搜尋引擎中,最大的即Google,就不能索引無名小站上面龐大的文章資料。

也因此,在無名小站上面的部落客,會少掉Google等其他搜尋引擎帶來的流量。原因是Google不索引更新的內容後,很多無名小站網頁在Google伺服器上的索引在經過一段時間後也會消失(大神長輩:Google Blog Search 則是從 9/21 停止 index:Google 網誌搜尋:site:www.wretch.cc。),透過關鍵字搜尋而進入特定無名小站部落格文章的訪客就等於不見了,這對仰賴相關廣告的部落客來說是一種打擊,就算不是要賺錢,原本文章的影響力,也隨之下降,被看的機率就變少。

其實,已經購併無名小站的台灣Yahoo,並不是只有將無名小站的Robots.txt配置做修改,而是包含Yahoo奇摩知識+、Yahoo新聞等服務的網站主機都做了Robots.txt的配置修改,排除其他搜尋引擎的機器人來索引。

無名小站目前的Robots.txt是:
User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
我們來看台灣Yahoo奇摩知識+、Yahoo新聞的Robots.txt,分別是
User-agent: Slurp
Disallow: /billboard_category
Disallow: /billboard_ranking
Disallow: /browse_history
Disallow: /clear_history
Disallow: /my
Disallow: /search
Disallow: /dir
Disallow: /common
Disallow: /email
Disallow: /inc
Disallow: /plus
User-agent: *
Disallow: /

User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
所謂的Slurp就是Yahoo機器人的User-agent名稱,是給網站主機看的。從以上可以發現,無名小站與Yahoo新聞的Robots.txt設定是一樣,第一個規則就是Yahoo機器人可以抓取網站內容做索引,第二個規則就是所有其他(自然不包含Slurp)的機器人都不能抓取網站內容做索引。

而Yahoo奇摩知識+則同樣限定其他搜尋引擎機器人不能抓資料,而Yahoo本身的機器人可以抓取知識家的內容做索引,但限定一些目錄不行。

我們再來看Yahoo拍賣的Robots.txt,這就不一樣了,很明顯看出台灣Yahoo的思維:
User-agent: Slurp
Disallow:

User-agent: slurp
Disallow:

User-agent: Googlebot
Disallow:

User-agent: msnbot
Disallow:

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /
台灣Yahoo開放Yahoo、Google、微軟、百度等4個機器人來抓取資料做成索引,其他的卻統統不允許。

這代表了甚麼呢?

先看一下日前研究機構發表的2007年8月份美國搜尋引擎市佔率的數據,Google 高達56.5%、Yahoo 23.3%、微軟11.3%,時代華納AOL 4.5%、Ask 4.5%,Yahoo和微軟是持續下跌的,台灣雖然Yahoo的搜尋市佔率還是比較大,但與Google的市佔率差距已經縮小到很接近。

台灣Yahoo目前的作法無非是為了鞏固搜尋引擎市佔率,但作法有點怪,就是「優先將台灣Yahoo旗下的內容網站」上的Robots.txt設定成「只有Yahoo搜尋機器人」才可以抓資料進行索引,這樣網友「只會在Yahoo網站」搜尋到相關內容的頁面,增加Yahoo搜尋引擎的曝光率、搜尋關鍵字廣告的獲利。個人不負責猜測的言論,即是台灣Yahoo認定自家的內容在台灣有壟斷地位,所以可以這麼做,優先給自家搜尋引擎索引,排除對手。

其次,就是拍賣這種電子商務相關的,因為是交易平台,不是內容網站,「愈多人來看」,就代表「愈多人來買」,所以「開放其他搜尋引擎機器人」來讀取內容並索引資料,這樣其他搜尋引擎的台灣訪客、用戶,能夠在搜尋時連結到Yahoo奇摩以Yahoo拍賣為首的相關電子商務服務網站,貢獻獲利。

自己不是不能理解台灣Yahoo這樣的作法,但是以美國Yahoo為例,他們的Yahoo知識家,也就是Yahoo Anwsers,也沒這樣搞呀,開放其他搜尋引擎索引資料的,其Robots.txt是:User-agent: *
Disallow: /search
Disallow: /KnowledgeSearchService
Disallow: /question/next_question
Disallow: /rss

只能說,台灣Yahoo這樣的作法不妥,不確定這是否為美國Yahoo在其全球政策中的一環,但這樣的行為,已經是有挾著在台灣網路市場領先的地位,行排除其他競爭對手之實,大家應該予以關注。還在用無名小站的用戶,就不要用了,快搬家吧!

和長輩討論後,瞭解到Yahoo這邊的情況,是各頻道的PM可以決定設定robots.txt的配置,所以確定不是全球政策的一環。不過,以香港Yahoo的知識為例,開放其他的機器人做索引,但針對Google與Google行動版的機器人,做了排除的動作。

Yahoo流行的robots來說,它就是開放不阻擋任何的,tw.myblog.yahoo.com也是一樣。

另外,如果是Yahoo的新聞頻道,因為有很多合作對象的授權內容,很多內容是單方面授權給Yahoo,所以不能開放給其他搜尋引擎索引。因此,Yahoo新聞頻道只限定自己家搜尋引擎索引,是屬於合情合理。以Google新聞的服務為例,它雖然沒有阻擋其他搜尋引擎,但是限定了一堆目錄不能所以,這些目錄幾乎都是內容頁面,所以也只有Google新聞本身的搜尋引擎能夠索引這些新聞的內容,但維持時間也很多。因為授權的新聞內容期限多半不會太久,這是一般的情況。

至於知識+與無名小站,不應該阻擋其他搜尋引擎才對,畢竟Yahoo本身的部落格服務,沒有針對其他搜尋引擎機器人做排除的動作。
More... funp HemiDemi MyShare del.icio.us technorati Google Bookmarks Digg
ivan 發表於 7:00 PM | 文章分類: 數位科技, www, blog | 標籤列表:

迴響留言
這樣應該會導致不公平競爭吧?
強迫使用者只能上他的網站找他的資料,,邪惡。
pod 發表於 0:12, Oct 2, 2007
60.250.137.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
yahoo新版搜尋慢慢有這樣的味道,強化了一些東西,但也是為了鞏固市佔,成果如何,過兩個月才知道。
ivan 發表於 2:00, Oct 5, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
上頭下達指示 要加油
台灣的上頭 或是亞洲區的上頭 決定這樣做 來鞏固市場
在台灣 的確 雅虎的搜尋比較有力
可是個人喜歡簡潔的搜尋頁面 所以平時都用 google

話說
以前雅虎的搜索引擎是外包給google 的= =;
(不太確定現在還是不是就是了)
由 r 發表於 3:56, Oct 2, 2007
76.199.2.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
很早就不是了,yahoo在2004還是2005年就換掉成自己的搜尋技術。
ivan 發表於 1:59, Oct 5, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
嗯嗯

(因為yahoo 跟 google 的 search 還是太像了)
(所以感覺不出來- -;)
由 r 發表於 6:04, Oct 5, 2007
76.199.2.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
可以預見的是之後將會有再有一串無名搬家潮。
陳穎 發表於 4:29, Oct 2, 2007
61.225.50.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
為這搬家
不至於啦
由 r 發表於 18:05, Oct 2, 2007
76.199.2.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
認識的一些人因為這樣就搬家到pixnet了

人戶還不少
ivan 發表於 1:55, Oct 5, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
E....V....I....L
唉唉~
由 梅酒 發表於 8:18, Oct 2, 2007
10.82.42.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
哈哈,雅虎此舉真的有那麼理想嗎?我看是未必,因為資訊的可替代性是很高的,目前奇摩新聞、知識+、部落格等等都搜索不到,難道網友就真的會因為如此而再進入奇摩搜索一次嗎?不見得吧?用google的照樣用google啦,不會去點你奇摩的廣告啦!網路上資訊那麼多,要找到替代性、甚至是不同來源的相同資訊太容易了(因為太多人會轉貼的啦)!在說到部落格的部份,此舉造成人氣部落格也會不得已搬家,總而言之,雅虎也不要太跩了,增加了搜索次數,卻減少了一些流量,兩相抵銷之下,利益能有多大?被太多人討厭一定會有負面影響,雅虎啊雅虎,到底是誰出的餿主意?

在台灣是雅虎的搜尋比較有力,那是因為進入市場早,已經鞏固了使用者習慣,但論搜尋結果及資料庫的更新速度,當然是google較好,至於雅虎的搜索引擎早在好幾年前就用自己的了。
osaki 發表於 14:51, Oct 2, 2007
211.22.202.* | osakicom at giga dot net dot tw | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
只能看他們有沒有好的對策了。orz
ivan 發表於 2:01, Oct 5, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
和長輩討論後,瞭解到Yahoo這邊的情況,是各頻道的PM可以決定設定robots.txt的配置,所以確定不是全球政策的一環。不過,以香港Yahoo的知識為例,開放其他的機器人做索引,但針對Google與Google行動版的機器人,做了排除的動作。

Yahoo流行的robots來說,它就是開放不阻擋任何的,tw.myblog.yahoo.com也是一樣。

另外,如果是Yahoo的新聞頻道,因為有很多合作對象的授權內容,很多內容是單方面授權給Yahoo,所以不能開放給其他搜尋引擎索引。因此,Yahoo新聞頻道只限定自己家搜尋引擎索引,是屬於合情合理。以Google新聞的服務為例,它雖然沒有阻擋其他搜尋引擎,但是限定了一堆目錄不能所以,這些目錄幾乎都是內容頁面,所以也只有Google新聞本身的搜尋引擎能夠索引這些新聞的內容,但維持時間也很多。因為授權的新聞內容期限多半不會太久,這是一般的情況。

至於知識+與無名小站,不應該阻擋其他搜尋引擎才對,畢竟Yahoo本身的部落格服務,沒有針對其他搜尋引擎機器人做排除的動作。
ivan 發表於 15:21, Oct 2, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
funP.com 是啥網站, 怎麼都連落來看這頁, 怪怪的, 該不會是 Yahoo 派來的吧~
由 小虎 發表於 17:11, Oct 2, 2007
60.245.119.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
那是書籤網站,被推薦的話,本文就會出現在上面。
ivan 發表於 1:55, Oct 5, 2007
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
我想問一下 yahoo 的蜘蛛名稱有統一嗎?
我是說如果設 Yahoo! Slurp 及 Yahoo! Slurp China 會有反應嗎
由 edens 發表於 13:25, Jul 13, 2008
125.228.251.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
yahoo中國和yahoo美國的蜘蛛機器人名稱不太一樣
ivan 發表於 1:09, Jul 22, 2008
208.97.143.* | ivanusto at gmail dot com | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字
反正搜尋亞虎知識都是些垃圾,知識裡有極少的好東西,但大部分是垃圾,尤其搜尋到的都是垃圾,Yahoo就是能把事情做爛。
由 Jerry 發表於 14:14, Nov 29, 2008
115.30.81.* | 標記為廣告 | 回應此篇迴響
名稱
電子郵件
網址




請輸入你在圖片中看到的文字

張貼迴響:
名稱
電子郵件
網址



請輸入你在圖片中看到的文字
引用列表
本篇文章引用網址: http://yblog.org/api/trackback/?id=7503
沒有引用










Collablog Portal enabled