, ,

不只是無名小站的Robots.txt排除其他搜尋引擎,Yahoo知識+、新聞也是

Posted by

不只是無名小站的Robots.txt排除其他搜尋引擎,Yahoo知識+、新聞也是

今天看了大神蔡依林長輩文章提到無名小站把搜尋引擎機器人判讀抓資料用的Robots.txt配置修改,居然只限定Yahoo的抓資料機器人可以讀取,排除了其他搜尋引擎的抓取動作,這引起了很多爭議。

雖然,我們都知道,守規矩的搜尋引擎機器人是會依據網站經營者放在網站主機上的Robots.txt來抓資料,不守規矩的就根本不理Robots.txt裡面列的規則,比方說中國的X度、搜X等搜尋引擎。不過無名小站這麼一改,守規矩的搜尋引擎中,最大的即Google,就不能索引無名小站上面龐大的文章資料。

也因此,在無名小站上面的部落客,會少掉Google等其他搜尋引擎帶來的流量。原因是Google不索引更新的內容後,很多無名小站網頁在Google伺服器上的索引在經過一段時間後也會消失(大神長輩:Google Blog Search 則是從 9/21 停止 index:Google 網誌搜尋:site:www.wretch.cc。),透過關鍵字搜尋而進入特定無名小站部落格文章的訪客就等於不見了,這對仰賴相關廣告的部落客來說是一種打擊,就算不是要賺錢,原本文章的影響力,也隨之下降,被看的機率就變少。

其實,已經購併無名小站的台灣Yahoo,並不是只有將無名小站的Robots.txt配置做修改,而是包含Yahoo奇摩知識+、Yahoo新聞等服務的網站主機都做了Robots.txt的配置修改,排除其他搜尋引擎的機器人來索引。

無名小站目前的Robots.txt是:

User-agent: Slurp
Disallow:
User-agent: *
Disallow: /

我們來看台灣Yahoo奇摩知識+、Yahoo新聞的Robots.txt,分別是

User-agent: Slurp
Disallow: /billboard_category
Disallow: /billboard_ranking
Disallow: /browse_history
Disallow: /clear_history
Disallow: /my
Disallow: /search
Disallow: /dir
Disallow: /common
Disallow: /email
Disallow: /inc
Disallow: /plus
User-agent: *
Disallow: /

User-agent: Slurp
Disallow:
User-agent: *
Disallow: /

所謂的Slurp就是Yahoo機器人的User-agent名稱,是給網站主機看的。從以上可以發現,無名小站與Yahoo新聞的Robots.txt設定是一樣,第一個規則就是Yahoo機器人可以抓取網站內容做索引,第二個規則就是所有其他(自然不包含Slurp)的機器人都不能抓取網站內容做索引。

而Yahoo奇摩知識+則同樣限定其他搜尋引擎機器人不能抓資料,而Yahoo本身的機器人可以抓取知識家的內容做索引,但限定一些目錄不行。

我們再來看Yahoo拍賣的Robots.txt,這就不一樣了,很明顯看出台灣Yahoo的思維:

User-agent: Slurp
Disallow:

User-agent: slurp
Disallow:

User-agent: Googlebot
Disallow:

User-agent: msnbot
Disallow:

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

台灣Yahoo開放Yahoo、Google、微軟、百度等4個機器人來抓取資料做成索引,其他的卻統統不允許。

這代表了甚麼呢?

先看一下日前研究機構發表的2007年8月份美國搜尋引擎市佔率的數據,Google 高達56.5%、Yahoo 23.3%、微軟11.3%,時代華納AOL 4.5%、Ask 4.5%,Yahoo和微軟是持續下跌的,台灣雖然Yahoo的搜尋市佔率還是比較大,但與Google的市佔率差距已經縮小到很接近。

台灣Yahoo目前的作法無非是為了鞏固搜尋引擎市佔率,但作法有點怪,就是「優先將台灣Yahoo旗下的內容網站」上的Robots.txt設定成「只有Yahoo搜尋機器人」才可以抓資料進行索引,這樣網友「只會在Yahoo網站」搜尋到相關內容的頁面,增加Yahoo搜尋引擎的曝光率、搜尋關鍵字廣告的獲利。個人不負責猜測的言論,即是台灣Yahoo認定自家的內容在台灣有壟斷地位,所以可以這麼做,優先給自家搜尋引擎索引,排除對手。

其次,就是拍賣這種電子商務相關的,因為是交易平台,不是內容網站,「愈多人來看」,就代表「愈多人來買」,所以「開放其他搜尋引擎機器人」來讀取內容並索引資料,這樣其他搜尋引擎的台灣訪客、用戶,能夠在搜尋時連結到Yahoo奇摩以Yahoo拍賣為首的相關電子商務服務網站,貢獻獲利。

自己不是不能理解台灣Yahoo這樣的作法,但是以美國Yahoo為例,他們的Yahoo知識家,也就是Yahoo Anwsers,也沒這樣搞呀,開放其他搜尋引擎索引資料的,其Robots.txt是:User-agent: *
Disallow: /search
Disallow: /KnowledgeSearchService
Disallow: /question/next_question
Disallow: /rss

只能說,台灣Yahoo這樣的作法不妥,不確定這是否為美國Yahoo在其全球政策中的一環,但這樣的行為,已經是有挾著在台灣網路市場領先的地位,行排除其他競爭對手之實,大家應該予以關注。還在用無名小站的用戶,就不要用了,快搬家吧!

和長輩討論後,瞭解到Yahoo這邊的情況,是各頻道的PM可以決定設定robots.txt的配置,所以確定不是全球政策的一環。不過,以香港Yahoo的知識為例,開放其他的機器人做索引,但針對Google與Google行動版的機器人,做了排除的動作。

Yahoo流行的robots來說,它就是開放不阻擋任何的,tw.myblog.yahoo.com也是一樣。

另外,如果是Yahoo的新聞頻道,因為有很多合作對象的授權內容,很多內容是單方面授權給Yahoo,所以不能開放給其他搜尋引擎索引。因此,Yahoo新聞頻道只限定自己家搜尋引擎索引,是屬於合情合理。以Google新聞的服務為例,它雖然沒有阻擋其他搜尋引擎,但是限定了一堆目錄不能所以,這些目錄幾乎都是內容頁面,所以也只有Google新聞本身的搜尋引擎能夠索引這些新聞的內容,但維持時間也很多。因為授權的新聞內容期限多半不會太久,這是一般的情況。

至於知識+與無名小站,不應該阻擋其他搜尋引擎才對,畢竟Yahoo本身的部落格服務,沒有針對其他搜尋引擎機器人做排除的動作。

歡迎留下您的想法與意見:
新網站新氣象,會想到緞帶教堂的美好
一直很喜歡的緞帶教堂 Ribbon Chapel
2007 年 10 月
1234567
891011121314
15161718192021
22232425262728
293031