,

從2007中時文學獎疑似抄襲事件淺談認清網頁庫存機制之必要

Posted by

從2007中時文學獎疑似抄襲事件淺談認清網頁庫存機制之必要

這2天anarch1001兄提到有關這次2007年中時文學獎新詩組的疑似文章抄襲事件,剛好前天睡前瞄到,就提供了一些比對和檢查文章的看法。

不過昨日經過評審討論,還是認定新詩獎得主磊兒的得獎資格取消,理由是與[發表時間]在2005年6月14日,由劉哲廷張貼在blogspot上的文章類似(當然不完全一樣)。

網路文章發表的時間爭議

我的看法是,通常碰到這類網路文章爭議,必須先釐清的是,一般部落格平台如果文章的修改時間可以變動,而文章的流水編號卻是不會變動的。比方說本文的網址是https://yblog.org/archive/index.php/7676,編號是7676,就算是把文章改成2005年發表,文章編號還是一樣,可以藉此辨別文章的正確發表時序

其次,如果文章發表的網站,看起來如果找不到文章編號的流水號,還可以看archive.org(網頁歷史庫存資料集合站)或Google搜尋引擎的cache葉面,會比較麻煩一點。至於其他的主要部落格平台(BSP),文章都有流水號,能夠協助求證相關文章的大概發表時間點。

一般的BSP讓使用者修改時並不會留下時間記錄,不像討論版修改會把時間顯示在前端頁面(個人強烈建議BSP也可以考慮加入這種機制,強迫顯示文章編輯的時間),BSP的資料庫其實也不會記錄,所以只能從google cache或archive.org的時光庫存網頁中比對,花時間且有效,但是否值得有待商榷。

如果與A文流水號接近的其他文章,其發表時間是某時,與B文流水號接近的其他文章發表時間遠遠晚於A文號碼附近文章的時間,就肯定B文較晚。當然不能肯定B文抄襲,但是B文的公信力就降低。

怎麼樣釐清文章原本內容?

既然修改文章並不會改變文章留水號,但是只要google 有索引,可以看庫存網頁,再來就是看archive.org時光網頁之前的文內容(要花時間找,且不一定有),和他現在的文章比便可得知。

archive.org的好處是保存不同時間不同網站[當下]的內容,但盲點是,並不夠全面,如果點選了時光網頁庫存頁面中該部落格的任何連結,網址變動下讓網址參數中的時間變成現在的時間,就表示這篇文章或使用者所點選的連結,已經沒有當時的版本,直接跳最新的給你。

這是我們在使用archive.org時必備的知識。

回過頭來看這次的中時文學獎事件:

劉哲廷兩年前的作品網頁(Dear Howard)

磊兒被取消首獎的作品網頁(是你正坐在我的位置看海的樣子)
(她自己的意思是2007年4月寫的,不過貼到網頁是10月了)

這次事件之所以被關注文章發表時間的問題,是因為劉哲廷先前曾經發生過這件文章抄襲他人的事情

而中時文學獎主辦單位取消磊兒首獎的得獎資格後,磊兒發表聲明要請律師走法律途徑,並希望有電信警察查證記錄,認為中時文學獎主辦單位判斷文章是否抄襲的方式不夠好。

我怎麼想的呢?

磊兒發表的文章在無名小站,無名小站在archive的資料很片面,幾乎不具參考價值。我們來看劉哲廷過去的庫存頁面資料,因為是放在google買下的重量級blog服務平台blogspot,所以一定會被索引進資料庫。很幸運地,我們可以在archive找到5份庫存網頁記錄,換言之就是5個時間點下,由archive.org從網路上下載庫存起來的當時首頁風貌。

我查詢的結果如下:

劉先生部落格最早在archive.org的庫存歷史頁面只有到2005年12月,而該篇文章為2005年6月14日所發表,所以我們就看2005年6月的文章列表,看有沒有這篇Dear Howard文章。

根據資料庫記載,2005年12月26日時的庫存網頁記錄,2005年6月14日該篇文章確實存在

可是,我犯了一個錯誤,所以昨天晚上回給anarch1001時沒注意到點選後的連結已經自動被轉換了。今天檢查本站優格網的歷史網頁資料時才發現自己的盲點,再仔細觀察,直接點選該連結的話,其實會被自動指定到新的日期連結去,也就是說archive.org當時該網頁的庫存紀錄只有部分而已,連結指定的頁面並沒有放到資料庫裡,所以只好抓新的資料來慨。這表示原先如果我們想閱讀2005年6月的文章列表,就幾乎已經沒辦法取得當時的資料。

透過流水號可判斷文章日期,但內容是否被修改無從判斷起

不過我們可以看文章的流水號,是118開頭的,2006年12月比較新的文章是168開頭,更後面的日期其流水號的數字就更大,所以證實這篇文章的流水號與日期應該沒錯。

那麼內容呢?由於前面提到,archive.org當時該網頁的庫存紀錄經過檢查只有部分而已,所以根本無從得知該篇文章是否在2005年6月14日就是我們現在看到的樣子,所以內容是否修改,實際上可相信與否?我只好持保留態度。

由於archive.org的資料庫運作維護是獨立第3方,可信度有一定的水準。要比對是否抄襲,最好的方式就是在這裡找到當時的庫存頁面。只判斷流水號是不行的,原因是就算流水號證實是某個時間發的,但是因為查不到那個時間的內容,所以也無法知道是否是後來才修改的內容,還是確實當初就是這份內容,也是一般檢查的盲點。

這次的事件,確實是滿麻煩的事情。

如果兩造作者的文章放在很小的網站,那麼結果可能又會不一樣。(我猜的)

所以到底誰才是真正的原作者?還是說這是個美麗的巧合?
老實說沒辦法給個肯定的答案。除非用更激烈的調查方式,包括看blogspot紀錄(幾乎不可能)、由第3方人員觀看劉先生電腦中硬碟的紀錄。

而原得獎者文章放在無名小站,最大的缺點就是無名小站沒辦法有完整的庫存歷史頁面資料,希望創作者能夠引以為戒,不要在無名小站寫文章,要是發生事情,也不容易找到庫存頁面來保護自己,這是本事件之後,個人最先想到的感想之一。orz

這引伸出另一個問題,就是我們該如何主張和保護自己的文章?

個人覺得最好的方式是透過archive.org索引庫存,但要讓這個網站能夠索引,最重要的就是文章放置的平台不能是類似無名小站這種太多人使用的平台,很難從archive.org找到自己的文章。

更甚者,要是像無名小站之前爆發用robots.txt(一種給搜尋引擎機器人索引資料用的文件檔案,負責抓取資料的機器人由此判讀能不能下載網站上的資料做索引)擋掉其他搜尋引擎機器人的事件,那麼你的部落格或網站,也沒辦法在archive.org或其他庫存網頁資料庫出現。

另一種方式就是定期拍照做備份,好像太過火了。XD

對於真正在剽竊或抄襲的敗類,我們應當抵制。

歡迎留下您的想法與意見:
新網站新氣象,會想到緞帶教堂的美好
一直很喜歡的緞帶教堂 Ribbon Chapel
2007 年 11 月
 1234
567891011
12131415161718
19202122232425
2627282930