判斷資訊品質

自從網際網路時代開始以後,就有一則有名的網路漫畫,畫著一隻狗在敲著電腦鍵盤,笑著說「沒有人知道我是一隻狗」。這個虛擬現實的寓言,其實也揭露了一種隱含的資訊恐懼:其實我們拙於分辨網路資訊的品質以及可信度。

首先,資訊後面真真假假、虛虛實實,參考錯誤的資訊,往往會導致錯誤的判斷與決策。其次,過多的資訊充斥,我們需要一種篩選的機制,讓我們只需要看到最精要的部份,就可以了解這許許多多資訊背後的意義。因此,我們期望能有一種方法、一種工具、或是一套標準、一種特殊的專家,來幫助我們分辨出好的資訊與壞的資訊。

但,在開始主題之前,我先說明一下,能力與工具的區別:

  • 能力:是一種無形的才能,根植於個人的素養之中。擁有能力,體重不會因此減少,身高也不會因此增加,腦袋背後也不會因此放光。但是能力可以幫助個人行動,更有效,或達到更好的結果。一個人擁有判斷資訊品質的能力,表示他已經掌握了某些訣竅,「能夠」持續正確的判斷資訊品質。
  • 工具:所有人類行動,在達成的過程中,都必需要利用到某些資源。而這些資源便是我們會利用的工具。這些資源可能是實體的,如榔頭、計算機等;也可能是概念上的,如一些作人做事的原則,可以被言傳的格言等等。許多各式各樣的「資訊品質標準」,也就是人在進行資訊品質判斷行動的時候,可以利用到的一些工具性資源。

當討論「個人知識管理」的時候,我希望能多提到一些對能力的討論。因為,擁有這種判斷的能力,才是我們追求的目的。而各式各樣的工具,是幫助我們到達彼岸的小船。我一定不免會提到一些相關的工具與資源。但是一旦我們能掌握那種能力,就不應該執著在任何一種小船的型態上。

資訊品質

資訊品質的定義非常多元。如果你想要找篇笑話來輕鬆一下,自己覺得好不好笑或許才是品質關鍵。如果想找首音樂來聽,那麼涉及的還是每個人的品味與主觀美感判斷。由於涉及到主觀性的部份,會無法將品質的因素客觀化,所以許多的資訊品質專家與研究,都傾向把「品質」與「價值」區分開來。也就是說,放棄到涉及主觀判斷的部份,也許還包含了使用上的情境因素,劃歸為價值問題,只會存而不論。

因此,許多專家們,主要只能探討,那些可以被共同承認的資訊品質標準。例如,當人在渴,想要喝水的時候,他會考量的因素有:

  • 這是不是水?
  • 這水可不可以喝,喝下去會不會有問題?
  • 喝水的容器好不好用?

同樣的,儘管不同的資訊學者提出了各種的資訊品質標準(可參見附表 Knight & Burn, 2005 的整理),但簡單地說,可以分為三類:

  • 正不正確:是否符合事實,用詞是否妥切,論述是否邏輯清晰一致等等。
  • 可不可信:是否出自可信賴的資訊來源。
  • 好不好用:包含使用性、可及性、易讀性等等。

這三者中,好不好用,算是「使用性(usability)」方面的議題,所以我不會討論到。因為,這就像人在渴的時候,才不會考慮杯子設計的多不好用,只要有水跟水質乾淨就好。資訊也是一樣,當我們資訊多的時候,自然有餘裕來選擇「設計良好便於使用」的內容。不過要是我們急著要,可就不怎麼管這方面的考量,只能「先求有再求好」了。況且,好不好用也是有一些個人的主觀性意見。這方面在心理學、人因工程、人機互動等相關學科,原本就有一套評鑑方法與機制。

那麼,接下來只要照表操課,把這些正確性與可信度的標準講述一遍,我們就會變成資訊品質達人了吧?很可惜,事情沒有想像中的這麼簡單。如果我把相關文獻翻譯綜合一遍,應該可以花掉不少篇幅。但是我相信這不會管用的。因為這些標準的建議,都是我所區分的「工具」,而不是「能力」。既然是工具,就有各自適用預設的使用情境,例如:使用在學術研究時候的標準,當維護圖書館的主題性目錄與參考資源時使用的標準,等等。但是,確認資訊的正確性以及可信度,原本就是人類在日常生活的認知活動中,一直在進行的工作。儘管,我們的確可以從這許多標準中,參考到許多的實用性技巧,但是這只不過像是把小叮噹的萬用口袋送給大雄一樣:沒有足夠的能力,就沒有辦法善用它們。所以,本文希望能先釐清基礎的原則,才能相關情境因素改變的時候,知識工作者能靈活的應用不同的工具技術。

正確性:理想中的理性懷疑

長輩有交代:社會險惡,防人之心不可無。這其實就是在日常生活中,從小開始,每個人最基本的資訊可信度素養教育。例如,詐騙集團往往會捏造一些不正確的資訊,利誘或威脅,企圖誤導民眾把若干財產匯出到他們預設的帳戶中。這都是對我們個人「資訊正確性判斷能力」的一種挑戰。最容易被視破的詐騙陷阱,就是該詐騙提到一些與我相關的資訊是不正確的。例如:我有個朋友接到一通詐騙電話,跟他說「你的兒子被我綁架了」,可我那位朋友還在念研究所,連結婚都還沒有。所以,現在詐騙行家也學聰明了,他們會透過收集各種個人資訊的方法,好提供正確的個人資訊,穿透你的心防,讓你相信他們是真正的。這時,我們就需要更多的警覺、懷疑與判斷,才能應付這些層出不窮,屢屢翻新的騙人手法。

同樣的,當我們在查找資訊的時候,通常並不知道什麼樣的資訊才是正確無誤的。因此我們通常會利用其他的方法來檢驗資訊的可信度,一種就是這裡會提到的,透過資訊內在的理性邏輯判斷,另一種就是在下一節討論的,如何利用可信賴的外部聲譽線索。

所謂理性判斷,就是我們推敲所接收資訊的前後文,如果有出現邏輯上的矛盾,這就說明這份資訊的正確性大有問題。以學術期刊論文為例,我們可以透過論文中對研究問題的描述,研究方法的設計,研究結果與研究問題的呼應,來判斷這份研究是否有效或真切。

相同的技巧,其實也可以用來檢驗網路資訊的正確性上。只不過,理性懷疑也是一種非常耗費心智,難以大量運用的技巧。理想上,每個人都會為了自己的利害,根據自己所有的資訊權衡各種得失,做出正確的判斷;只不過這種完美的理性人,只會出現在小說跟經濟學的教科書中而已。實際上,大部分的凡人在日常生活中,並不總是隨時點亮自己的理性之光。例如,我們大部分在收到發票的時候,其實不會去重新加總上面的數字,看看收銀機有沒有加錯。因為我們通常「相信」電子計算機不會出錯,而發票也一定如實列印著不會出錯的結果。後來,有一陣子各種收銀系統都出現溢收的問題。從KTV到捷運悠遊卡都有。就開始有些人會稍稍注意一下,刷卡後的收據金額,或是捷運卡每日剩下的金額。但是只要時間一久,新聞不再報導,大家就依舊回復原本的習慣,繼續的相信帳單上的結果,老實付款。這是因為,理性權衡實在是一種很累,很沒有效率資訊處理方法。但就像跑步與走路,雖然我們有跑步的能力,但我們通常只是偶爾為之。我們的確會的運用我們的理性。但更多的狀況下,我們卻是運用一種「習慣化」與「模式化」的方式,來化簡整個資訊評估的心智工作。

舉個例子,即使是科學的代言人,學術研究者,也是這種習慣化策略的運用者。對某些學者而言,評估一篇文章的品質大概只是彈指之間的事情。這並不是說他們沒有用心研讀研究的內容,而是說他們在相關領域中的熟悉與習慣化,讓他們的心智能夠以超高效率處理這類的資訊評估工作。有時這種處理工作,快到成為一種自己無法察覺,就成為一種「品味」或「感覺」而已。而且這些默會的能力還往往特別精準。我們可以說,每個領域的專家或熟手,其實都有一套高度習慣化的模式,才能使他們用超乎常人的效率與品質,進行相關知識的評估工作。

這種高度習慣化的資訊評估模式,就像是一種演算法一樣,是透過個人在生活經驗中逐漸累積建立起來的。然而,這種習慣化的評估技巧固然兼顧了效度與效率,但是也有著領域與情境的限制。所以,一旦所面臨的資訊品質判斷問題,超過了原本應用的領域之內,這些習慣化策略便失去了其有效性。例如,即便是高級知識份子如老師教授等,還是有可能誤中電話詐騙集團的招數。這就是因為,在學術資訊品質判斷,與日常生活資訊品質判斷,有時候運用的策略與判準並不相同。

凡事懷疑推理太累,習慣化可以應用的領域又太窄,所以我們會需要下一種社會性的策略,來幫助我們掌握我們所不熟悉領域的資訊。

可信度:寄託於聲譽的賽局

另一種評估可性度的策略,就是將評估工作寄託於外部可信賴的有聲譽來源。這是人之所以是社會性動物,所特有的高級技巧。比如說,有許多學校開始明文禁止學生引用Wikipedia內容,所反映出的也設這類的「資訊來源聲譽」的考量。因為,理性的來看,應是改作業的老師應該要有能力去評斷,學生所引用的資訊正確性。或是,老師應該教會學生們具備判斷引用資訊正確性的能力。但是顯然上述理性的作法可能「太過於理想」,學校或老師執行起來力有未逮。所以老師們會立下一些規定,如:禁止引用來源不明的網路資訊,禁止引用非學術性的資訊來源,等等。

先說這種策略正面的部份。這的確是私底下人人都會運用的資訊評估技巧。「聲譽」的確是人類社會中,最重要也最有效的資訊評估機制。在職場上,所謂的「名校情節」,「文憑主義」,反映的也是這種聲譽機制。出版社現在常常會在封面上直接印上「名人推薦」,也是一樣的道理。因為,原則上,其實我們應該仔細評估每個求職者的能力;但實際上這是一件耗費時間,而且又很困難的工作。依賴文憑或畢業學校科系,的確可以幫助雇主大幅降低篩選人才的成本:特別是在時間上。因此,在所有的資訊可信度評估規範中,也有許多這類建議,如:「資訊來源可靠」「作者具權威性」等等。透過聲譽策略,我們可以大幅的簡化自己一個個去評估個別資訊真確性的工作。現代化社會的發展,也借重於這類對專業化委託信賴體系,使得社會知識可以更有效率的流通,而不同職業之間得以分工合作。

當然,這種策略雖然管用,但是也存在許多缺點。首先,過度依賴「聲譽」,其實也就是放棄自己判斷的能力。例如:每篇大英百科文章的內容都可以安心引用嗎?Nature雜誌在2005年進行了一次實驗,由專家們並不知道文章資料來源的前提下,評鑑來自Wikipedia與大英百科的文章內容。結果發現,大英百科的平均出錯率是每篇文章2.92個錯誤,略低於 Wikipedia的3.86個錯誤。這說明了,只要學生還是缺乏判斷資訊正確性的能力,那麼就算引用了大英百科也是會犯下錯誤。而,如果學生原本就具有資訊判斷的能力,即使是什麼樣的內容他應該都可以善加利用。

可信度參照來源的轉變

在資訊科技的影響下,資訊流通與變動的程度都遠較傳統社會來得劇烈。每年,都會有一批「名嘴」「名人」「達人」紛紛佔據各種媒體中心舞台,為各種產品或意見背書代言。台灣出版業在書籍封面的設計上,便可以媒體如何將這種策略發揮的淋漓盡致。從淨素的封面,到後來在書腰上加上「暫時性」的名人推薦,到後來乾脆大剌剌的永久性的印在封面上。但是再過幾年,物換星移之後,這些「印在封面上的名人推薦」,往往留下的是不勝唏噓的尷尬。

傳統社會中,聲譽的凝聚需要長久時間。「百年老字號」、「祖傳配方」都是這類聲譽系統的例子。經過長久時間考驗的資訊來源,實際上都為其品質的穩定度提供的一定的保證。另一方面,資訊生產機制的建立所費不貲。也因此,投機者需要累積一定的成本才能複製一套大規模的資訊提供來源。這也為資訊提供媒體的品質,建立了一定的起始門檻。相對的,這兩種條件(時間與設立成本),在今日都已經被顛覆。開設一個Blog或線上論壇,需要的成本遠低於在路邊攤設個賣雞排攤。而今日資訊傳播速度的增加,可以讓名聲一夕爆起。這讓原本需要許多時間才能沈澱的社會聲譽系統,被迫在尚未成熟的時候就發揮了資訊可信度來源的功能。例如,一開始只是有一些「部落格名人」開始作廣告代言。這到也無可厚非。但隨後有許多網路行銷公司,開始私底下聯絡一些「部落格達人」,操作起「植入性行銷」的合作提案。但是爆起的名聲,大部分人根本沒有足夠資訊了解這些「達人」是否真的足夠信任。

但是,資訊科技並非只有帶來破壞而已。同時,資訊科技也帶來了新的機會與型態。以下,大略的區分為三種不同的新興資訊系統或工具。

第一種型態:基於社會網絡結構分析的可信度系統。

社會聲譽的來源,也就是來自於每個獨立的「個人習慣」的集中,也就是說,來自於許多散佈在社會各地的「好名聲、口碑」的累積。而資訊科技的進步,也可以幫助社會更有效率的收集這些散佈在各處的聲譽資訊。一個最具成效的社會聲譽資訊系統,就是Google的PageRank演算法。透過網頁間的連結結構,相當於Google利用網路間的連結,計算出個別網頁的「可參考度」。這種連結結構原本就存在網路之中,只是Google眼光獨到,透過這種沉默的聲譽結構來改善搜尋結果的排序。同樣的,我們也能將學術期刊的引用分析,看成是社會性聲譽系統的一種。在今日,它也已經期刊品質的重要參考數據來源了。

第二種型態:透過集體參與的可信度系統。

這種道理其實很簡單,票房越高的電影,就越可能不難看。越多客人的餐館,越不可能難吃。越多人看的網頁或網路資源,當然越可能值得一看。但是,網頁不像是電影院一樣,有個可信賴的機構公佈票房資訊。早期的網頁,還會埋一個「被瀏覽次數」來彰顯這個網頁是否門庭若市,值得信任。但是,後來許多人發現,這種「被瀏覽次數」實在太容易灌水與造假,於是這種效標的可信度不斷的往下修正,到了今天,大概沒有會完全地相信,由網站站方自己提供的被瀏覽次數資訊。 而Google PageRank雖然可以作個公正的第三方,但是它主要針對網域名稱下的整個網站(site),而個別頁面(page)的參考性反而不大。因此,線上書籤服務,如國外的del.icio.us, digg 或是國內的 hemidemi, myshare, funp 等等,這些可以標定到個別頁面的網路書籤服務,便可以扮演一個第三方公正者的角色,在某個程度上提供了比起Google可以更高資訊解析度的聲譽資訊。傳播學者陳順孝便認為這類的線上書籤服務,可以作為一種「公民新聞」實踐的可能,讓「編輯」的權力–決定文章重要性的權力,由少數編輯台上的主編解放出來,成為一種「集體編輯」的可能。網路書籤這類的網路服務,的確可以減省我們篩選資訊的時間。透過對網路書籤特定主題熱門RSS的訂閱,確實可以省下我們接受與篩選資訊不少的時間。

第三種型態:參考集體資訊的自動過濾系統。

既然,大部分的資訊超載都來自於「接受資訊」的時候,那麼直接在接受的時候,就導入社會聲譽的概念不是很棒嗎?一種服務的方向是,在RSS閱讀器上,呈現推薦給你的資訊。例如Google Reader,便會根據你的閱讀習慣,並參考其他人的閱讀習慣,列出哪些是你可能要讀的,與建議你可能會想要讀的。另一種服務的方向是,從對RSS來源的資訊過濾與整合著手。FeedHub 就是這一類的服務。他能透過內容與社群資料,提供資訊過濾與相關性推薦等功能。然而這些服務都才只是剛剛推出的嘗試,一方面對中文的支援有限,另一方面其過濾與推薦機制也只是「有趣」「富啟發性」,離真正改變整個資訊生態仍有段距離。

小結

但,即使也有這些新資訊技術誕生,整體而言,當下我們面臨的,仍然是一個資訊數量過多,平均資訊品質下降的時代。也因此,個人的資訊素養能力,比起以往時代,是一個更為重要的課題。 不論是內化到自己的習慣化策略,或是透過社會篩選的聲譽策略,其實都是透過少數的「效標」,來推論未知資訊的品質。這就像是一把雙面刃。一方面能幫助我們更有效率的處理日常生活資訊。但也都有可能,讓我們陷入過度僵化的模式中,而反而失去了真正對資訊品質覺察的判斷力。 我想,唯一能努力的,一個知識工作者,應該要能保持懷疑的態度與習慣,以及不要只相信單一的品質或價值判斷工具或方法。 因此,也許重要的並不是,關心網路的後面到底是不是一隻狗,而是,我們自己是否能夠分辨出,網路的言論是不是夠水準,是否有價值。即使是一隻狗發表的,只要資訊有價值,也值得我們參考。即便是知名或權威人士,也是有可能發表出有問題的資訊,我們也需要能明辨出來。

 

 

 

附表:常見資訊品質面向 (The Common Dimensions of IQ/DQ)

面向 文獻提到次數 定義
正確性(Accuracy) 8 資料正確,可信且無誤
一致性(Consistency) 7 資訊呈現的格式一致
安全性(Security) 7 資料的取用是有適當的限制且保全的
即時性(Timeliness) 7 資訊沒有過時
完整性(Completeness) 5 資訊無遺漏,且有充分的廣度與深度
精要性(Concise) 5 沒有提供過多不必要的資訊
可信賴性(Reliability) 5 資訊是正確且可信的
可及性(Accessibility) 4 資訊是容易取得,或容易檢索的
可獲得性(Availability) 4 資訊在實體上容易取得
客觀性(Objectivity) 4 資訊是中肯、無偏見的
相關性(Relevancy) 4 資訊能滿足需求
可用性(Useability) 4 資訊是明白清楚且易用的
可理解性(Understandability) 5 資料是明白清楚、沒有矛盾且容易理解的
資料的數量(Amount of data) 3 可取得的資料數量夠多
可信性(Believability) 3 資訊是真實可信的
導覽(Navigation) 3 資料容易找到且連結
聲譽(Reputation) 3 資訊內容是備受肯定的
可用性(Useful) 3 資訊是可應用且有幫助的
有效率性(Efficiency) 3 資料能快速的符合資訊需求與任務
有加值的(Value-Added) 3 使用這些資訊是有益的

譯自 Knight, S., & Burn, J. (2005). Developing a Framework for Assessing Information Quality on the World Wide Web. Informing Science Journal, 8(3), 159-172. Available at http://inform.nu/Articles/Vol8/v8p159-172Knig.pdf

本文初次刊載於:全國新書資訊月刊,116 期。

  • 讲得很好,很实用,受教了

  • sam

    這篇文章很有深度,但心有慼慼煙的地方在於其顯露了辨識消息正確的邏輯性
    如何在人云亦云充斥的社會, 初淺辨識是否可信賴的消息
    謠言止於智者, 迷信止於機率學
    轉貼至http://www.wretch.cc/blog/sam333/31843150