判斷資訊品質

自從網際網路時代開始以後，就有一則有名的網路漫畫，畫著一隻狗在敲著電腦鍵盤，笑著說「沒有人知道我是一隻狗」。這個虛擬現實的寓言，其實也揭露了一種隱含的資訊恐懼：其實我們拙於分辨網路資訊的品質以及可信度。

首先，資訊後面真真假假、虛虛實實，參考錯誤的資訊，往往會導致錯誤的判斷與決策。其次，過多的資訊充斥，我們需要一種篩選的機制，讓我們只需要看到最精要的部份，就可以了解這許許多多資訊背後的意義。因此，我們期望能有一種方法、一種工具、或是一套標準、一種特殊的專家，來幫助我們分辨出好的資訊與壞的資訊。

但，在開始主題之前，我先說明一下，能力與工具的區別：

能力：是一種無形的才能，根植於個人的素養之中。擁有能力，體重不會因此減少，身高也不會因此增加，腦袋背後也不會因此放光。但是能力可以幫助個人行動，更有效，或達到更好的結果。一個人擁有判斷資訊品質的能力，表示他已經掌握了某些訣竅，「能夠」持續正確的判斷資訊品質。
工具：所有人類行動，在達成的過程中，都必需要利用到某些資源。而這些資源便是我們會利用的工具。這些資源可能是實體的，如榔頭、計算機等；也可能是概念上的，如一些作人做事的原則，可以被言傳的格言等等。許多各式各樣的「資訊品質標準」，也就是人在進行資訊品質判斷行動的時候，可以利用到的一些工具性資源。

當討論「個人知識管理」的時候，我希望能多提到一些對能力的討論。因為，擁有這種判斷的能力，才是我們追求的目的。而各式各樣的工具，是幫助我們到達彼岸的小船。我一定不免會提到一些相關的工具與資源。但是一旦我們能掌握那種能力，就不應該執著在任何一種小船的型態上。

資訊品質

資訊品質的定義非常多元。如果你想要找篇笑話來輕鬆一下，自己覺得好不好笑或許才是品質關鍵。如果想找首音樂來聽，那麼涉及的還是每個人的品味與主觀美感判斷。由於涉及到主觀性的部份，會無法將品質的因素客觀化，所以許多的資訊品質專家與研究，都傾向把「品質」與「價值」區分開來。也就是說，放棄到涉及主觀判斷的部份，也許還包含了使用上的情境因素，劃歸為價值問題，只會存而不論。

因此，許多專家們，主要只能探討，那些可以被共同承認的資訊品質標準。例如，當人在渴，想要喝水的時候，他會考量的因素有：

這是不是水？
這水可不可以喝，喝下去會不會有問題？
喝水的容器好不好用？

同樣的，儘管不同的資訊學者提出了各種的資訊品質標準(可參見附表 Knight & Burn, 2005 的整理)，但簡單地說，可以分為三類：

正不正確：是否符合事實，用詞是否妥切，論述是否邏輯清晰一致等等。
可不可信：是否出自可信賴的資訊來源。
好不好用：包含使用性、可及性、易讀性等等。

這三者中，好不好用，算是「使用性(usability)」方面的議題，所以我不會討論到。因為，這就像人在渴的時候，才不會考慮杯子設計的多不好用，只要有水跟水質乾淨就好。資訊也是一樣，當我們資訊多的時候，自然有餘裕來選擇「設計良好便於使用」的內容。不過要是我們急著要，可就不怎麼管這方面的考量，只能「先求有再求好」了。況且，好不好用也是有一些個人的主觀性意見。這方面在心理學、人因工程、人機互動等相關學科，原本就有一套評鑑方法與機制。

那麼，接下來只要照表操課，把這些正確性與可信度的標準講述一遍，我們就會變成資訊品質達人了吧？很可惜，事情沒有想像中的這麼簡單。如果我把相關文獻翻譯綜合一遍，應該可以花掉不少篇幅。但是我相信這不會管用的。因為這些標準的建議，都是我所區分的「工具」，而不是「能力」。既然是工具，就有各自適用預設的使用情境，例如：使用在學術研究時候的標準，當維護圖書館的主題性目錄與參考資源時使用的標準，等等。但是，確認資訊的正確性以及可信度，原本就是人類在日常生活的認知活動中，一直在進行的工作。儘管，我們的確可以從這許多標準中，參考到許多的實用性技巧，但是這只不過像是把小叮噹的萬用口袋送給大雄一樣：沒有足夠的能力，就沒有辦法善用它們。所以，本文希望能先釐清基礎的原則，才能相關情境因素改變的時候，知識工作者能靈活的應用不同的工具技術。

正確性：理想中的理性懷疑

長輩有交代：社會險惡，防人之心不可無。這其實就是在日常生活中，從小開始，每個人最基本的資訊可信度素養教育。例如，詐騙集團往往會捏造一些不正確的資訊，利誘或威脅，企圖誤導民眾把若干財產匯出到他們預設的帳戶中。這都是對我們個人「資訊正確性判斷能力」的一種挑戰。最容易被視破的詐騙陷阱，就是該詐騙提到一些與我相關的資訊是不正確的。例如：我有個朋友接到一通詐騙電話，跟他說「你的兒子被我綁架了」，可我那位朋友還在念研究所，連結婚都還沒有。所以，現在詐騙行家也學聰明了，他們會透過收集各種個人資訊的方法，好提供正確的個人資訊，穿透你的心防，讓你相信他們是真正的。這時，我們就需要更多的警覺、懷疑與判斷，才能應付這些層出不窮，屢屢翻新的騙人手法。

同樣的，當我們在查找資訊的時候，通常並不知道什麼樣的資訊才是正確無誤的。因此我們通常會利用其他的方法來檢驗資訊的可信度，一種就是這裡會提到的，透過資訊內在的理性邏輯判斷，另一種就是在下一節討論的，如何利用可信賴的外部聲譽線索。

所謂理性判斷，就是我們推敲所接收資訊的前後文，如果有出現邏輯上的矛盾，這就說明這份資訊的正確性大有問題。以學術期刊論文為例，我們可以透過論文中對研究問題的描述，研究方法的設計，研究結果與研究問題的呼應，來判斷這份研究是否有效或真切。

相同的技巧，其實也可以用來檢驗網路資訊的正確性上。只不過，理性懷疑也是一種非常耗費心智，難以大量運用的技巧。理想上，每個人都會為了自己的利害，根據自己所有的資訊權衡各種得失，做出正確的判斷；只不過這種完美的理性人，只會出現在小說跟經濟學的教科書中而已。實際上，大部分的凡人在日常生活中，並不總是隨時點亮自己的理性之光。例如，我們大部分在收到發票的時候，其實不會去重新加總上面的數字，看看收銀機有沒有加錯。因為我們通常「相信」電子計算機不會出錯，而發票也一定如實列印著不會出錯的結果。後來，有一陣子各種收銀系統都出現溢收的問題。從KTV到捷運悠遊卡都有。就開始有些人會稍稍注意一下，刷卡後的收據金額，或是捷運卡每日剩下的金額。但是只要時間一久，新聞不再報導，大家就依舊回復原本的習慣，繼續的相信帳單上的結果，老實付款。這是因為，理性權衡實在是一種很累，很沒有效率資訊處理方法。但就像跑步與走路，雖然我們有跑步的能力，但我們通常只是偶爾為之。我們的確會的運用我們的理性。但更多的狀況下，我們卻是運用一種「習慣化」與「模式化」的方式，來化簡整個資訊評估的心智工作。

舉個例子，即使是科學的代言人，學術研究者，也是這種習慣化策略的運用者。對某些學者而言，評估一篇文章的品質大概只是彈指之間的事情。這並不是說他們沒有用心研讀研究的內容，而是說他們在相關領域中的熟悉與習慣化，讓他們的心智能夠以超高效率處理這類的資訊評估工作。有時這種處理工作，快到成為一種自己無法察覺，就成為一種「品味」或「感覺」而已。而且這些默會的能力還往往特別精準。我們可以說，每個領域的專家或熟手，其實都有一套高度習慣化的模式，才能使他們用超乎常人的效率與品質，進行相關知識的評估工作。

這種高度習慣化的資訊評估模式，就像是一種演算法一樣，是透過個人在生活經驗中逐漸累積建立起來的。然而，這種習慣化的評估技巧固然兼顧了效度與效率，但是也有著領域與情境的限制。所以，一旦所面臨的資訊品質判斷問題，超過了原本應用的領域之內，這些習慣化策略便失去了其有效性。例如，即便是高級知識份子如老師教授等，還是有可能誤中電話詐騙集團的招數。這就是因為，在學術資訊品質判斷，與日常生活資訊品質判斷，有時候運用的策略與判準並不相同。

凡事懷疑推理太累，習慣化可以應用的領域又太窄，所以我們會需要下一種社會性的策略，來幫助我們掌握我們所不熟悉領域的資訊。

可信度：寄託於聲譽的賽局

另一種評估可性度的策略，就是將評估工作寄託於外部可信賴的有聲譽來源。這是人之所以是社會性動物，所特有的高級技巧。比如說，有許多學校開始明文禁止學生引用Wikipedia內容，所反映出的也設這類的「資訊來源聲譽」的考量。因為，理性的來看，應是改作業的老師應該要有能力去評斷，學生所引用的資訊正確性。或是，老師應該教會學生們具備判斷引用資訊正確性的能力。但是顯然上述理性的作法可能「太過於理想」，學校或老師執行起來力有未逮。所以老師們會立下一些規定，如：禁止引用來源不明的網路資訊，禁止引用非學術性的資訊來源，等等。

先說這種策略正面的部份。這的確是私底下人人都會運用的資訊評估技巧。「聲譽」的確是人類社會中，最重要也最有效的資訊評估機制。在職場上，所謂的「名校情節」，「文憑主義」，反映的也是這種聲譽機制。出版社現在常常會在封面上直接印上「名人推薦」，也是一樣的道理。因為，原則上，其實我們應該仔細評估每個求職者的能力；但實際上這是一件耗費時間，而且又很困難的工作。依賴文憑或畢業學校科系，的確可以幫助雇主大幅降低篩選人才的成本：特別是在時間上。因此，在所有的資訊可信度評估規範中，也有許多這類建議，如：「資訊來源可靠」「作者具權威性」等等。透過聲譽策略，我們可以大幅的簡化自己一個個去評估個別資訊真確性的工作。現代化社會的發展，也借重於這類對專業化委託信賴體系，使得社會知識可以更有效率的流通，而不同職業之間得以分工合作。

當然，這種策略雖然管用，但是也存在許多缺點。首先，過度依賴「聲譽」，其實也就是放棄自己判斷的能力。例如：每篇大英百科文章的內容都可以安心引用嗎？Nature雜誌在2005年進行了一次實驗，由專家們並不知道文章資料來源的前提下，評鑑來自Wikipedia與大英百科的文章內容。結果發現，大英百科的平均出錯率是每篇文章2.92個錯誤，略低於 Wikipedia的3.86個錯誤。這說明了，只要學生還是缺乏判斷資訊正確性的能力，那麼就算引用了大英百科也是會犯下錯誤。而，如果學生原本就具有資訊判斷的能力，即使是什麼樣的內容他應該都可以善加利用。

可信度參照來源的轉變

在資訊科技的影響下，資訊流通與變動的程度都遠較傳統社會來得劇烈。每年，都會有一批「名嘴」「名人」「達人」紛紛佔據各種媒體中心舞台，為各種產品或意見背書代言。台灣出版業在書籍封面的設計上，便可以媒體如何將這種策略發揮的淋漓盡致。從淨素的封面，到後來在書腰上加上「暫時性」的名人推薦，到後來乾脆大剌剌的永久性的印在封面上。但是再過幾年，物換星移之後，這些「印在封面上的名人推薦」，往往留下的是不勝唏噓的尷尬。

傳統社會中，聲譽的凝聚需要長久時間。「百年老字號」、「祖傳配方」都是這類聲譽系統的例子。經過長久時間考驗的資訊來源，實際上都為其品質的穩定度提供的一定的保證。另一方面，資訊生產機制的建立所費不貲。也因此，投機者需要累積一定的成本才能複製一套大規模的資訊提供來源。這也為資訊提供媒體的品質，建立了一定的起始門檻。相對的，這兩種條件(時間與設立成本)，在今日都已經被顛覆。開設一個Blog或線上論壇，需要的成本遠低於在路邊攤設個賣雞排攤。而今日資訊傳播速度的增加，可以讓名聲一夕爆起。這讓原本需要許多時間才能沈澱的社會聲譽系統，被迫在尚未成熟的時候就發揮了資訊可信度來源的功能。例如，一開始只是有一些「部落格名人」開始作廣告代言。這到也無可厚非。但隨後有許多網路行銷公司，開始私底下聯絡一些「部落格達人」，操作起「植入性行銷」的合作提案。但是爆起的名聲，大部分人根本沒有足夠資訊了解這些「達人」是否真的足夠信任。

但是，資訊科技並非只有帶來破壞而已。同時，資訊科技也帶來了新的機會與型態。以下，大略的區分為三種不同的新興資訊系統或工具。

第一種型態：基於社會網絡結構分析的可信度系統。

社會聲譽的來源，也就是來自於每個獨立的「個人習慣」的集中，也就是說，來自於許多散佈在社會各地的「好名聲、口碑」的累積。而資訊科技的進步，也可以幫助社會更有效率的收集這些散佈在各處的聲譽資訊。一個最具成效的社會聲譽資訊系統，就是Google的PageRank演算法。透過網頁間的連結結構，相當於Google利用網路間的連結，計算出個別網頁的「可參考度」。這種連結結構原本就存在網路之中，只是Google眼光獨到，透過這種沉默的聲譽結構來改善搜尋結果的排序。同樣的，我們也能將學術期刊的引用分析，看成是社會性聲譽系統的一種。在今日，它也已經期刊品質的重要參考數據來源了。

第二種型態：透過集體參與的可信度系統。

這種道理其實很簡單，票房越高的電影，就越可能不難看。越多客人的餐館，越不可能難吃。越多人看的網頁或網路資源，當然越可能值得一看。但是，網頁不像是電影院一樣，有個可信賴的機構公佈票房資訊。早期的網頁，還會埋一個「被瀏覽次數」來彰顯這個網頁是否門庭若市，值得信任。但是，後來許多人發現，這種「被瀏覽次數」實在太容易灌水與造假，於是這種效標的可信度不斷的往下修正，到了今天，大概沒有會完全地相信，由網站站方自己提供的被瀏覽次數資訊。而Google PageRank雖然可以作個公正的第三方，但是它主要針對網域名稱下的整個網站(site)，而個別頁面(page)的參考性反而不大。因此，線上書籤服務，如國外的del.icio.us, digg 或是國內的 hemidemi, myshare, funp 等等，這些可以標定到個別頁面的網路書籤服務，便可以扮演一個第三方公正者的角色，在某個程度上提供了比起Google可以更高資訊解析度的聲譽資訊。傳播學者陳順孝便認為這類的線上書籤服務，可以作為一種「公民新聞」實踐的可能，讓「編輯」的權力–決定文章重要性的權力，由少數編輯台上的主編解放出來，成為一種「集體編輯」的可能。網路書籤這類的網路服務，的確可以減省我們篩選資訊的時間。透過對網路書籤特定主題熱門RSS的訂閱，確實可以省下我們接受與篩選資訊不少的時間。

第三種型態：參考集體資訊的自動過濾系統。

既然，大部分的資訊超載都來自於「接受資訊」的時候，那麼直接在接受的時候，就導入社會聲譽的概念不是很棒嗎？一種服務的方向是，在RSS閱讀器上，呈現推薦給你的資訊。例如Google Reader，便會根據你的閱讀習慣，並參考其他人的閱讀習慣，列出哪些是你可能要讀的，與建議你可能會想要讀的。另一種服務的方向是，從對RSS來源的資訊過濾與整合著手。FeedHub 就是這一類的服務。他能透過內容與社群資料，提供資訊過濾與相關性推薦等功能。然而這些服務都才只是剛剛推出的嘗試，一方面對中文的支援有限，另一方面其過濾與推薦機制也只是「有趣」「富啟發性」，離真正改變整個資訊生態仍有段距離。

小結

但，即使也有這些新資訊技術誕生，整體而言，當下我們面臨的，仍然是一個資訊數量過多，平均資訊品質下降的時代。也因此，個人的資訊素養能力，比起以往時代，是一個更為重要的課題。不論是內化到自己的習慣化策略，或是透過社會篩選的聲譽策略，其實都是透過少數的「效標」，來推論未知資訊的品質。這就像是一把雙面刃。一方面能幫助我們更有效率的處理日常生活資訊。但也都有可能，讓我們陷入過度僵化的模式中，而反而失去了真正對資訊品質覺察的判斷力。我想，唯一能努力的，一個知識工作者，應該要能保持懷疑的態度與習慣，以及不要只相信單一的品質或價值判斷工具或方法。因此，也許重要的並不是，關心網路的後面到底是不是一隻狗，而是，我們自己是否能夠分辨出，網路的言論是不是夠水準，是否有價值。即使是一隻狗發表的，只要資訊有價值，也值得我們參考。即便是知名或權威人士，也是有可能發表出有問題的資訊，我們也需要能明辨出來。

附表：常見資訊品質面向 (The Common Dimensions of IQ/DQ)

面向	文獻提到次數	定義
正確性(Accuracy)	8	資料正確，可信且無誤
一致性(Consistency)	7	資訊呈現的格式一致
安全性(Security)	7	資料的取用是有適當的限制且保全的
即時性(Timeliness)	7	資訊沒有過時
完整性(Completeness)	5	資訊無遺漏，且有充分的廣度與深度
精要性(Concise)	5	沒有提供過多不必要的資訊
可信賴性(Reliability)	5	資訊是正確且可信的
可及性(Accessibility)	4	資訊是容易取得，或容易檢索的
可獲得性(Availability)	4	資訊在實體上容易取得
客觀性(Objectivity)	4	資訊是中肯、無偏見的
相關性(Relevancy)	4	資訊能滿足需求
可用性(Useability)	4	資訊是明白清楚且易用的
可理解性(Understandability)	5	資料是明白清楚、沒有矛盾且容易理解的
資料的數量(Amount of data)	3	可取得的資料數量夠多
可信性(Believability)	3	資訊是真實可信的
導覽(Navigation)	3	資料容易找到且連結
聲譽(Reputation)	3	資訊內容是備受肯定的
可用性(Useful)	3	資訊是可應用且有幫助的
有效率性(Efficiency)	3	資料能快速的符合資訊需求與任務
有加值的(Value-Added)	3	使用這些資訊是有益的

譯自 Knight, S., & Burn, J. (2005). Developing a Framework for Assessing Information Quality on the World Wide Web. Informing Science Journal, 8(3), 159-172. Available at http://inform.nu/Articles/Vol8/v8p159-172Knig.pdf

本文初次刊載於：全國新書資訊月刊，116 期。