2007年3月15日 星期四

地理資訊網路應用 03/16

大家如何搜尋資料?

使用的搜尋引擎

Google, Yahoo!

找資料的網站

雅虎知識+wikipedia, google scholar

在搜尋引擎鍵入的關鍵字

UN , US census , World bank,

人口、人口分布、人口變遷、人口問題,

巴西、南美,

以及這些詞語的排列組合。


關於搜尋引擎:

過去的搜尋是利用用主題目錄(雅虎分類),這些目錄必須利用人工登錄,沒有登錄的網站沒有辦法查到。革新後的搜尋引擎是可以搜尋網頁的全文,AltaVista是第一個使用這種革新技術的搜尋引擎。雖然可以搜尋到許多跟關鍵字有關的網站,卻也造成搜尋到許多無用網站的窘境。

搜尋引擎資料的儲存:

搜尋引擎在很短的時間內可以回覆大量跟關鍵字有關的網站,這是因為這些資料事先儲存於資料庫中。資料庫可以分為兩種,網頁全文資料庫,與網頁目錄資料庫。目錄資料庫只記錄目錄,資料量較小;全文資料庫則是儲存網頁全文的資料庫,資料量非常龐大,通常稱它為spider, robot, Crawer等名稱。

目前許多搜尋引擎有許多種類的搜尋,如google首頁分有:網頁、圖片、新聞、論壇等搜尋類別 (還有更多種),這麼多種分類背後就是代表不同種的資料庫。

資料呈現的排序:

現在的搜尋引擎功能都很強大,鍵入一個關鍵字可能會出現上萬,甚至上億筆資料。然而,如何決定網站出現的前後順序,讓使用者可以在前比資料就找到需要的資料?google PageRank即是針對排序所開發的技術,這是重要的革新。PageRank基本概念就是,連結算是一種「投票」,只要一個網站連結越高,評比越高,網站就出現在其他分數較低的網站之前。

資料庫的限制:

儲存在別的資料庫的資料,如非將資料庫納入,不然無法搜尋到這個資料庫的內容。具體例子就是google無法搜尋到師大或台大圖書館的藏書,即使這本書跟你鍵入的關鍵字有關。

資料的選擇:

利用搜尋引擎所找到的資料,要注意「可靠性與詳細性」,即是要找「好的網站。」

相關連結:

PageRank in Wikipedia

Search engine in Wikipedia