Mark23的地理&網路狂想: 2007/3/11

大家如何搜尋資料？

使用的搜尋引擎

Google, Yahoo!

找資料的網站

雅虎知識+，wikipedia, google scholar

在搜尋引擎鍵入的關鍵字

UN , US census , World bank,

人口、人口分布、人口變遷、人口問題，

巴西、南美，

以及這些詞語的排列組合。

關於搜尋引擎：

過去的搜尋是利用用主題目錄(如雅虎分類)，這些目錄必須利用人工登錄，沒有登錄的網站沒有辦法查到。革新後的搜尋引擎是可以搜尋網頁的全文，AltaVista是第一個使用這種革新技術的搜尋引擎。雖然可以搜尋到許多跟關鍵字有關的網站，卻也造成搜尋到許多無用網站的窘境。

搜尋引擎資料的儲存：

搜尋引擎在很短的時間內可以回覆大量跟關鍵字有關的網站，這是因為這些資料事先儲存於資料庫中。資料庫可以分為兩種，網頁全文資料庫，與網頁目錄資料庫。目錄資料庫只記錄目錄，資料量較小；全文資料庫則是儲存網頁全文的資料庫，資料量非常龐大，通常稱它為spider, robot, Crawer等名稱。

目前許多搜尋引擎有許多種類的搜尋，如google首頁分有：網頁、圖片、新聞、論壇等搜尋類別 (還有更多種)，這麼多種分類背後就是代表不同種的資料庫。

資料呈現的排序：

現在的搜尋引擎功能都很強大，鍵入一個關鍵字可能會出現上萬，甚至上億筆資料。然而，如何決定網站出現的前後順序，讓使用者可以在前比資料就找到需要的資料？google PageRank即是針對排序所開發的技術，這是重要的革新。PageRank基本概念就是，連結算是一種「投票」，只要一個網站連結越高，評比越高，網站就出現在其他分數較低的網站之前。

資料庫的限制：

儲存在別的資料庫的資料，如非將資料庫納入，不然無法搜尋到這個資料庫的內容。具體例子就是google無法搜尋到師大或台大圖書館的藏書，即使這本書跟你鍵入的關鍵字有關。

資料的選擇：

利用搜尋引擎所找到的資料，要注意「可靠性與詳細性」，即是要找「好的網站。」

相關連結：

PageRank in Wikipedia

Search engine in Wikipedia

Mark23的地理&網路狂想

2007年3月15日星期四

地理資訊網路應用 03/16

Links

blog data

日本の天気

mark23 in anobii

支持樂生90%方案

Global Voice:全球之聲

message & chat 留言與對話

篤姫