基于 Web Service 的發(fā)展現(xiàn)狀,其中的全文搜索引擎是它一個不可或缺且扮演相當(dāng)中要的一個功能模塊。而現(xiàn)在的互聯(lián)網(wǎng)世界,網(wǎng)頁是它的最主要的組成部份,也是人們獲取網(wǎng)絡(luò)信息的最主要的來源,為了方便人們在浩如煙海的數(shù)據(jù)中找尋自己需要的信息,這類檢索工具發(fā)展的尤為迅速。在全文索引當(dāng)中,根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類:一類自身網(wǎng)頁抓取,索引,檢索系統(tǒng),有一個單獨的“蜘蛛”程序,或爬行動物,或“機器人”程序,可以自建網(wǎng)頁數(shù)據(jù)庫從自己的數(shù)據(jù)庫直接搜索,稱為谷歌的搜索結(jié)果電話,百度就屬于這一類,另一種是租用其他搜索引擎的數(shù)據(jù)庫,然后安排在一個自定義格式,如 Lycos 的搜索搜索引擎的結(jié)果。還有其他類型的搜索引擎,如目錄索引,元搜索引擎。他們的代表有 Yahoo、新浪,InfoSpace、Dogpile、Vivisimo。2006年后又逐漸興起的一類新型搜索引擎叫做垂直搜索引擎。它不同于其他的搜索引擎,在于它專注于特定的搜索領(lǐng)域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗。相比通用搜索動輒數(shù)千臺檢索服務(wù)器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣,是它的優(yōu)勢。
網(wǎng)絡(luò)信息檢索工具的發(fā)展主要體現(xiàn)在進一步改進,提高搜索和檢索工具,以提高服務(wù)質(zhì)量,以檢索的檢索不愉快的地方已經(jīng)改變了網(wǎng)絡(luò)信息。第一,搜索引擎的開發(fā)商和提供商之間合作愈發(fā)的親密無間。以前普通的提供商單獨依靠自己創(chuàng)立的數(shù)據(jù)庫來提供檢索服務(wù),檢索范圍被局限,而現(xiàn)今某些著名的搜索引擎是購買其他公司的數(shù)據(jù)庫或技術(shù)內(nèi)核,其他的則與其他搜索引擎建立伙伴關(guān)系,方便用戶使用。舉一些例子,Yahoo 目前采用的是 Google 的搜索內(nèi)核,網(wǎng)易也曾使用 Google 的搜索內(nèi)核來充實自己的搜索引擎數(shù)據(jù)庫,硅谷動力、新浪、搜狐等搜索引擎融合了百度的搜索內(nèi)核。第二,搜索引擎的設(shè)計更加專業(yè)化及提供的服務(wù)內(nèi)容愈加深層次化?,F(xiàn)在大部分檢索工具已經(jīng)不再盲目追求收錄和標(biāo)引量的急劇膨脹,而是更加重視它突出的專業(yè)特色。比如,在 lycos 的搜索引擎目錄中,本系統(tǒng)們可以看到商業(yè)搜索引擎、IT 搜索引擎、人才搜索引擎、金融搜索引擎、醫(yī)學(xué)搜索引擎等專業(yè)化的網(wǎng)絡(luò)信息檢索紛紛出現(xiàn),信息檢索工具的專業(yè)化已經(jīng)成為一種不可逆轉(zhuǎn)的趨勢。這是它的專業(yè)化體現(xiàn)。信息檢索服務(wù)商將服務(wù)更加深化:Google 推出了網(wǎng)頁引文查詢服務(wù),通過它可以查看自己所要查詢的資料被其他網(wǎng)站引用的情況,從而使用戶更好的把握網(wǎng)頁信息的質(zhì)量。
谷歌的巨大成功,世界的眼睛投入到了這方面的搜索引擎。一時間,各種搜索引擎的呼嘯而至。從最初的谷歌,雅虎和如今火熱的百度, MSN 搜索,搜狗搜索引擎的品牌越來越多的服務(wù)也越來越豐富。而且,隨著 Web2.0 的膨脹的總體信息的普及,這樣網(wǎng)絡(luò)有著驚人的網(wǎng)站的數(shù)量,添加搜索功能的數(shù)額是這些網(wǎng)站的基本要素之一的。此外,在另一塊市場,該公司的搜索引擎,全文信息檢索需求是包括不斷增加的各種文檔處理,內(nèi)容管理軟件將需要輸入的全文搜索功能。在這種情況下,搜索引擎技術(shù)得到了快速發(fā)展。一時間出現(xiàn)了各種搜索引擎,有很多相關(guān)的雜志文章,報紙鋪天蓋地,論壇和博客。一時間,搜索引擎技術(shù)成為最熱門的技術(shù)之一。