通過關(guān)鍵字:"垂直搜索引擎"在google查一下,在返回結(jié)果中可以看到不少的投資公司很看好這一領(lǐng)域,即使百度的發(fā)言人也在演講中提到垂直搜索引擎,而一些國外軟件巨頭例如Google和Microsoft也在這一領(lǐng)域有所動作,據(jù)說Microsoft的一個研究購物的小組最近就推出了一個購物垂直搜索引擎,
??????? 首先,談?wù)劥怪彼阉饕娴幕驹?垂直搜索引擎針對某個特定領(lǐng)域,招聘、購物、blog、新聞等方面都是垂直搜索的潛在領(lǐng)域,假想一下,如果網(wǎng)絡(luò)上有非常便利的產(chǎn)品垂直搜索引擎、新聞垂直搜索平臺,以后上網(wǎng)就不會漫無目的了,現(xiàn)在許多的行業(yè)門戶做的很紅火,而垂直搜索引擎的模式本身就是一種很好的門戶網(wǎng)站.
????????接下來談?wù)劥怪彼阉饕娴募夹g(shù),垂直搜索引擎技術(shù)同信息采集技術(shù)有一些共同點,不同的是,信息采集主要是將采集的信息導(dǎo)入本地庫,而垂直搜索引擎主要是以網(wǎng)頁的形式展現(xiàn)給用戶,通用搜索引擎主要是利用一個spider程序到網(wǎng)絡(luò)上爬行,一般是某個特定的周期派出一次將網(wǎng)頁更新,垂直搜索引擎同樣應(yīng)有一個spider程序,但該程序只在一些特定的網(wǎng)絡(luò)上爬行,并不會對每一個鏈接都感興趣,相對來說,垂直搜索引擎的收錄范圍大大縮小了,但并不意味著內(nèi)容的縮小,通用搜索引擎對一些動態(tài)腳本是不敏感的,例如***asp?id=***之類的網(wǎng)頁一般不被收錄,而恰恰是這類動態(tài)網(wǎng)頁包含了豐富的內(nèi)容,垂直搜索引擎是必須收錄這些動態(tài)腳本的,這就需要在技術(shù)上做一些特殊處理,另外由于目前網(wǎng)頁中的鏈接形式非常多,不但有動態(tài)腳本也有flash做的鏈接,這些鏈接方式通過傳統(tǒng)的spider程序是很難解析出來的,在垂直搜索引擎中也應(yīng)該解決.
????????以上只是垂直搜索引擎的簡單說明,如果需要深入了解甚至實際開發(fā),建議按如下步驟深入學(xué)習(xí):
1) 到搜索引擎中查一下垂直搜索引擎,進(jìn)一步了解垂直搜索引擎的應(yīng)用前景
2) 如果要實際開發(fā)一個垂直搜索引擎,建議到一些開源網(wǎng)站上找一些spider程序進(jìn)行分析,看看如何改造成一個垂直搜索的spider,一般將爬行全部鏈接的方式改為只爬行特定鏈接.這些特定鏈接可以通過正則表達(dá)式的方式來匹配,凡不符合匹配的不進(jìn)行采集.