隨著互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)應(yīng)用系統(tǒng)的快速發(fā)展,各個(gè)領(lǐng)域的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)都已經(jīng)積累了海量的Web數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、用戶數(shù)據(jù)、評價(jià)數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、狀態(tài)數(shù)據(jù)等等。這些數(shù)據(jù)不僅內(nèi)容極其豐富,而且很大程度上都開放給互聯(lián)網(wǎng)用戶,可以免費(fèi)的訪問、下載和處理。這就為進(jìn)一步集成和開發(fā)這些Web數(shù)據(jù)的潛在價(jià)值,建立增值應(yīng)用提供了重要基礎(chǔ)。聚類搜索是近年來發(fā)展最為迅速的互聯(lián)網(wǎng)數(shù)據(jù)集成和增值技術(shù)。
聚類搜索是在垂直搜索基礎(chǔ)上發(fā)展起來的新型搜索技術(shù)。垂直搜索是主要針對行業(yè)的專業(yè)搜索,側(cè)重于某一行業(yè)領(lǐng)域,其目的是使用戶能夠更加方便地找出所需的專業(yè)信息。而聚類搜索是為了進(jìn)一步提高搜索的精度使其符合用戶的搜索習(xí)慣和興趣,在搜索引擎的搜索結(jié)果中進(jìn)行聚類,把搜索出來的信息進(jìn)行分類處理,將使信息資源更加清晰明了。
所謂聚類搜索引擎,就是運(yùn)用聚類技術(shù)對搜索結(jié)果進(jìn)行自動(dòng)聚類分析的搜索工具。其特點(diǎn)是去重性強(qiáng)、分類性強(qiáng)、匯集性強(qiáng),即可以及時(shí)去除重復(fù)信息,對搜索的結(jié)果進(jìn)行分門別類,并可以匯集各大知名搜索引擎的信息資源。
目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關(guān)鍵字,從一個(gè)或多個(gè)搜索引擎獲取搜索結(jié)果;②對搜索結(jié)果進(jìn)行預(yù)處理,過濾掉重復(fù)、無效信息;③將文檔中關(guān)鍵短語作為特征提取出來生成聚類標(biāo)簽;④將文檔分配到生成的聚類標(biāo)簽下;⑤將聚類后的搜索結(jié)果進(jìn)行排序并顯示給用戶。