隨著互聯網技術和互聯網應用系統的快速發展,各個領域的互聯網應用系統都已經積累了海量的Web數據,包括產品數據、用戶數據、評價數據、關聯數據、狀態數據等等。這些數據不僅內容極其豐富,而且很大程度上都開放給互聯網用戶,可以免費的訪問、下載和處理。這就為進一步集成和開發這些Web數據的潛在價值,建立增值應用提供了重要基礎。聚類搜索是近年來發展最為迅速的互聯網數據集成和增值技術。
聚類搜索是在垂直搜索基礎上發展起來的新型搜索技術。垂直搜索是主要針對行業的專業搜索,側重于某一行業領域,其目的是使用戶能夠更加方便地找出所需的專業信息。而聚類搜索是為了進一步提高搜索的精度使其符合用戶的搜索習慣和興趣,在搜索引擎的搜索結果中進行聚類,把搜索出來的信息進行分類處理,將使信息資源更加清晰明了。
所謂聚類搜索引擎,就是運用聚類技術對搜索結果進行自動聚類分析的搜索工具。其特點是去重性強、分類性強、匯集性強,即可以及時去除重復信息,對搜索的結果進行分門別類,并可以匯集各大知名搜索引擎的信息資源。
目前,典型的聚類搜索引擎的基本工作步驟為:①依據用戶查詢的關鍵字,從一個或多個搜索引擎獲取搜索結果;②對搜索結果進行預處理,過濾掉重復、無效信息;③將文檔中關鍵短語作為特征提取出來生成聚類標簽;④將文檔分配到生成的聚類標簽下;⑤將聚類后的搜索結果進行排序并顯示給用戶。