爬蟲摘要
Ⅰ 爬蟲抓取網頁關鍵字、摘要以供搜索
strip_tags($string)
Ⅱ 現在要用vb開發一個爬蟲程序,讓它定期根據主題關鍵詞去百度或者Google把搜索下來的東西存入索引資料庫,
你可以做個蟲,每天晚上12點到銀行爬一次,把數據返給你了
主題網路爬蟲研究綜述
摘要: 首先給出了主題網路爬蟲的定義和研究目標; 然後系統分析了近年來國內外主題爬蟲的研究方法和技
術, 包括基於文字內容的方法、基於超鏈分析的方法、基於分類器預測的方法以及其他主題爬行方法, 並比較了
各種方法優缺點; 最後對未來的研究方向進行了展望。
關鍵詞: 主題網路爬蟲; 信息檢索; Web 挖掘
中圖分類號: TP391 文 獻標志碼: A 文 章編號: 1001- 3695( 2007) 10- 0026- 04
Survey on topic-focused Web crawler
LIU Jin-hong, LUYu-liang
( Dept. of Network, PLA Electric Engineer Institute, Hefei 230037, China)
Abstract: This paper gave the goal of focused crawling, then comprehensively analyzed the recent advances of the relevant researches
and applications about focused-crawler, included focused crawling methods based on text contents, link analyses』
methods, classifier-guided methods and other focused methods. Finally pointed out the future direction of focused crawling.
Key words: topic-focused crawler; information retrieval; Web mining
0 引言
隨著網路上海量信息的爆炸式增長, 通用搜索引擎面臨著
索引規模、更新速度和個性化需求等多方面的挑戰[ 1, 2] 。面對
這些挑戰, 適應特定主題和個性化搜索的主題網路爬蟲( focused
crawler or topical crawler) 應運而生[ 3, 4] 。基於主題網路
爬蟲的搜索引擎( 即第四代搜索引擎) 已經成為當前搜索引擎
和Web 信息挖掘中的一個研究熱點和難點。
通用網路爬蟲的目標就是盡可能多地採集信息頁面, 而在
這一過程中它並不太在意頁面採集的順序和被採集頁面的相
關主題。這需要消耗非常多的系統資源和網路帶寬, 並且對這
些資源的消耗並沒有換來採集頁面的較高利用率。主題網路
爬蟲則是指盡可能快地爬行、採集盡可能多的與預先定義好的
主題相關的網頁。主題網路爬蟲可以通過對整個Web 按主題
分塊採集, 並將不同塊的採集結果整合到一起, 以提高整個
Web 的採集覆蓋率和頁面利用率。
1 主題爬蟲的定義和研究目標
定義1 網路爬蟲是一個自動提取網頁的程序, 它為搜索
引擎從Web 上下載網頁, 是搜索引擎的重要組成部分。通用
網路爬蟲從一個或若干初始網頁的URL 開始, 獲得初始網頁
上的URL 列表; 在抓取網頁的過程中, 不斷從當前頁面上抽取
新的URL 放入待爬行隊列, 直到滿足系統的停止條件。
定義2 主 題網路爬蟲就是根據一定的網頁分析演算法過
濾與主題無關的鏈接, 保留主題相關的鏈接並將其放入待抓取
的URL 隊列中; 然後根據一定的搜索策略從隊列中選擇下一
步要抓取的網頁URL, 並重復上述過程, 直到達到系統的某一
條件時停止。所有被網路爬蟲抓取的網頁將會被系統存儲, 進
行一定的分析、過濾, 並建立索引, 對於主題網路爬蟲來說, 這
一過程所得到的分析結果還可能對後續的抓取過程進行反饋
和指導。
定義3 如果網頁p 中包含超鏈接l, 則p 稱為鏈接l 的父
網頁。
定義4 如果超鏈接l 指向網頁t, 則網頁t 稱為子網頁,
又稱為目標網頁。
主題網路爬蟲的基本思路就是按照事先給出的主題, 分析
超鏈接和已經下載的網頁內容, 預測下一個待抓取的URL 以
及當前網頁的主題相關度, 保證盡可能多地爬行、下載與主題
相關的網頁, 盡可能少地下載無關網頁。相對於通用網路爬
蟲, 主題網路爬蟲需要解決以下四個主要問題:
a) 如何描述或定義感興趣的主題( 即抓取目標) ?
b) 怎樣決定待爬行URL的訪問次序? 許多主題網路爬蟲
根據己下載網頁的相關度, 按照一定原則將相關度進行衰減,
分配給該網頁中的子網頁, 而後將其插入到優先順序隊列中。此
時的爬行次序就不是簡單地以深度優先或廣度優先順序, 而是
按照相關度大小排序, 優先訪問相關度大的URL。不同主題
網路爬蟲之間的區別之一就是如何計算URL的爬行次序。
c) 如何判斷一個網頁是否與主題相關? 對於待爬行或己
下載的網頁可以獲取它的文本內容, 所以可以採用文本挖掘技
術來實現。因此不同主題網路爬蟲間的區別之二就是如何計
算當前爬行網頁的主題相關度。
Ⅳ 爬蟲標題帶有飛機的網站,怎麼爬
一點建議,請參考: 網路爬蟲屬於搜索引擎的技術范疇,屬於搜索引擎採集數據的關鍵手段,是下一步根據採集內容建立摘要和索引的基礎,說白點就是模擬瀏覽器對URL的訪問獲取網頁的基本結構和內容,所以建議樓主先關注下搜索引擎原理中的數據採集部分內容,了解一下其實現的主要框架,網上相關文章還是比較多的。
我一直用的是ForeSpider,你可以試試在網路上搜索「前嗅大數據」,爬起來還是可疑的,速度也挺快的。