您現在的位置:[首頁]電商平臺 > 蜘蛛抓取文章頁面全過程

蜘蛛抓取文章頁面全過程

發布日期:2013-12-30 閱讀次數:1735

大家都知道搜索引擎抓取文章的過程是一個非常復雜的過程,但是我們大致可以把他分成以下3個步驟,合肥網頁設計小編簡稱:三步走。

第一步:搜索引擎蜘蛛把頁面url抓取,獲取頁面的url存放在數據庫。

第二步:程序對數據庫中抓取來的內容進行內容提取,分詞建立索引。

第三步:排名程序對數據庫中索引調用,計算內容頁面的相關性和權重值,然后按照一定的格式排列在用戶搜索頁。

小編詳細的介紹這三個步驟:

1、搜索引擎又叫做蜘蛛、機器人,當蜘蛛發現一個頁面時,服務員會返回頁面的html代碼。當搜索引擎爬取一個頁面時一般都是首先訪問網站的robots.txt協議,在明確網站管理設置的禁止抓取協議以后,才對頁面進行抓取索引數據庫。

2、搜索引擎蜘蛛抓取的時間是:定期抓取(根據每個搜索引擎蜘蛛的更新時間不一樣而異)、增量抓取(在原有的頁面上抓取更多的頁面)、分類抓取(根據類目不同而抓取的時間不一樣,例如新聞類的內容可以幾個分鐘抓取一次。)
搜索引擎蜘蛛的抓取方式:深度抓取(例如類目A 和 類目b 類目c :蜘蛛抓取類目a會一直沿著頁面a的頁面深度抓取,直到把頁面a的頁面全部抓取再返回主頁抓取類目b.)
廣度抓取(廣度抓取就是頁面a 和頁面b頁面c同時抓取),最后一個是用戶提交,一般蜘蛛抓取會根據頁面的鏈接爬取更新鮮的頁面,所以用戶提交這種方式的效果很微小。

3、蜘蛛程序對抓取存儲在數據庫內容的內容提取以及分詞建立索引:為了避免重復抓取搜索引擎蜘蛛會建立一個數據庫,在每次抓取頁面的時候分別詳細的記錄頁面的url,文件大小以及創建日期等。搜索引擎把抓取來的頁面都存放在數據庫中,數據庫中的url來源大致有3種途徑:搜索引擎蜘蛛爬取頁面從html解析出來的url,如果沒有訪問過的url就把他放在待訪問數據庫,接著回按照重要性抓取更新的資源頁面,如果檢測到已經抓取收錄的就會把他刪了。人工手動寫入的url,還有就是站長通過表格提交的url,每一個url都有一個特定的編號。然后對每個url對應的頁面進行內容提取,切詞分詞相關性建立索引,當用戶搜索這個詞的時候,程序會根據頁面的相關性,頁面的權重進行合理的排序。

標簽:文章頁面
司瓦圖胡經理
技術客服,免費咨詢
技術客服司瓦圖胡經理
司瓦圖網絡自2007年正式注冊成立,目前提供各類平臺系統定制,包括電商平臺開發,微信小程序定制開發,微信平臺定制開發,企業官網制作以及400電話開通等服務!

全國服務熱線4000-522-555周一至周六8:30-18:00

地址:合肥市政務區天瓏廣場5號甲級寫字樓1007-1008室

老張個人微信

老張原創分享

Copyright © 2018 版權所有:合肥司瓦圖網絡科技有限責任公司 ALL Rights Reserved  
皖ICP備07007410號
司瓦圖老張頭像
司瓦圖老張
老張自05年進入互聯網行業,一直從事互聯網平臺開發行業,服務項目主要有:平臺定制開發,電商平臺開發,微信商城,微信小程序等。
司瓦圖老張微信
卖纯棉短袖赚钱吗