您所在的位置: 首頁?>?千搜學院 > 網(wǎng)站優(yōu)化
對于搜索引擎認為重要的頁面具有以下特征:網(wǎng)站and頁面的權(quán)重:對于質(zhì)量好、網(wǎng)站資格比較舊的會被認為是權(quán)重很高的。這樣的網(wǎng)站,蜘蛛的爬行深度更大,收錄的可能性更高。
更新的速度。蜘蛛在進行訪問后就將這些數(shù)據(jù)存下了,要是再一次的訪問沒有內(nèi)容更新,蜘蛛就不會老去抓取。要是更新速度很快,蜘蛛就會經(jīng)常去抓取。這樣子新產(chǎn)生的鏈接,就會很快的被訪問、將新內(nèi)容抓取。
導入鏈接:
不管是內(nèi)外部的鏈接,想被蜘蛛抓到,就需要導入鏈接,不然就不會被蜘蛛知道。質(zhì)量好的導入鏈接能擴大蜘蛛的爬行深度的抓取。
和第一頁的點擊距:
網(wǎng)站通常極高權(quán)重的的部分都是首頁,大多數(shù)的外部鏈接指向它。蜘蛛抓取極多的也是首頁,離它越近,權(quán)重越高,蜘蛛爬行越頻繁。
地址庫
想要讓網(wǎng)頁不會多次的訪問、抓取,這時候需要的是地址庫,記下發(fā)現(xiàn)與抓取的、及發(fā)現(xiàn)了未抓取的網(wǎng)頁。
這里面的網(wǎng)址有一下幾種收集:
人為輸入的種子網(wǎng)站。
抓取后從超文本標記語言中解析的網(wǎng)址,跟已經(jīng)在地址庫中的網(wǎng)址比較,要是這個網(wǎng)址里面沒有,就記錄為帶訪問的內(nèi)容。
站長通過一定渠道提交的網(wǎng)址。
蜘蛛根據(jù)網(wǎng)址的重要程度對網(wǎng)址從地址庫進行提取,瀏覽,然后將這個網(wǎng)站從記錄里面刪除,放進訪問過的地址里面。
很多的比較重要的搜索引擎都有一個表格,供站長提交網(wǎng)址??墒翘峤坏倪@些網(wǎng)址只是存進了這地址庫,想要讓網(wǎng)址被收錄需要看一下所提交內(nèi)容是不是很重要。對于收錄的內(nèi)容極大一部分是蜘蛛自己跟蹤發(fā)現(xiàn)的。
所以說提交的頁面基本上是一點用處也沒有,而搜索引擎更偏向通過自己尋找鏈接得到頁面。
文件的儲存
蜘蛛抓取的內(nèi)容放進原始的數(shù)據(jù)庫。這里面的頁面和我們訪問的超文本標記語言是同樣的。不同的網(wǎng)址是不一樣的文件編碼。
重復內(nèi)容的檢查
抓取的時候會復制內(nèi)容檢測,這時候要是內(nèi)容是轉(zhuǎn)了其他網(wǎng)站,或者是抄的東西,也許不會再去爬行。這是很多的網(wǎng)站看到有蜘蛛來,可是網(wǎng)站卻沒有被收錄的原因。