什么是爬蟲
百度百科的解釋:
爬蟲即網(wǎng)絡(luò)爬蟲,是一種自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序。是搜索引擎的重要組成部分,因此搜索引擎優(yōu)化很大程度上就是針對(duì)爬蟲而做出的優(yōu)化。
通俗一點(diǎn)講:
把別人網(wǎng)站的信息給弄下來(lái),弄到自己的電腦上。然后再做一些過濾,比如篩選啊,排序啊,提取圖片啊,鏈接什么的。獲取你需要的信息。
如果數(shù)據(jù)量很大,而且你的算法又比較叼,并且可以給別人檢索服務(wù)的話,那么你的爬蟲就是一個(gè)小百度或者小谷歌了
什么是robots協(xié)議
了解完什么是爬蟲之后,我們?cè)賮?lái)了解一下爬蟲的協(xié)議了,也就是哪些東西才已去爬。
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
robots.txt文件是一個(gè)文本文件,它是一個(gè)協(xié)議,而不是一個(gè)命令。它是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問的范圍;
如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁(yè)面。百度官方建議,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。
如果將網(wǎng)站視為酒店里的一個(gè)房間,robots.txt就是主人在房間門口懸掛的“請(qǐng)勿打擾”或“歡迎打掃”的提示牌。這個(gè)文件告訴來(lái)訪的搜索引擎哪些房間可以進(jìn)入和參觀,哪些房間因?yàn)榇娣刨F重物品,或可能涉及住戶及訪客的隱私而不對(duì)搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無(wú)法阻止竊賊等惡意闖入者。
環(huán)境搭建
需要的環(huán)境:<