分類導(dǎo)航

小玩node+express爬蟲-1

發(fā)布時(shí)間：2016年11月11日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來(lái)自筆記，點(diǎn)擊查看原文)

什么是爬蟲

百度百科的解釋：

爬蟲即網(wǎng)絡(luò)爬蟲，是一種自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序。是搜索引擎的重要組成部分，因此搜索引擎優(yōu)化很大程度上就是針對(duì)爬蟲而做出的優(yōu)化。

通俗一點(diǎn)講：

把別人網(wǎng)站的信息給弄下來(lái)，弄到自己的電腦上。然后再做一些過濾，比如篩選啊，排序啊，提取圖片啊，鏈接什么的。獲取你需要的信息。

如果數(shù)據(jù)量很大，而且你的算法又比較叼，并且可以給別人檢索服務(wù)的話，那么你的爬蟲就是一個(gè)小百度或者小谷歌了

回到頂部

什么是robots協(xié)議

了解完什么是爬蟲之后，我們?cè)賮?lái)了解一下爬蟲的協(xié)議了，也就是哪些東西才已去爬。

Robots協(xié)議（也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等）的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”（Robots Exclusion Protocol），網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取，哪些頁(yè)面不能抓取。

robots.txt文件是一個(gè)文本文件，它是一個(gè)協(xié)議，而不是一個(gè)命令。它是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問的范圍；

如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁(yè)面。百度官方建議，僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí)，才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容，請(qǐng)勿建立robots.txt文件。

如果將網(wǎng)站視為酒店里的一個(gè)房間，robots.txt就是主人在房間門口懸掛的“請(qǐng)勿打擾”或“歡迎打掃”的提示牌。這個(gè)文件告訴來(lái)訪的搜索引擎哪些房間可以進(jìn)入和參觀，哪些房間因?yàn)榇娣刨F重物品，或可能涉及住戶及訪客的隱私而不對(duì)搜索引擎開放。但robots.txt不是命令，也不是防火墻，如同守門人無(wú)法阻止竊賊等惡意闖入者。

回到頂部

環(huán)境搭建

需要的環(huán)境：<

延伸閱讀

ssh框架 2016-09-30

阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26

消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26

Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26

詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26

從棧不平衡問題理解 calling convention 2017-07-26

php imagemagick 處理圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26

Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26

阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26

集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26

學(xué)習(xí)是年輕人改變自己的最好方式

我想了解如何學(xué)習(xí)

姓名：

手機(jī)：

留言：

16年我們追求卓越 24項(xiàng)主流技術(shù)引領(lǐng)先鋒 1000課時(shí)打造職場(chǎng)干將 50000行代碼練就非凡本領(lǐng)

關(guān)于萬(wàn)碼學(xué)堂

校園環(huán)境

聯(lián)系我們

網(wǎng)站地圖

關(guān)于學(xué)習(xí)

課程體系

關(guān)于萬(wàn)碼

課程體系

報(bào)名方法

申請(qǐng)?jiān)嚶?/a>

在線報(bào)名

常見問題

大家關(guān)注

在線提問

學(xué)習(xí)方面

關(guān)注我們

新浪微博

聯(lián)系我們

聯(lián)系微信

0532-85025005

馬上咨詢，周一至周日8:00-18:00

在線客服

萬(wàn)碼學(xué)員實(shí)訓(xùn)作品

IT企業(yè)招聘信息

在萬(wàn)碼學(xué)堂奮斗的歲月

編程知識(shí)分享

你想了解的萬(wàn)碼學(xué)堂

青島軟件培訓(xùn)課程

IT行業(yè)動(dòng)態(tài)

職場(chǎng)人生

學(xué)習(xí)編程的感想

萬(wàn)碼學(xué)員風(fēng)采

萬(wàn)碼學(xué)堂技術(shù)專家

欄目導(dǎo)航：如何學(xué)習(xí)軟件關(guān)于萬(wàn)碼學(xué)堂開班信息關(guān)注點(diǎn)

旗下網(wǎng)站：青島IT培訓(xùn)網(wǎng) 程序猿編程派青島電腦學(xué)校青島Android培訓(xùn) 青島軟件培訓(xùn) 云培訓(xùn) 萬(wàn)碼學(xué)堂官網(wǎng) 青島大學(xué)生IT培訓(xùn)

青島青軟職業(yè)培訓(xùn)學(xué)校萬(wàn)碼學(xué)堂（辦學(xué)許可證編號(hào)：人社民3702023080012號(hào)）魯ICP備09077726號(hào)qingruanit.net

青島市市南區(qū)南京路122號(hào)B1棟3層咨詢電話0532-85025005

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产一卡2卡三卡4卡