分類導(dǎo)航

小玩node+express爬蟲-1

發(fā)布時間：2016年11月11日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點(diǎn)擊查看原文)

什么是爬蟲

百度百科的解釋：

爬蟲即網(wǎng)絡(luò)爬蟲，是一種自動獲取網(wǎng)頁內(nèi)容的程序。是搜索引擎的重要組成部分，因此搜索引擎優(yōu)化很大程度上就是針對爬蟲而做出的優(yōu)化。

通俗一點(diǎn)講：

把別人網(wǎng)站的信息給弄下來，弄到自己的電腦上。然后再做一些過濾，比如篩選啊，排序啊，提取圖片啊，鏈接什么的。獲取你需要的信息。

如果數(shù)據(jù)量很大，而且你的算法又比較叼，并且可以給別人檢索服務(wù)的話，那么你的爬蟲就是一個小百度或者小谷歌了

回到頂部

什么是robots協(xié)議

了解完什么是爬蟲之后，我們再來了解一下爬蟲的協(xié)議了，也就是哪些東西才已去爬。

Robots協(xié)議（也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等）的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”（Robots Exclusion Protocol），網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。

robots.txt文件是一個文本文件，它是一個協(xié)議，而不是一個命令。它是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時，它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍；

如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。百度官方建議，僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容，請勿建立robots.txt文件。

如果將網(wǎng)站視為酒店里的一個房間，robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進(jìn)入和參觀，哪些房間因?yàn)榇娣刨F重物品，或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令，也不是防火墻，如同守門人無法阻止竊賊等惡意闖入者。

回到頂部

環(huán)境搭建

需要的環(huán)境：<

延伸閱讀

ssh框架 2016-09-30

阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26

消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26

Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26

詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26

從棧不平衡問題理解 calling convention 2017-07-26

php imagemagick 處理圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26

Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26

阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26

集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26

學(xué)習(xí)是年輕人改變自己的最好方式

我想了解如何學(xué)習(xí)

姓名：

手機(jī)：

留言：

16年我們追求卓越 24項(xiàng)主流技術(shù)引領(lǐng)先鋒 1000課時打造職場干將 50000行代碼練就非凡本領(lǐng)

關(guān)于萬碼學(xué)堂

校園環(huán)境

聯(lián)系我們

網(wǎng)站地圖

關(guān)于學(xué)習(xí)

課程體系

關(guān)于萬碼

課程體系

報名方法

申請試聽

在線報名

常見問題

大家關(guān)注

在線提問

學(xué)習(xí)方面

關(guān)注我們

新浪微博

聯(lián)系我們

聯(lián)系微信

0532-85025005

馬上咨詢，周一至周日8:00-18:00

在線客服

萬碼學(xué)員實(shí)訓(xùn)作品

IT企業(yè)招聘信息

在萬碼學(xué)堂奮斗的歲月

編程知識分享

你想了解的萬碼學(xué)堂

青島軟件培訓(xùn)課程

IT行業(yè)動態(tài)

職場人生

學(xué)習(xí)編程的感想

萬碼學(xué)員風(fēng)采

萬碼學(xué)堂技術(shù)專家

欄目導(dǎo)航：如何學(xué)習(xí)軟件關(guān)于萬碼學(xué)堂開班信息關(guān)注點(diǎn)

旗下網(wǎng)站：青島IT培訓(xùn)網(wǎng) 程序猿編程派青島電腦學(xué)校青島Android培訓(xùn) 青島軟件培訓(xùn) 云培訓(xùn) 萬碼學(xué)堂官網(wǎng) 青島大學(xué)生IT培訓(xùn)

青島青軟職業(yè)培訓(xùn)學(xué)校萬碼學(xué)堂（辦學(xué)許可證編號：人社民3702023080012號）魯ICP備09077726號 qingruanit.net

青島市市南區(qū)南京路122號B1棟3層咨詢電話0532-85025005

感谢您访问我们的网站，您可能还对以下资源感兴趣：
最近日本免费在线视频_欧美高清videosxxⅹ人_亚洲AV高清一区二区三区色欲_h无码精品视频