爬蟲入門系列（一）：快速理解HTTP協(xié)議

發(fā)布時間：2017年07月07日作者：IT網(wǎng)絡(luò)文摘

4月份給自己挖一個爬蟲系列的坑，主要涉及HTTP 協(xié)議、正則表達(dá)式、爬蟲框架 Scrapy、消息隊列、數(shù)據(jù)庫等內(nèi)容。

爬蟲的基本原理是模擬瀏覽器進(jìn)行 HTTP 請求，理解 HTTP 協(xié)議是寫爬蟲的必備基礎(chǔ)，招聘網(wǎng)站的爬蟲崗位也赫然寫著熟練掌握HTTP協(xié)議規(guī)范，寫爬蟲還不得不先從HTTP協(xié)議開始講起

HTTP協(xié)議是什么？

你瀏覽的每一個網(wǎng)頁都是基于 HTTP 協(xié)議呈現(xiàn)的，HTTP 協(xié)議是互聯(lián)網(wǎng)應(yīng)用中，客戶端（瀏覽器）與服務(wù)器之間進(jìn)行數(shù)據(jù)通信的一種協(xié)議。協(xié)議中規(guī)定了客戶端應(yīng)該按照什么格式給服務(wù)器發(fā)送請求，同時也約定了服務(wù)端返回的響應(yīng)結(jié)果應(yīng)該是什么格式。

只要大家都按照協(xié)議規(guī)定方式發(fā)起請求和返回響應(yīng)結(jié)果，任何人都可以基于HTTP協(xié)議實(shí)現(xiàn)自己的Web客戶端（瀏覽器、爬蟲）和Web服務(wù)器（Nginx、Apache等）。

HTTP 協(xié)議本身是非常簡單的。它規(guī)定，只能由客戶端主動發(fā)起請求，服務(wù)器接收請求處理后返回響應(yīng)結(jié)果，同時 HTTP 是一種無狀態(tài)的協(xié)議，協(xié)議本身不記錄客戶端的歷史請求記錄。

<h3>網(wǎng)友評論</h3>  <div id="4zt4pyi" class="ds-thread" data-thread-key="blog12757" data-title="爬蟲入門系列（一）：快速理解HTTP協(xié)議" data-url="http://roadsoft.com.cn:80//blog/23930/note12757.html"></div>   <script type="text/javascript"> var duoshuoQuery = {short_name:"qingruanit"}; (function() { var ds = document.createElement('script'); ds.type = 'text/javascript';ds.async = true; ds.src = (document.location.protocol == 'https:' ? 'https:' : 'http:') + '//static.duoshuo.com/embed.js'; ds.charset = 'UTF-8'; (document.getElementsByTagName('head')[0] || document.getElementsByTagName('body')[0]).appendChild(ds); })(); </script>  </div> <div id="aoxmfen" class="relatedarticle"> <h3>更多精彩分享</h3> <ul> </ul> <a class="img" href="http://roadsoft.com.cn/c_online/p_yudingshitingke.html"><img alt="學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn)機(jī)構(gòu),青島Java培訓(xùn),青島計算機(jī)培訓(xùn),軟件編程培訓(xùn),seo優(yōu)化培訓(xùn),網(wǎng)絡(luò)推廣培訓(xùn),網(wǎng)絡(luò)營銷培訓(xùn),SEM培訓(xùn),網(wǎng)絡(luò)優(yōu)化,在線營銷培訓(xùn),Java培訓(xùn)" src="http://roadsoft.com.cn/attached/image/templet/e87d53eb-cf7a-4689-887a-1cd260f416a5.jpg"><span>學(xué)習(xí)是年輕人改變自己的最好方式</span></a> </div> </div> <div style="margin-top: 20px;" id="hm_t_36603"></div> </div> </div> </div> <footer class="blog"> <p>欄目導(dǎo)航： <a href="c_study/" target="_self">如何學(xué)習(xí)軟件</a> <a href="c_about/" target="_self">關(guān)于萬碼學(xué)堂</a> <a href="c_kaiban/" target="_self">開班信息</a> <a href="c_ask/" target="_self">關(guān)注點(diǎn)</a> </p> <p>旗下網(wǎng)站： <a target="_blank">青島IT培訓(xùn)網(wǎng)</a> <a target="_blank">程序猿編程派</a> <a target="_blank">青島電腦學(xué)校</a> <a target="_blank">青島Android培訓(xùn)</a> <a target="_blank">青島軟件培訓(xùn)</a> <a target="_blank">云培訓(xùn)</a> <a target="_blank">萬碼學(xué)堂官網(wǎng)</a> <a target="_blank">青島大學(xué)生IT培訓(xùn)</a> </p> <p>青島青軟職業(yè)培訓(xùn)學(xué)校萬碼學(xué)堂（辦學(xué)許可證編號：人社民3702023080012號）<a target="_blank">魯ICP備09077726號</a><a href="http://roadsoft.com.cn">qingruanit.net</a></p> <p> <address> 青島市市南區(qū)南京路122號B1棟3層咨詢電話0532-85025005 </address> </p> <p><script language="javascript" type="text/javascript" src="http://js.users.#/17086740.js"></script> <noscript><a href="http://www.#/?17086740" target="_blank"><img alt="我要啦免费统计" src="http://img.users.#/17086740.asp" style="border:none" /></a></noscript></p> <p> <img src="images/fuze.gif"/> </p> </footer>  </div> <script src="/static/js/jquery-1.11.0.min.js"></script> <script src="/static/js/jquery-ui-1.10.4.custom.min.js"></script> <script type="text/javascript"> $(document) .ready( function() { if ($("#fixedmenu") && $("#themenu") && $("#themenu").offset()) { $(window) .scroll( function() { var wtop = $(window) .scrollTop(); var wleft = $(window) .scrollLeft(); if (wleft > 0) { $("#fixedmenu").css( "display", "none"); return; } if ($("#fixedmenu").html() == "") { $("#fixedmenu") .html( $( "#themenu") .html()); $("#fixedmenu").css( "top", "0"); } if (wtop < $("#themenu") .offset().top) { $("#fixedmenu").css( "display", "none"); } if ($("#fixedmenu") .outerHeight() > $( ".content2colsright") .offset().top + $( ".content2colsright") .outerHeight() - wtop) { //$("#fixedmenu").css("display","none"); $("#fixedmenu") .css( "top", -($( "#fixedmenu") .outerHeight() - ($( ".content2colsright") .offset().top + $( ".content2colsright") .outerHeight() - wtop)) + "px"); //$("#fixedmenu").css("left",$("#themenu").offset().left-wleft+"px"); } else if (wtop > $( "#themenu") .offset().top && $("#fixedmenu") .css( "display") != "block") { $("#fixedmenu").css( "display", "block"); $("#fixedmenu").css( "top", "0"); } else { $("#fixedmenu").css( "top", "0"); } }); } }); </script> <footer> <div class="friendship-link"> <p>感谢您访问我们的网站，您可能还对以下资源感兴趣：</p> <a href="http://roadsoft.com.cn/" title="最近日本免费在线视频_欧美高清videosxxⅹ人_亚洲AV高清一区二区三区色欲_h无码精品视频">最近日本免费在线视频_欧美高清videosxxⅹ人_亚洲AV高清一区二区三区色欲_h无码精品视频</a> <div class="friend-links"> </div> </div> </footer> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body><div id="lnurb" class="pl_css_ganrao" style="display: none;"><tbody id="lnurb"></tbody><strong id="lnurb"><ruby id="lnurb"><optgroup id="lnurb"></optgroup></ruby></strong><big id="lnurb"><nobr id="lnurb"><s id="lnurb"></s></nobr></big><dfn id="lnurb"><center id="lnurb"></center></dfn><sub id="lnurb"><tr id="lnurb"><div id="lnurb"><button id="lnurb"></button></div></tr></sub><dfn id="lnurb"><strike id="lnurb"><output id="lnurb"><sup id="lnurb"></sup></output></strike></dfn><acronym id="lnurb"><object id="lnurb"></object></acronym><xmp id="lnurb"><noscript id="lnurb"></noscript></xmp><noscript id="lnurb"><dl id="lnurb"><noframes id="lnurb"></noframes></dl></noscript><tt id="lnurb"><i id="lnurb"></i></tt><thead id="lnurb"></thead><sup id="lnurb"><label id="lnurb"><xmp id="lnurb"><noscript id="lnurb"></noscript></xmp></label></sup><abbr id="lnurb"><center id="lnurb"><abbr id="lnurb"><strike id="lnurb"></strike></abbr></center></abbr><dl id="lnurb"></dl><pre id="lnurb"></pre><code id="lnurb"></code><strong id="lnurb"></strong><output id="lnurb"></output><input id="lnurb"><div id="lnurb"></div></input><i id="lnurb"></i><td id="lnurb"></td><sup id="lnurb"><label id="lnurb"></label></sup><source id="lnurb"><ins id="lnurb"><var id="lnurb"><thead id="lnurb"></thead></var></ins></source><dfn id="lnurb"></dfn><sub id="lnurb"></sub><meter id="lnurb"><nobr id="lnurb"><form id="lnurb"><u id="lnurb"></u></form></nobr></meter><abbr id="lnurb"><dl id="lnurb"><pre id="lnurb"><s id="lnurb"></s></pre></dl></abbr><delect id="lnurb"><strong id="lnurb"><sup id="lnurb"><label id="lnurb"></label></sup></strong></delect><sub id="lnurb"><li id="lnurb"><progress id="lnurb"><th id="lnurb"></th></progress></li></sub><table id="lnurb"></table><legend id="lnurb"><rp id="lnurb"></rp></legend><acronym id="lnurb"></acronym><b id="lnurb"></b><style id="lnurb"></style><table id="lnurb"><td id="lnurb"></td></table><center id="lnurb"><noscript id="lnurb"></noscript></center><ul id="lnurb"><strong id="lnurb"></strong></ul><tbody id="lnurb"><noframes id="lnurb"><sub id="lnurb"><tr id="lnurb"></tr></sub></noframes></tbody><address id="lnurb"></address><strike id="lnurb"><nobr id="lnurb"></nobr></strike><optgroup id="lnurb"></optgroup><th id="lnurb"><span id="lnurb"><dfn id="lnurb"><strike id="lnurb"></strike></dfn></span></th><strike id="lnurb"><noscript id="lnurb"><sup id="lnurb"><tt id="lnurb"></tt></sup></noscript></strike><pre id="lnurb"><optgroup id="lnurb"><center id="lnurb"><pre id="lnurb"></pre></center></optgroup></pre><fieldset id="lnurb"></fieldset><abbr id="lnurb"><big id="lnurb"><font id="lnurb"></font></big></abbr><strong id="lnurb"></strong><source id="lnurb"><optgroup id="lnurb"></optgroup></source><dl id="lnurb"><noframes id="lnurb"><p id="lnurb"><tr id="lnurb"></tr></p></noframes></dl><thead id="lnurb"><sup id="lnurb"><menu id="lnurb"></menu></sup></thead><th id="lnurb"></th><dl id="lnurb"></dl><xmp id="lnurb"></xmp><table id="lnurb"><sub id="lnurb"></sub></table><center id="lnurb"><pre id="lnurb"></pre></center><ins id="lnurb"><optgroup id="lnurb"><thead id="lnurb"><noscript id="lnurb"></noscript></thead></optgroup></ins><dl id="lnurb"></dl><sup id="lnurb"><blockquote id="lnurb"><i id="lnurb"><tr id="lnurb"></tr></i></blockquote></sup><optgroup id="lnurb"></optgroup><acronym id="lnurb"><object id="lnurb"></object></acronym><tr id="lnurb"></tr><tbody id="lnurb"><noframes id="lnurb"></noframes></tbody><progress id="lnurb"></progress><strike id="lnurb"><option id="lnurb"><s id="lnurb"><u id="lnurb"></u></s></option></strike><form id="lnurb"></form><dfn id="lnurb"><center id="lnurb"><optgroup id="lnurb"><blockquote id="lnurb"></blockquote></optgroup></center></dfn><tbody id="lnurb"><noframes id="lnurb"></noframes></tbody><rp id="lnurb"></rp><s id="lnurb"><small id="lnurb"><p id="lnurb"></p></small></s><pre id="lnurb"></pre><pre id="lnurb"></pre><rt id="lnurb"></rt><mark id="lnurb"></mark><abbr id="lnurb"><sup id="lnurb"></sup></abbr><track id="lnurb"></track><strong id="lnurb"></strong><em id="lnurb"><rt id="lnurb"><form id="lnurb"></form></rt></em><menu id="lnurb"></menu><em id="lnurb"></em><thead id="lnurb"></thead><u id="lnurb"><thead id="lnurb"><li id="lnurb"></li></thead></u><em id="lnurb"><span id="lnurb"></span></em><tfoot id="lnurb"></tfoot><progress id="lnurb"></progress><abbr id="lnurb"><wbr id="lnurb"><output id="lnurb"><strong id="lnurb"></strong></output></wbr></abbr><address id="lnurb"><form id="lnurb"></form></address><blockquote id="lnurb"><i id="lnurb"><ins id="lnurb"></ins></i></blockquote><form id="lnurb"><tr id="lnurb"><div id="lnurb"><video id="lnurb"></video></div></tr></form><nobr id="lnurb"><source id="lnurb"><u id="lnurb"></u></source></nobr><tt id="lnurb"></tt><table id="lnurb"><sub id="lnurb"><label id="lnurb"></label></sub></table><strong id="lnurb"><big id="lnurb"></big></strong><ruby id="lnurb"></ruby><small id="lnurb"></small><table id="lnurb"></table><b id="lnurb"></b><pre id="lnurb"></pre><dfn id="lnurb"></dfn><font id="lnurb"><label id="lnurb"><progress id="lnurb"></progress></label></font><td id="lnurb"></td></div> </html> <link href="http://roadsoft.com.cn:80/editor/plugins/code/shCoreDefault.css" rel="Stylesheet" type="text/css" /> <script src="http://roadsoft.com.cn:80/editor/plugins/code/shCore.js"></script> <script type="text/javascript"> $(document).ready( function(){ SyntaxHighlighter.all(); } ); </script>

分類導(dǎo)航

爬蟲入門系列（一）：快速理解HTTP協(xié)議

HTTP協(xié)議是什么？

HTTP協(xié)議是什么？