原標題:robot爬蟲協議是什么(爬蟲協議是什么意思)
想要網站健康收錄,那一定離不開Robots協議的設置以及robots正確寫法,如何設置robots協議,首先從了解robots協議開始。
第一:認識Robots
Robots簡單來說就是搜索引擎和我們網站之間的一個協議,用于定義搜索引擎抓取和禁止的協議。robots基本語法符號:/ 、* 、$
/ 在允許和禁止的文件和文件夾前寫; * 通配符,能夠匹配所有的英文字符包括數字0; $ 表示結束符,用于屏蔽圖片時候用。
第二:Robots.txt正確寫法注意事項
①要頂格寫。不要前面空幾格。
爬蟲
?、谝谟⑽妮斎敕ㄏ聦懻Z句。因為中文下的冒號和英文冒號不一樣。
③開頭要大些。如:User-agent,Baiduspider④冒號后要空一格。User-agent: /Baiduspider
第三:實操Robots寫法
在寫robots協議時,首先先要定義協議什么樣的蜘蛛,如:User-agent: Baiduspider 指的就是定義百度蜘蛛,除了百度蜘蛛外還包括谷歌機器人、搜狗蜘蛛等等。
其次在下一行寫上允許和禁止的語句,如:
如何屏蔽整站:Disallow: / 指的就是屏蔽整個網站(/單個符號搜索引擎認為是根目錄);
如何屏蔽具體路徑:Disallow: /toutiao.com/forum-53-1.html 指的是屏蔽具體某一個路徑;
如何屏蔽文件和文件夾:Disallow: /uploads 指的是屏蔽uploads開頭的文件和文件夾;
意思如何屏蔽文件夾:Disallow: /uploads/ 指的是只屏蔽uploads文件夾;
如何屏蔽動態路徑:例如:toutiao.com/speedtest.aspx?host=bbs.moonseo.cn為動態路徑,問號robot前toutiao.com/speedtest.aspx可以用通配符*代替,接著一個問號,然后問號后host=toutiao.com也可以用一個通配符*代替,所以其語句可以這樣寫:Disallow: /*?*
如何屏蔽圖片:Disallow: /*.jpg$ 如果單純的寫Disallow: /*.jpg是屏蔽不了圖片的,所以要在圖片后面寫上結束符$,指的是屏蔽所以jpg格式的圖片;
那么相應的Allow語句寫法也是如上所說。
?
版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除
原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/qingganjiaoliu/15540.html