北京网站建设之通过网站日志来查看百度蜘蛛的ip-ag捕鱼平台

北京网站建设之通过网站日志来查看百度蜘蛛的ip
2016-5-3 10:47:27 来源:智软互联

普及下新手知识先:


什么是百度蜘蛛(baiduspider)?

baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。

baiduspider对一个网站服务器造成的访问压力如何?

baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,baiduspider对您网站的服务器不会造成过大压力。但是目前已知的一些api接口的淘宝客程序(比如多多淘宝客,淘客帝国等等)对服务器的压力还是很大的,这也是不少空间商不允许放置淘宝客程序的主要原因的哦。

为什么baiduspider不停的抓取我的网站?

对于您网站上新产生的或者持续更新的页面,baiduspider会持续抓取。此外,您也可以检查网站访问日志中baiduspider的访问是否正常,以防止有人恶意冒充baiduspider来频繁抓取您的网站。如果您发现baiduspider非正常抓取您的网站,可以屏蔽掉该ip。

我不想我的网站被baiduspider访问,我该怎么做?

baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站,或者禁止baiduspider访问您网站上的部分文件。注意:禁止baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。

为什么我的网站已经加了robots.txt禁止百度抓取,还能在百度搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。另外也请检查您的robots配置是否正确。

百度蜘蛛在robots.txt中的名字是什么?

“baiduspider”全部为小写字母。

baiduspider多长时间之后会重新抓取我的网页?

百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,baiduspider会重新访问和更新一个网页。

知道了什么是百度蜘蛛,那么怎么才能知道蜘蛛是否来过你的站?这个可以从你服务器或者虚拟主机的日志中看出来.通过上一节课的学习,我们可以很简单的识别下面这条百度蜘蛛爬行的iis日志:


2011-12-28 20:14:37  58.17.36.91 get /article/1/79.html – 80 – 61.135.163.102 baiduspider ( http://www.baidu.com/search/spider.htm) 200 0 64


/article/1/79.html是被抓取的页面, 61.135.163.102就是百度蜘蛛ip,baiduspider ( http://www.baidu.com/search/spider.htm)是百度蜘蛛agent串,表示这是百度蜘蛛,有很多恶意爬虫也会经常使用baiduspider的agent串冒充百度蜘蛛,这样站长误以为是百度在狂抓取,那如何识别是否是百度spider?


windows下使用nslookup命令:


nslookup -qt=str 123.125.66.120


120.66.125.123.in-addr.arpa  name= baiduspider-123-125-66-120.crawl.baidu.com


linux下使用host命令:


$ host 123.125.66.120


120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.


baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。


站长可以通过服务器日志查看百度蜘蛛ip,可以确定蜘蛛是否来访,和百度蜘蛛的来访频率,以确定自己的网站是否被百度蜘蛛正常爬取。


以下内容为别人观点:(供大家参考)


  123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。


  220.181.68.*每天这个ip 段只增不减很有可能进沙盒或k站。


  220.181.7.*、123.125.66.* 代表百度蜘蛛ip造访,准备抓取你东西。


  121.14.89.*这个ip段作为度过新站考察期。


  203.208.60.*这个ip段出现在新站及站点有不正常现象后。


  210.72.225.*这个ip段不间断巡逻各站。


  125.90.88.* 广东茂名市电信也属于百度蜘蛛ip 主要造成成分,是新上线站较多,还有使用过站长工具,或seo综合检测造成的。


  220.181.108.95这个是百度抓取电玩城捕鱼游戏首页的专用ip,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。


  220.181.108.92 同上98%抓取电玩城捕鱼游戏首页,可能还会抓取其他 (不是指内页)220.181段属于权重ip段此段爬过的文章或电玩城捕鱼游戏首页基本24小时放出来。


  123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。


  220.181.108.91属于综合的,主要抓取电玩城捕鱼游戏首页和内页或其他,属于权重ip 段,爬过的文章或电玩城捕鱼游戏首页基本24小时放出来。


  220.181.108.75重点抓取更新文章的内页达到90%,8%抓取电玩城捕鱼游戏首页,2%其他。权重ip 段,爬过的文章或电玩城捕鱼游戏首页基本24小时放出来。


  220.181.108.86专用抓取电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。


  123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。


  220.181.108.89专用抓取电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  220.181.108.94专用抓取电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  220.181.108.97专用抓取电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  220.181.108.80专用抓取电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  220.181.108.77 专用抓电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。


  220.181.108.83专用抓取电玩城捕鱼游戏首页ip 权重段,一般返回代码是304 0 0 代表未更新。


  注:以上ip尾数还有很多,但段位一样的123.125.71.*段ip 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。


  220.181.108.*段ip主要是抓取电玩城捕鱼游戏首页占80%,内页占30%,这此爬过的文章或电玩城捕鱼游戏首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!


  一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是k站,可能是网站是动态的,所以返回就是这个代码。


客服热线:(微信同号)
客服热线:(微信同号)
13693231513(微信同号)

星期一至星期五 9:00-18:00  北京市通州区世界侨商中心10号楼1624
© 2021 智软互联(北京)信息技术有限公司 all rights reserved  "));