您的当前位置:行业网 > 电脑网络 > 站长 >

神马站长平台

    收录时间:2019-03-30

    网站链接:zhanzhang.sm.cn

  • 网站语言: 简体中文 所属分类: 站长 累计点击: 人次 综合查询: 立即查看 百度权重: 移动权重:

网站介绍

      神马站长平台,站长平台,服务合作,开发者,共享,技术,站长

神马站长平台

神马Spider介绍 (2014-12-04)

1. 神马Spider
神马Spider是神马访问互联网,自动化抓取网页的程序。Spider抓取下网页,建立索引,使用户可通过搜索引擎搜索到互联网上的资源。
 
2. 神马Spider的user-agent及ip地址
user-agent,是http协议中的一个属性,代表了终端的身份。神马Spider的user-agent为:Yisouspider,因为历史原因此user-agent名称将会继续使用。
 
神马Spider的ip地址是一组ip池,会动态变,因此不在此列举。
 
3. 神马Spider的网站访问频率
神马会根据网站的规模、服务能力、页面质量、更新速度等因素来决定对网站的访问频率。通常质量高、网页更新快的网站神马spider访问的频率相对会高,以保证高质、时效的能够展现给用户。
 
4. 神马spider如何发现新网页
神马spider发现新网页的方式有多种,最典型的是在已发现的网页中分析超链关系,选取url并抓取,如此不断拓展,尽可能多的抓取到有价值的网页。另外,神马会从dns服务商处获取新网站域名,能够及时抓取到新建网站。
 
5. 关于robots协议
robots.txt是搜索引擎访问网站是要访问的第一个文件,以确定哪些网页是允许或禁止抓取的。神马搜索遵守互联网robots协议,如您希望完全禁止神马访问或对部分目录禁止访问,您可以通过robots.txt文件来设置内容,限定神马Spider的访问权限。
 
robots.txt必须放在网站根目录下,且文件名要小写。
 
具体的写法:
 
1) 完全禁止神马Spider抓取:
 
User-agent: Yisouspider
 
Disallow: /
 
2) 禁止神马spider抓取指定目录
 
User-agent: Yisouspider
 
Disallow: /update
 
Disallow: /history
 
禁止抓取update、history目录下网页
 
6. 神马Spider是否会造成带宽负担
神马Spider有规范的抓取流程,同时也会考虑网站的忙闲时段来抓取,因此不会给网站造成带宽负担。如您发现名为Yisouspider的user-agent抓取严重影响到了网站的正常访问,您可将该时段的访问日志信息反馈至zhanzhangpingtai@service.alibaba.com,神马同学会将分析结论发送给您。

    版权声明:

    1、本文转载自神马站长平台(zhanzhang.sm.cn),并由 行业吧(www.hangyeba.cn)编辑整理上传并发布,行业吧不拥有所有权。

    2、行业吧仅提供信息发布平台,不承担相关法律责任。

    3、文章仅代表作者个人观点,不代表行业吧立场,未经作者许可,不得转载。

    4、如果发现本站有涉嫌抄袭的内容,欢迎举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。