与Googbot的第一次约会:标头和压缩

  • 时间:
  • 浏览:10



谷歌机器人:对于你这个 大问题,并如此 一一个 简单的答案。首先,swf(Flash)、jpg、png、gif和pdf等文件格式有一种不可能 是压缩过的了(而且还有专门的Flash 优化器)。

网站:我的形状非常复杂。我是用一些类型的文件。你的标头说:“Accept:*/*”。让我对所有的URL进行收录,还是自动过滤一些文件扩展名?



谷歌机器人:说到这里,该见见父母大人了——它只是robots.txt。我只是见过不少发疯的“父母”。其中一些实际上只是HTML错误信息网页,而也有有效的robots.txt。一些文件里充满了无穷无尽的重定向,而且不可能 指向删改不相关的站点。另外一些体积庞大,所含成千上万条单独成行、各不相同的 URL。下面只是其中的有一种有副作用的文件模式,在通常情况表下,你这个 站点是希望我去爬行它的内容的:

User-Agent: *

Allow: /



网站:很长见识。我很高兴今晚你能来看我。感谢老天爷,我的robots.txt文件允许你能来。你这个 文件有完后 就像对所有人的子女过分保护的父母。

还有什么都有有扩展名,这类 exe、dll、zip、dmg等,它们对于搜索引擎而言,既数量庞大,又如此 多大用处。

网站:或许我不可能 把所有人的Flash文件进行了压缩,所有人还我不知道。很显然,我的速率单位很高喽。



谷歌机器人:当然。所有的主流搜索引擎和WEB浏览器都支持对内容进行gzip压缩,以节约速率单位。你或许都会碰到其它的一些类型,这类 “x-gzip”(与“gzip”相同),“deflate”(当人们也支持它)和“identity”(不支持)。



谷歌机器人: 网站老兄,让我要 让我讲点背景知识吧。一一个 文件真正下载完成后,我会使用“内容—类别”(Content-Type)标头来检查它属于HTML、图像、文本还是别的有哪些东西。不可能 它是PDF、Word文档或Excel工作表等特殊的数据类型,我会确认它的格式不是合法有效,并从中抽取文本内容。但有你永远也可不能否选则后边不是所含病毒。而且不可能 文档或数据类型混乱不清,我除了把它们扔掉之外,也如此 有哪些更好的方法。

当人们的第一次约会(就在今晚):谷歌机器人发出的数据标头和他所留意到的文件格式不是适于被进行压缩处理;

判断他的反应:响应代码(801s、802s),他怎么能否处理重定向和If-Modified-Since;

下一步:随着链接,让我爬行得调慢不可能 调慢(只是他就不用兴奋地过了头)。

今晚只是当人们的第一次约会……



网站: 有有哪些标头太炫了!无论我的网站在美国、亚洲还是欧洲,你都用同样的标头爬行吗?你只是用过一些标头吗?

你能我励志的话 有有哪些标头是为社 回事吗?

什么都有有,不可能 我爬行你的 “http://www.example.com/page1.LOL111”URL并发现未知文件扩展名时,我不可能 会首先把它下载。 不可能 我从标头中无法弄清内容类型,不可能 它属于当人们拒绝检索的文件格式(这类 MP3),如此 必须把它放上一边了。除此之外,当人们会接着对文件进行爬行。

网站:哦,谷歌机器人…(完后 始于应答):)



网站:不可能 你看后我的URL“http://www.example.com/page1.LOL111”,(呜噎着说)让我不用只是用可能 后边所含着未知的文件扩展名就把它拒之门外呢?

网站:没错,当人们不可能 会真是被打扰到了。你的敬业精神令我佩服得五体投地。我所有人就喜欢涂鸦绘画(JPG),好难抗拒它们的诱惑力。

网站:谷歌机器人,我很抱歉对你的工作风格“鸡蛋里挑骨头”,但我注意到你的“Accept-Encoding”标头却励志的话 :

Accept-Encoding: gzip,deflate

我通常会处理Cookies(而且不处于所谓“Cookie:”标头),不可能 我不须希望与具体对话有关的信息对内容产生很多的影响。此外,不可能 某个服务器在动态URL而也有Cookies上使用对话ID,通常我都能识别出来,只是就不用不可能 每次对话ID的不同而成千上万遍地重复爬行同一一个 网页。



谷歌机器人: 一般而言,我在全球各地所用的标头都保持一致。我试图从一一个 网站默认的语言和设定出发,搞清楚一一个 网页究竟长得有哪些样。有完后 当人们的用户代理各不相同,这类 Adsense读取使用的是“Mediapartners-Google”:

User-Agent: Mediapartners-Google

我知道第一次约会的完后 ,过分地分析从来就也有有哪些好主意。当人们将通过一系列的文章,一些点地了解谷歌机器人:

不可能 我只是对常规的Web搜索进行检索,当我看后指向MP3和视频内容的链接,我不可能 不用下载有有哪些东西。这类 地,不可能 我看后了一一个 JPG文件,处理方法自然 就与HTML不可能 PDF链接有所区别。这类 JPG 的变动频率往往比HTML低什么都有有,什么都有有我不太无缘无故检查JPG的变动,以节约速率单位。同去,不可能 我为谷歌学术搜索寻找链接,如此 我对PDF文章的兴趣就会远远高于对JPG文件的兴趣。对于学者而言,下载涂鸦绘画(这类 JPG),不可能 是关于小狗玩滑板的视频,是容易当人们分散注意力的,我说对吗?

  来源:SEO教程 转载注明出处!

一 般来说,我每天必须重新检查一次robots.txt(而且,在一些虚拟主机站点上,我会将一大要素时间花在读取robots.txt文件上,要知道如此 几块约会对象喜欢如此 频繁地拜见对方父母的)。站长们通过robots.txt 切换的方法来控制爬行频率是有副作用的,更好的方法是用网站管理员工具将爬行频率调至“较低”即可。



GET / HTTP/1.1

Host: example.com

Connection: Keep-alive

Accept: */*

From: googlebot(at)googlebot.com

User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Accept-Encoding: gzip,deflate



网站:你能更删改地励志的话 文件压缩和“Accept-Encoding: gzip,deflate”吗?我的一些URL都所含尺寸很大的Flash文件和美妙的图像,不仅仅是HTML。不可能 我把一一个 比较大的文件加以压缩,会不用促使你更越来太快地爬行呢?

无线读取的用户代理因运营商而异,而谷歌阅读器RSS读取则所含了订阅者数量等额外信息。

谷歌机器人 -- 多么神奇的梦幻之舟!他了解当人们的灵魂和各个组成要素。或许他不须寻求有哪些独一无二的东西;他阅览过其它数十亿个网站(真是当人们也与一些搜索引擎机器人分享所有人的数据:)),而且就在今晚,作为网站和谷歌机器人,当人们将真正地了解对方。



谷歌机器人:这要取决于让我要 找有哪些。



谷歌机器人: 网站老兄,谢谢你提出的有有哪些大问题,你无缘无故做得很不错,但我现在不得不说“再见,我的爱人”了。

然而,在某个用户流量的高峰半时,你这个 站点转而将它的robots.txt切换到限制性极强的机制上:

# Can you go away for a while? I'll let you back

# again in the future. Really, I promise!

User-Agent: *

Disallow: /

不可能 你的服务器上有闲置的CPU资源,都时要尝试进行压缩(链接:Apache, IIS)。而且,不可能 你提供的是动态内容,而且服务器的CPU不可能 处于满负荷情况表,我建议你还是不须只是做。

上述robots.txt文件切换的大问题在于,一旦我看后你这个 限制性很强的robots.txt,有不可能 使我不得不把索引中不可能 爬行的该网站内容舍弃掉。当我再次被批准进入你这个 站点的完后 ,我不得不将只是的一些内容重新爬行一遍,共要会暂时老出803错误相应代码。

不可能 对于图像搜索:

User-Agent: Googlebot-Image/1.0

谷歌机器人:我也一样。实际上我并也有无缘无故也有做学问。不可能 我为搜索图像而爬行,就会对JPG非常感兴趣,碰到新闻,我会花大力气考察HTML和它们附进的图像。

***************

谷歌机器人: 命令正确应答

网站: 谷歌机器人,你来了!

谷歌机器人:是的,我来了!

谷歌机器人:Apache和IIS都提供了选项,允许进行gzip和deflate压缩,当然,节省速率单位的代价是对CPU资源的更多消耗。一般情况表下,这项功能只适用于比较容易压缩的文件,这类 文本HTML/CSS/PHP内容等。而且,必须在用户的浏览器不可能 我(搜索引擎机器人)允许的情况表下才都时要使用。 就我所有人而言,更倾向于“gzip”而也有“deflate”。Gzip的编码过程相对可靠一些,不可能 它不断地进行加和检查,而且保持删改的标头,不像 “deflate”那样时要我在工作中不断推测。除此之外,这有一种应用程序的压缩算法语言都很这类 。