LMLPHP后院

百度的爬虫 Baiduspider 也不过尔尔技术

maybe yes 发表于 2018-11-07 09:32

之前写过的一些文章关于“搜索引擎的”,大概的意思就是当今世界的搜索引擎大都是人工控制,根本没有什么算法可言,这导致了互联网海量的复制和垃圾信息成山。这些都是因为当前,搜索引擎没有能力去辨别信息的好坏,整个的就是数量和概率的问题;也就是你的站点的垃圾信息足够多,被宠幸的概率就足够大,所以这也就是优秀小站往往干个很多年依然是小站,而垃圾站垃圾信息满天飞,反而成了流量大站。

屈指可数的几个搜索引擎都是针对性的对一些出名的大站的内容进行特别的优化和搜索处理。当然,它们干搜索这么多年,的确积累了一些经验,然后用这些不怎么样的经验强加给哪些影响力不大的网站结果互联网的阶级就这样固化了。

分析了下搜索引擎爬虫的行为。

baidu spider 一般用的北京的联通 IP 地址进行网络抓取,baidu spider 对于新链接的态度异常缓慢,一般十天半个月才会去请求一次,请求了之后呢,然后进行两次渲染,分别是以两个尺寸 375x667 和 1600x1600 的屏幕渲染。傻不傻,为什么渲染两次,这一看就是比较傻的行为,你要是用两个不同的 agent 请求两次还能理解。通过两次渲染的方式来实现判断网页是否兼容移动端,这种判断机制实在太 low 了。

多说无益。

2024-04-18 06:28:44 1713392924 0.035119