LMLPHP后院

GoogleBot 抓取大量的 ...妹子.htm 是怎么回事技术

maybe yes 发表于 2021-04-08 09:16

GoogleBot 一直是个很奇怪的东西,我一直觉得其技术太差,要么就是不怎么抓取,要么就是疯狂抓取,要么就是无中生有乱抓取。

最近发现 GoogleBot 又没什么动静了,于是看了下日志,发现大量的抓取 地名 或者 某某修饰 或者 KTV 等 加上 XX 妹纸 加上 随机字符.htm

...喃喃妹子...OSd.htm
...呗呗妹子...OSd.htm
...秀秀妹子...OSd.htm
比如:
/search/同江KTV妹子(11.9115.62VX)喃喃妹子...Yb0.htm/
/search/抚远县KTV妹子(76.3622.53VX)呗呗妹子...ypq.htm/
/search/营口兼职女桑拿(51.3861.18VX)喃喃妹子...OaW.htm/
/search/玉溪哪里有姑娘全套(6378.7939VX)喃喃妹子...OSd.htm/
/search/新余技师妹子特殊服务(63.9775.39VX)喃喃妹子...zsW.htm/
/search/黑河爱辉区宾馆妹子(6378.7939VX)喃喃妹子...329.htm/
/search/西山版纳学生新茶(58.1977.53VX)呗呗妹子...pfW.htm/
/search/三门峡护士清吧服务(66.1793.73VX)喃喃妹子...Mnk.htm/
/search/长沙岳麓区找技师全套(88.2982.13VX)呗呗妹子...Nwa.htm/
...
实在太多...
基本就是所有的地名,加上所有的动作,加上所有的职业,加上所有的服务,加上所有风格的妹子,加上随机字符.htm。什么护士什么的当然也是有的。

我表示很无语啊!这是什么个意思,咋无中生有难道搜索引擎连一丢丢的判断技术都没有吗?这个到底是哪一块出了问题?被劫持,被篡改?

从这里可以看出,Google 确实不懂中国,不懂中文,至少不懂中国人思维,这些链接本站是没有的,那么一定是其他站发出来的,它为什么就那么相信其他的站呢?看来老外的思维和国人的思维是不一样的,老外更相信阶级,一旦别的站出现本站链接,它就相信这个链接一定有,而并不是从本站来主动发现链接。这就是为什么很多人能够获得 Google 流量的关键所在,Google 更相信站外链接,不主动发现站内链接。

后记(5/18):我大概知道为什么了,其他的搜索引擎也会发生错误抓取,错误抓取可能跟 IP 有关;但是,我拥有此 IP 已经两年了,两年前的域名使用了这个 IP 影响竟如此深远?!

2021-10-24 07:30:22 1635031822 0.019922