百度的好日子来了?爬虫搜不到任何公众号文章

在过去 11 年里,微信基于社交搭建起了一套自己的生态,讲个笑话,作为即时通讯软件的微信有三宝——

承载内容和服务的公众号,all in one 的小程序,以及作为生态后盾的微信支付。

且不说后两者,我一直觉得公众号才是那个撑起微信生态的顶梁柱,但众所周知,公众号作为微信的禁脔,上面的信息除了那个已成自家兄弟的搜狗外,是任何一个搜索引擎都不可察的存在。

这并不奇怪,搜索引擎作为旧时代的流量入口,如果把内容开放给搜索引擎,就意味着某种程度的「让利」,虽然增加了内容曝光,却在移动互联网这个新时代的背景下,损失了更为重要的用户习惯。

直白点说,这么做得不偿失。

所以就有了 2007 年的淘宝,用一句「百度搜索没有带来直接的交易量」,直接屏蔽了百度的收录,影响嘛,我们也都能看到——

淘宝成为了后 10 年 PC、移动电商双赢家。

有了淘宝的「成功经」在前,2012 年上线的公众号平台从一开始就被微信死死地攥在手心。

起初公众号的文章还能通过暴露链接的方式被百度爬虫所收录,但自从 2014 年微信和搜狗达成合作,没过多久,你在百度上就再也搜不到任何公众号文章了。

百度的好日子来了?爬虫搜不到任何公众号文章插图

我们可以从公众号平台的 robots 协议中一窥究竟,两行代码,意味着所有爬虫机器人皆不允许爬取网站内容,其中自然包括百度的 Baiduspider。

百度的好日子来了?爬虫搜不到任何公众号文章插图1

到了淘宝就更直接了,在 robots 协议里指名道姓的单点了 Baiduspider。

百度的好日子来了?爬虫搜不到任何公众号文章插图2

爬虫是什么不用多介绍了吧,泛指的是抓取网站内容的程序,在搜索引擎收录信息时,就是通过爬虫 copy 了网页链接及其内容。

而作为主角的 robots,是一个网站与爬虫之间默认的口头协议。

它以简单直接的 txt 文本告知爬虫,网站的哪一部分是允许你爬的,哪一部分又是不允许你爬的。

正常情况下,程序访问链接时,都会先访问 robots.txt 这个文件,然后根据文本内容规规矩矩地获取信息。

如果网站没有这个文件,那就意味着对于各路爬虫而言,网站内容处在裸奔状态。

当然,到底按不按 robots 协议里的规矩行事,取决于爬虫方有没有关掉优先访问 robots.txt 的开关,换句话说,这是个公认的君子协议,没有任何技术约束。

如果不按规矩行事,对个人来说意味着越来越有判头,对大厂来说更是要吃罚款的,这事对于搜索起家的百度而言肯定不陌生。

2013 年的时候就因为 360 违反商业道德,无视 robots 协议爬取百度禁爬的内容,被百度一纸诉状告至法院,一审判了 360 整整 70 万元,360 不服上诉,7 年后二审驳回请求。

所以说,robots 协议和网站运营、搜索引擎收录规则是息息相关的,重要程度不言而喻。

虽说 robots 协议并非没有漏子可钻,但像微信那样直接禁止所有爬虫抓取内容,包括百度在内的一众搜索引擎,是不能也不敢爬取公众号文章。

可前几天,谷歌和必应两家搜索引擎上突然又可以搜到公众号文章了,联系上个月监管倡导互联互通,我看都有文章称这是微信响应政策的下一步尝试。

结果这消息还没传热乎,当天下午,腾讯就回应说,这其实是公众号的 robots 协议出现漏洞所导致的闹剧。

不过之所以这次技术乌龙会被上纲上线到互联互通、反垄断的地步,是因为更早之前的另一条传闻,给了所有知情者极大的想象空间。

啥事呢?

就是有外媒宣称,「据有关部门要求,微信和今日头条需开放内容给搜索引擎」。

先不说靠不靠谱,受这一条消息的影响,百度那天的股价涨了 4%,好像在市场看来,百度缺的就是微信和今日头条那点内容了,它的好日子就要来了。

真是这样吗?我觉得离大谱了。

我们权且不说互联互通、反垄断与 robots 协议之间有没有矛盾,单说百度的落寞,难道要怪罪到微信、今日头条的内容反爬?

诚然,百度的搜索权威性因为各个内容平台的圈地划分而不断被稀释,但它自己真的意识到用户进行搜索到底是为了什么吗?

搜索这个行为其实算得上一次发放式的买卖,不同于算法推荐的投喂,我们主动输入关键词,期待的回应并不在于娱乐和喜好,而是答案足够快速、精确且有价值。

身为搜索引擎,其实更应该意识到,用户的每分每秒都是黄金时间,经不起一丁点的浪费。

可百度又是怎么做的呢?

纵观它过去的所作所为,无论是竞价排名导致的魏则西事件坏了口碑,还是主动把百家号的内容提高权重,我们并没有「买」到心仪的东西,它反而像是在告诉外界——

你想搜索的内容,是我想给你的内容。

当搜索引擎不再尊重用户,当它的傲慢错过了时代发展,那它还有什么竞争力?

是,百度仍是全球最大的中文搜索引擎,搜索内容的深度和广度独树一帜,如果日后微信、今日头条的内容向其开放,肯定会更进一步拓宽百度的搜索范围。

但,怎么排序呢,再搞一套新的竞价排名?

对于互联互通,对于反垄断,我当然是举双手认可,但如果是拿着互联互通和反垄断的名义让利给被欲望支配下的搜索引擎——

我接受,但不赞同。

看看微信「搜一搜」上一年的月活数据,和近来手机端百度的数据相差的并不多,看看口碑场上的谷歌,哪怕有一墙之隔,比百度也不知道好到哪里去了。

百度到底差在哪?

我们想明白的,不知道它能不能想明白。

免责声明:

本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail:1411156739@qq.com
THE END
分享
二维码
打赏
< <上一篇
下一篇>>