第768章爬虫-大时代之巅-文学书院

:‘ChaiknowsThebot’，}

r=(“

html=xt

print(html)

难怪说3月份的时候，北科有两个计算机系的大学生被开除了。

这技术好像是不太难。

因为大四写论文，可用谷歌、百度、微点等搜索引擎，却搜不到别人写的相关论文。怎么办？就有计算机系的学生，自己写了段爬虫算法。

然后成功的爬取到了几百篇相关论文。

接下来就好办了，摘抄、重组、整合。

如果查重不过关，也简单，用谷歌翻译，先汉译英、再英译汉。再人工地把句子整理通顺，查重就顺利通过。

可能是北科的创业环境被周不器给带起来了，那俩大学生就有了通过技术牟利的心思，玩起了帮同学写论文的生意。

被发现后，俩人都被开除了。

要不是周不器出面力保，上缴了非法所得，并安排到了校内网工作，他俩说不定就要蹲监狱了，前程就全毁了。

王小船接着说：“这是静态网站的爬取，如果是优酷、朋友网的这种动态页面，算法会相对复杂。可不管怎样，这都是很基础的工具。我们做搜索引擎，难点已经从复杂性变为规模量了。”

周不器皱皱眉，“老马……就是阿里的那位。他跟我说，要屏蔽百度对淘宝的爬虫，怎么回事？”

王小船笑道：“这事也简单，爬虫和网站之间有一个爬取协议，业内叫Robot协议。这个协议会声明，该网站的哪些内容可以爬取，哪些内容不能爬取，并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度，只需要把百度的爬虫加到黑名单里就行了。”

“嗯！”

周不器点了点头。

这就是他想要的答案。

爬虫黑名单！

王小船似乎看出了什么，试探着说：“老板，你……你要对百度下手吗？”

周不器道：“我看了一下微知网的数据，过去3个月，有超过1.1亿的访问量，是来自百度。”

王小船没有惊喜，深吸了口气，忧心忡忡的说：“微知的访问量本来就不高，如果屏蔽了百度，流量就更低了。”

周不器并不在乎，“微知不需要流量，微知需要的是优质内容。你都说了，百度的算法不如谷歌，很难通过简单的数据处理完成对一些有深度内容的检索，来爬取微知的内容，是简洁途径

　　本章未完，请点击下一页继续阅读！

看了《大时代之巅》的书友还喜欢看

说好的末世呢，怎么是四合院

作者：触动心弦

简介：姜卫东得到了一个无限空间，五十米范围内，可以随意收取。\n空间还有一个倒计时装置。<...

更新时间：2024-12-12 06:00:32

最新章节：第212章喝奶茶

风流村乱

作者：石头开花

简介：【神医+乡村+都市】\n范云鹏大学期间，得罪了权贵，被打断腿，回村成为一名劁猪匠，后...

更新时间：2024-12-12 06:00:42

最新章节：第768章得好好犒劳他

北宋穿越指南

作者：王梓钧

简介：如果穿越回宋代，是该吟诗作赋、风花雪月？还是厉兵秣马、争霸天下？

...

更新时间：2024-12-12 03:13:00

最新章节：后记四十二·棠溪之剑

开局妈传菜，迷途知返我调教世界

作者：谈天衍道

简介：穿越平行世界。\n开局惨遭美女同学PUA，一个面临高考的高中生背负数万债务，导致家庭...

更新时间：2024-12-12 06:00:34

最新章节：第912章前方无路

太荒吞天诀

作者：铁马飞桥

简介：天地皆灵，万物皆苟，无名天地之时，有名万物之母，此乃吞天神鼎，可凝精作物，并八荒之心...

更新时间：2024-12-12 06:15:00

最新章节：第三千九百七十二章葬神谷

至尊吞天诀

作者：铁马飞桥

简介：天地皆灵，万物皆苟，无名天地之时，有名万物之母，此乃吞天神鼎，可凝精作物，并八荒之心...

更新时间：2024-12-12 06:15:00

最新章节：第三千九百七十二章葬神谷

第768章 爬虫

看了《大时代之巅》的书友还喜欢看

第768章爬虫