如果想要做好大数据的分析,单单依靠一己之力或者是周边的数据是远远不够的,还需要借助“神秘的外部力量”。
这个时候,互联网上的资源就非常关键了,从 *** 上爬取数据资源,就成为了至关重要的一个环节。
那到底什么是 *** 爬虫呢?
*** 爬虫也叫 *** 蜘蛛,即Web Spider,名字非常形象。
如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。 *** 蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站,那么 *** 蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。
光是听起来就很有意思,那利用这等技术能做些什么好玩的事儿呢?
小编随意选取了部分知友的回答,大家感受下~~
@冰蓝
之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。
@陈乐群
上次发现Android *** 和iOS *** 可以显示 *** 状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。
@柳易寒
我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。
这些网站都是提供的一些及时的、性价比较高的商品,很多时候要一个一个网站的看(重度用户),很容易就会错过一些很划算的商品。
@萝莉控夫斯基
我的爱人是某 *** 公司的销售,需要收集各种企业信息然后打 *** 联系。于是乎利用采集脚本抓一坨一坨的资料给她用,而她的同事天天自己搜资料整理到半夜。
看完技术流网友的评论发现, *** 爬虫似乎试一把双刃剑,既可以方便人们抓取数据,节省大量的时间与精力,但同时也会带来负面的影响,严重的甚至有可能犯罪哦!
不管是做什么事,一定要把握好尺度,因为技术是无罪的,人们可以用它的方便造福自己,利用不当的话,会毁了自己。
生活和工作中,大家应该要适当的保持谨慎,对于一些游走在法律边缘的事情,请保持距离。
更多关注微信公众号:jiuwenwang
伦敦的大都会警察局(MPS)进行了英国有史以来最大的加密货币扣押,从一个涉嫌洗钱的人那里拿走了价值1.8亿英镑的加密货币。同时吗,美国司法部查封了与2016年Bitfinex黑客事件有关的价值36亿美元比特币,这是目前有史以来最大的加密货币或法币被盗资产的回收。 这些故事很重要,不仅因为它们允许对加...
美国总统拜登警告美国企业主管立即加强其公司的网络防御,准备应对潜在的来自俄罗斯的网络攻击,以报复使该国经济陷入瘫痪的制裁。拜登在一份白宫声明中写道,”根据不断变化的情报,政府正在重申以前的警告,即俄罗斯可能对美国进行恶意的网络攻击。” “我的政府将继续使用一切工具来阻止、破坏,并在必要时回应针对关...
为了迎接今年 5 月首个周四的“世界密码日”的到来,USA Today 觉得很有必要继续提醒大家提升安全意识。首先是尽量为工作、娱乐、网银、网购等各种在线活动配备强密码,且需避免使用同一个密码,以免所有账号被攻击者一锅端。 资料图(来自:Bitwarden) 业内知名开源密码器(US News &...
5月5日,SentinelLabs 发布报告,显示他们曾在知名防病毒产品Avast 和 AVG (2016 年被 Avast 收购)中发现了两个存在时间长达近10年之久的严重漏洞。 这两个漏洞被跟踪为 CVE-2022-26522 和 CVE-2022-26523,存在于名为 aswArPot.s...
微软今天宣布,它将默认阻止5个Office应用程序中VBA宏脚本的执行,这是近年来影响最大的变化之一。从2022年4月初开始,Access、Excel、PowerPoint、Visio和Word用户将不能在他们从互联网上下载的不受信任的文件中启用宏脚本。 安全研究人员多年来一直要求作出这一改变,这将...
Hackernews 编译,转载请注明出处: 研究人员发现了一种新的针对中东和亚洲电信和 IT 服务提供商的间谍黑客活动。 这项攻击活动已经进行了六个月,操作者似乎与伊朗支持的攻击者 MERCURY (又名 MuddyWater,SeedWorm,或 TEMP.Zagros)有关。 这份报告来自...