首先是python基础,接触下html页面,简单的css跟js。为爬虫打地基
然后接触下爬虫的几个库,bs4,urilb,requests,xpath,xml,文件操作
最后就是实战了,首先爬个天气预报啥的
weatherinfo=r.json() #在json后面加上括号才能返回结果。否则只能返回函数地址。
以下python3通过:
import requests
ApiUrl=""
r=requests.get(ApiUrl)
weatherinfo=r.json()
print (weatherinfo["weatherinfo"]["ptime"])
print (weatherinfo["weatherinfo"]["temp2"])
08:00
5℃
再写个发邮件模块,根据爬取的天气内容判断,提醒用户是否需要带伞,适合穿什么衣服出门!
这个和用不用python没啥关系,是数据来源的问题。调用 *** API,使用 api相关接口获得你想要的内容,我 记得api中有相关的接口,你可以看一下接口的说明。用python做爬虫来进行页面数据的获取。希望能帮到你。
使用到了urllib库和bs4。bs4提供了专门针对html的解析功能,比用RE方便许多。
# coding : UTF-8import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )from bs4 import BeautifulSoupimport csvimport urllibdef get_html(url):
html = urllib.urlopen(url) return html.read()def get_data(html_text):
final = []
bs = BeautifulSoup(html_text, "html.parser")
body = bs.body
data = body.find('div', {'id': '7d'})
ul = data.find('ul')
li = ul.find_all('li') for day in li:
temp = []
date = day.find('h1').string
temp.append(date)
inf = day.find_all('p')
temp.append(inf[0].string,) if inf[1].find('span') is None:
temperature_highest = None
else:
temperature_highest = inf[1].find('span').string
temperature_highest = temperature_highest.replace('C', '')
temperature_lowest = inf[1].find('i').string
temperature_lowest = temperature_lowest.replace('C', '')
temp.append(temperature_highest)
temp.append(temperature_lowest)
final.append(temp) return finaldef write_data(data, name):
file_name = name with open(file_name, 'a') as f:
f_csv = csv.writer(f)
f_csv.writerows(data)if __name__ == '__main__':
html_doc = get_html('')
result = get_data(html_doc)
write_data(result, 'weather.csv') print result12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152
运行结果保存在csv文件中,如下:
28日(今天),小雨,,13℃29日(明天),小雨转阴,15℃,12℃30日(后天),多云,19℃,14℃31日(周一),小雨,16℃,14℃1日(周二),阴转多云,16℃,10℃2日(周三),多云转晴,17℃,10℃3日(周四),多云转晴,18℃,11℃1234567
你可以通过爬虫技术将数据全部爬取下来,然后存放在DataFrame中,最后用.to_csv来保存
一款用于窃取 Facebook 登录凭证的恶意 Android 应用目前在 Google Play 商城上已经被安装超过 10 万次,而且该应用目前仍可下载(发稿时已下架)。这款恶意程序被伪装成“Craftsart Cartoon Photo Tools”卡通化应用,允许用户上传图片并将其转换为卡通...
一个由多个全球执法机构组成的联盟–包括FBI、特勤局、英国国家犯罪署、欧洲刑警组织和其他机构–最近领导了一次行动,以查封RaidForums拥有的网络域名。RaidForums.com通常被描述为世界上最大的黑客论坛之一,它承载着一个留言板系统,恶意方可以在这里购买、出售和交易来自重大漏洞的黑客和...
乌克兰计算机应急响应小组(CERT-UA)在周二的一份安全公告中称,他们刚刚破坏了 Sandworm 想要攻陷一家该国能源供应商的企图。据说 Sandworm 是一个与俄罗斯军事情报部门有关联的黑客组织,期间试图利用臭名昭著的新版 Industroyer 恶意软件,来切断未具名的某能源供应商的变电站...
在俄罗斯对乌克兰采取军事行动的几个月前,一队美国人在乌克兰各地寻找一种非常特殊的威胁。据悉,其中一些小组成员是美国陆军网络司令部的士兵,其他人则是民用承包商和一些美国公司的雇员,他们帮助保护关键基础设施免受俄罗斯机构对乌克兰采取的网络攻击。 自2015年乌克兰电网遭遇网络攻击进而导致基辅部分地区停...
法新社消息,西班牙政府2日表示,该国首相桑切斯和国防部长罗伯斯的手机在一次“非法的、外部的 ”干预中被通过“飞马”间谍软件窃听。报道还称,西班牙首相府、议会关系与民主记忆大臣费利克斯·博拉尼奥斯·加西亚也证实说,“这不是推测,是非常严重的事实,希望司法部门进行调查。” 法新社报道截图 去年7月,这...
不少 WordPress 网站正在遭受黑客们的攻击,通过注入的恶意脚本,利用访问者的浏览器对乌克兰网站进行分布式拒绝服务攻击。今天,MalwareHunterTeam 发现一个 WordPress 网站被入侵使用这个脚本,针对十个网站进行分布式拒绝服务(DDoS)攻击。 这些网站包括乌克兰政府机构、...