最近小编想做《星际特工:千星之城》的影评分析,就简单学习了一下python爬虫(网络资源),从urlllib到requests简单应用,到伪装浏览器,到代理ip,最后就到selenium了。
Step 1 :selenium 登陆豆瓣:主要解决2个问题,一是输入用户名和密码,常规方法即可。二是验证码,采取手工输入获取。但有时候并不需要验证码,故用try exception解决。
Step 3: selenium 《星际特工:千星之城》评论内容读取,并跳转至下页。内容读取包括评论者、推荐星级、投票数(多少人认为有用)、评论时间、评论内容。读取的内容会写到一个csv中(其中涉及到编码的问题,困扰小编2天多),其实用txt方式打开csv,然后用ansi保存,csv就不会再显示为乱码了。
推荐:
网友评论 ()条 查看