您的位置:网站首页 > 源码环境 > 正文

python学习《星际特工:千星之城》豆瓣18万短评爬取

类别:源码环境 日期:2017-9-21 20:20:57 人气: 来源:

  最近小编想做《星际特工:千星之城》的影评分析,就简单学习了一下python爬虫(网络资源),从urlllib到requests简单应用,到伪装浏览器,到代理ip,最后就到selenium了。

  Step 1 :selenium 登陆豆瓣:主要解决2个问题,一是输入用户名和密码,常规方法即可。二是验证码,采取手工输入获取。但有时候并不需要验证码,故用try exception解决。

  Step 3: selenium 《星际特工:千星之城》评论内容读取,并跳转至下页。内容读取包括评论者、推荐星级、投票数(多少人认为有用)、评论时间、评论内容。读取的内容会写到一个csv中(其中涉及到编码的问题,困扰小编2天多),其实用txt方式打开csv,然后用ansi保存,csv就不会再显示为乱码了。

  推荐:

  

关键词:源代码豆瓣
0
0
0
0
0
0
0
0
下一篇:没有资料

相关阅读

网友评论 ()条 查看

姓名: 验证码: 看不清楚,换一个

推荐文章更多

热门图文更多

最新文章更多

关于联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 人才招聘 - 帮助

CopyRight 2002-2012 技术支持 源码吧 FXT All Rights Reserved

赞助合作: