小编近期开发一个php抓取网站内容功能,由于网站做了一些防止抓取。小编废了好大劲才破译。
开始使用模拟header头请求该网站但是还是无效试了无数种可能,请求的cookie,以及一切请求参数都找到通过curl配置好,就是不行。
抓取到了该页面,当我继续通过正则获取需要的数据时问题又出现了,始终抓取为空。看到了,却抓取不到呢,经过一系列的搜索,以及试探
才找到问题所在需要把抓取的数据存储到指定变量中。代码: curl_setopt($ch,CURLOPT_RETURNTRANSFER,true); 这是设置把抓取到的数据放到一个变量中。自己在通过变量来获取即可。
之后即可通过preg_match();获取自己想要的数据。小编技术比较低,这点研究了好久。应该是一些基础。希望能对大家有所帮助。
本文来源于ipfs
网友评论 ()条 查看