php爬虫抓取百度贴吧图片
程序员文章站
2024-01-14 15:27:58
...
最近有从百度贴吧上批量下载图片的需求,即从某一个贴吧下载所有图片。
\r\n";40 $galleryurl = sprintf($galleryurltpl,$tbname,$tid);41 //得到帖子图册的源代码42 $galleryhtml = file_get_contents($galleryurl);43 //匹配出图片id44 preg_match_all('/\{\"original\":\{\"id\":\"(\w+)\"/',$galleryhtml,$m2);45 //得到图片id列表46 $pidlist = $m2[1];47 foreach($pidlist as $pid)48 {49 echo "----Picture {$tid}/{$pid}.jpg ";50 $filedir = sprintf($filedirtpl,$tid);51 $filename = sprintf($filenametpl,$tid,$pid);52 //文件是否存在53 if(!is_file($filename))54 {55 $imageurl = sprintf($imageurltpl,$pid);56 //下载图片57 $imagebin = file_get_contents($imageurl);58 //目录是否存在59 if(!is_dir($filedir))60 mkdir($filedir);61 //保存图片62 file_put_contents($filename,$imagebin);63 $rnd = rand(2000,5000);64 echo "Downloaded! ";65 //延时休息66 sleep(1.0*$rnd/1000);67 echo "Sleep $rnd us
\r\n";68 }69 else70 echo "Existed!
\r\n";71 }72 }73 //翻到下一页74 if (!$type) $pn += 50;75 }
本来打算用python写的,因为对python不熟悉,试了minidom,HtmlParser等,感觉上不了手,还是使用比较擅长的php语言吧。
以下是源代码:
1 /',$listhtml,$m1);32 else33 preg_match_all('/
\r\n";40 $galleryurl = sprintf($galleryurltpl,$tbname,$tid);41 //得到帖子图册的源代码42 $galleryhtml = file_get_contents($galleryurl);43 //匹配出图片id44 preg_match_all('/\{\"original\":\{\"id\":\"(\w+)\"/',$galleryhtml,$m2);45 //得到图片id列表46 $pidlist = $m2[1];47 foreach($pidlist as $pid)48 {49 echo "----Picture {$tid}/{$pid}.jpg ";50 $filedir = sprintf($filedirtpl,$tid);51 $filename = sprintf($filenametpl,$tid,$pid);52 //文件是否存在53 if(!is_file($filename))54 {55 $imageurl = sprintf($imageurltpl,$pid);56 //下载图片57 $imagebin = file_get_contents($imageurl);58 //目录是否存在59 if(!is_dir($filedir))60 mkdir($filedir);61 //保存图片62 file_put_contents($filename,$imagebin);63 $rnd = rand(2000,5000);64 echo "Downloaded! ";65 //延时休息66 sleep(1.0*$rnd/1000);67 echo "Sleep $rnd us
\r\n";68 }69 else70 echo "Existed!
\r\n";71 }72 }73 //翻到下一页74 if (!$type) $pn += 50;75 }
运行测试:
程序基本上可以满足要求,但是长时间抓取图片时,百度会弹出验证码,此时使用猫重新拨号即可更换IP继续抓取图片。
(仅供学习参考,请勿用来做非法的事情。)