欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

php爬虫抓取百度贴吧图片

程序员文章站 2024-01-14 15:27:58
...
最近有从百度贴吧上批量下载图片的需求,即从某一个贴吧下载所有图片。

本来打算用python写的,因为对python不熟悉,试了minidom,HtmlParser等,感觉上不了手,还是使用比较擅长的php语言吧。

以下是源代码:

 1 /',$listhtml,$m1);32     else33         preg_match_all('/
    \r\n";37 foreach($tidlist as $tid)38 {39 echo "--Gallery $tid
    \r\n";40 $galleryurl = sprintf($galleryurltpl,$tbname,$tid);41 //得到帖子图册的源代码42 $galleryhtml = file_get_contents($galleryurl);43 //匹配出图片id44 preg_match_all('/\{\"original\":\{\"id\":\"(\w+)\"/',$galleryhtml,$m2);45 //得到图片id列表46 $pidlist = $m2[1];47 foreach($pidlist as $pid)48 {49 echo "----Picture {$tid}/{$pid}.jpg ";50 $filedir = sprintf($filedirtpl,$tid);51 $filename = sprintf($filenametpl,$tid,$pid);52 //文件是否存在53 if(!is_file($filename))54 {55 $imageurl = sprintf($imageurltpl,$pid);56 //下载图片57 $imagebin = file_get_contents($imageurl);58 //目录是否存在59 if(!is_dir($filedir))60 mkdir($filedir);61 //保存图片62 file_put_contents($filename,$imagebin);63 $rnd = rand(2000,5000);64 echo "Downloaded! ";65 //延时休息66 sleep(1.0*$rnd/1000);67 echo "Sleep $rnd us
    \r\n";68 }69 else70 echo "Existed!
    \r\n";71 }72 }73 //翻到下一页74 if (!$type) $pn += 50;75 }

    运行测试:

    程序基本上可以满足要求,但是长时间抓取图片时,百度会弹出验证码,此时使用猫重新拨号即可更换IP继续抓取图片。

    (仅供学习参考,请勿用来做非法的事情。)