Java爬虫爬取京东商品信息

程序员文章站 2022-05-16 12:23:51

java爬虫工具:Jsoup Maven地址 org ......

<strong> java<em style=“color：red;”>爬虫</em></strong>工具:Jsoup

Maven地址

<dependency>
　　
　　<groupId>org.jsoup</groupId>
　　<artifactId>jsoup</artifactId>
　　<version>1.11.2</version>
</dependency>

网页分析：

Java爬虫爬取京东商品信息

商品布局分析：

Java代码实例：

 1 import org.jsoup.Jsoup;
 2 import org.jsoup.nodes.Document;
 3 import org.jsoup.nodes.Element;
 4 import org.jsoup.select.Elements;
 5 
 6 /**
 7  * 作者：小鱼
 8  * 作者唯一QQ号：1132017151
 9  * 
10  * 简单测试类
11  * 包含内容：京东商品页查询
12  * 不包含京东商品排除个性化查询和后半部动态加载，如有想要了解，请联系作者
13  * */
14 public class Test {
15     
16     public static void main(String[] args) throws Exception {
17         String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&psort=3&page=3";//第二页商品
18         //网址分析
19         /*keyword:关键词（京东搜索框输入的信息）
20          * enc：编码方式（可改动:默认UTF-8）
21          * psort=3 //搜索方式  默认按综合查询 不给psort值
22          * page=分业（不考虑动态加载时按照基数分业，每一页30条，这里就不演示动态加载）
23          * 注意：受京东商品个性化影响，准确率无法保障
24          * */
25         Document doc = Jsoup.connect(url).maxBodySize(0).get();
26         //doc获取整个页面的所有数据
27         Elements ulList = doc.select("ul[class='gl-warp clearfix']");
28         Elements liList = ulList.select("li[class='gl-item']");
29         //循环liList的数据
30         for (Element item : liList) {
31             //排除广告位置
32             if (!item.select("span[class='p-promo-flag']").text().trim().equals("广告")) {
33                 //如果向存到数据库和文件里请自行更改
34                 System.out.println(item.select("div[class='p-name p-name-type-2']").select("em").text());//打印商品标题到控制台
35             }
36         }
37     }
38 }

运行结果：

如有疑问可加作者QQ或者博客园留言，看到必回！

如有转载，请自觉贴上本帖地址，谢谢合作！

上一篇： JavaScript数组应用可依次读取的公告栏文字

下一篇： XJad反编译工具

Java爬虫爬取京东商品信息

c#爬虫爬取京东的商品信息

python爬虫教程之爬取百度贴吧并下载的示例

详解用python写网络爬虫-爬取新浪微博评论

Python实现爬取知乎神回复简单爬虫代码分享

Python网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）

利用node.js写一个爬取知乎妹纸图的小爬虫

爬虫小项目！适合有基础的！爬取葡萄酒评分！哪个阶段和那种酒呢

Python爬虫实战用 BeautifulSoup 爬取电影网站信息

python爬虫爬取奇书阁首页分类小说数据

java+selenium爬取图片签名的方法