python爬虫问题！在线等解答！

程序员文章站 2022-04-05 08:56:06

...

我已经爬取了coursera上所有课程的url，放在了all_url.txt 文件中，大概2000多行。
然后我想用这些url爬取其他我想要的信息，合成一个.csv以方便导入数据库。
在以下的代码里，我只写了几项我想要爬取的内容来测试能否实现（如爬取课程时间表等五项我需要的信息还没有写入代码中），但是在sublime中control+b 之后，虽不报错，但是无法抓取任何内容，只能创建csv文件。

如果能找到漏洞，小弟还有一个问题，就是是不是循环次数太多了，第一层循环就2000层，里面大概每个次级for循环还有10层吧，应该怎么优化呢。。。

求大神指教！thx






***代码如下***

#!usr/bin/python
# -*- coding:utf-8 -*-

import sys;
import os
import urllib 
import requests
import csv

from bs4 import BeautifulSoup

reload(sys);
sys.setdefaultencoding("utf8")



f = open("all_url.txt","r")
lines = f.readlines()
for line in lines:

    html = urllib.urlopen(line)
    content = html.read()
    html.close()


    soup = BeautifulSoup(content)
    
    
    all_coursename = soup.find_all('h2', class_="color-primary-text headline-1-text flex-1")

    COURSENAME = []

    for coursename in all_coursename:

        COURSENAME.append(coursename)

        

    all_courseins = soup.find_all(class_="text-light offering-partner-names")
    
    COURSEINSTITUTION = []
    
    for courseins in all_courseins:

        COURSEINSTITUTION.append(courseins)

        
    




    all_courseurl = soup.find_all('a', class_="rc-OfferingCard nostyle")
    
    COURSEURL = []

    for courseurl in all_courseurl:



        COURSEURL.append(courseurl)

    




    csvfile = file('all_info.csv', 'wb')
    writer = csv.writer(csvfile)
    writer.writerow(['COURSE_NAME', 'COURSE_INSTITUTION', 'COURSE_URL'])
    
    for i in range (0,len(COURSENAME)):
        data = [
          (COURSENAME[i], COURSEINSTITUTION[i], COURSEURL[i])
        ]
        
        writer.writerows(data)
        csvfile.close()

回复内容：

如果能找到漏洞，小弟还有一个问题，就是是不是循环次数太多了，第一层循环就2000层，里面大概每个次级for循环还有10层吧，应该怎么优化呢。。。

求大神指教！thx






***代码如下***

#!usr/bin/python
# -*- coding:utf-8 -*-

import sys;
import os
import urllib 
import requests
import csv

from bs4 import BeautifulSoup

reload(sys);
sys.setdefaultencoding("utf8")



f = open("all_url.txt","r")
lines = f.readlines()
for line in lines:

    html = urllib.urlopen(line)
    content = html.read()
    html.close()


    soup = BeautifulSoup(content)
    
    
    all_coursename = soup.find_all('h2', class_="color-primary-text headline-1-text flex-1")

    COURSENAME = []

    for coursename in all_coursename:

        COURSENAME.append(coursename)

        

    all_courseins = soup.find_all(class_="text-light offering-partner-names")
    
    COURSEINSTITUTION = []
    
    for courseins in all_courseins:

        COURSEINSTITUTION.append(courseins)

        
    




    all_courseurl = soup.find_all('a', class_="rc-OfferingCard nostyle")
    
    COURSEURL = []

    for courseurl in all_courseurl:



        COURSEURL.append(courseurl)

    




    csvfile = file('all_info.csv', 'wb')
    writer = csv.writer(csvfile)
    writer.writerow(['COURSE_NAME', 'COURSE_INSTITUTION', 'COURSE_URL'])
    
    for i in range (0,len(COURSENAME)):
        data = [
          (COURSENAME[i], COURSEINSTITUTION[i], COURSEURL[i])
        ]
        
        writer.writerows(data)
        csvfile.close()

第一层获取URL 页面用thread 模块，后面第二层for的直接extend 列表就好了，最后不要频繁打开关闭文件写入先把结果存起来最后一次写入文件

检查一下open mode =wb是怎么定义的

使用'W'，文件若存在，首先要清空，然后（重新）创建

一步步调试下，看问题出在哪里，可能从html中筛选出你要的信息出错了或者筛选不出来，都有可能

上一篇： python读取csv文件示例(python操作csv)

下一篇：使用javascript动态创建对象的属性

python爬虫问题！在线等解答！

回复内容：

使用'W'，文件若存在，首先要清空，然后（重新）创建

python机器人运动范围问题的解答

python爬虫的数据库连接问题【推荐】

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题

详解nodejs爬虫程序解决gbk等中文编码问题

python机器人运动范围问题的解答

python列表生成式、键盘输入、字符串翻转、字母大小写、数组广播、循环语句等基础问题

python爬虫处理在线预览的pdf文档

Python爬虫，京东自动登录，在线抢购商品

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

解决Python网页爬虫之中文乱码问题

python爬虫问题！在线等解答！

回复内容：

使用'W'，文件若存在，首先要清空，然后（重新）创建

python机器人运动范围问题的解答

python爬虫的数据库连接问题【推荐】

python爬虫 下载一个网页内的图片解决分页以及图片懒加载的问题

详解nodejs爬虫程序解决gbk等中文编码问题

python机器人运动范围问题的解答

python列表生成式、键盘输入、字符串翻转、字母大小写、数组广播、循环语句等基础问题

python爬虫处理在线预览的pdf文档

Python爬虫，京东自动登录，在线抢购商品

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

解决Python网页爬虫之中文乱码问题

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题