北京大学慕课学习之淘宝爬取实例（IDLE显示+保存为Excel数据到本地）

程序员文章站 2022-07-13 12:51:50

...

   **北京大学慕课学习之淘宝爬取实例（IDLE显示+保存为Excel数据到本地）**

在学习了北京大学Python慕课后练习了淘宝爬取的实例，虽然其中有很多的错误出现，但是在吸取各位的办法之后我完成了这次的实例编写。其中代码参考了https://blog.csdn.net/celine11111/article/details/105376291
并在它的基础上改进了一下下，新人第一次写，有问题请多多指教。
代码如下

import requests
import re
import pandas as pd
headers = {
    'authority': 's.taobao.com',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'sec-fetch-site': 'none',
    'referer': 'https://s.taobao.com/search?q=shubao&commend=all&ssid=s5-e&search_type=mall&sourceId=tb.index&area=c2c&spm=a1z02.1.6856637.d4910789',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cookie': 'thw=cn; cna=Vzk9FtjcI20CAd9Vz/wYMTMu; t=20e35e562420e4844071fdb958fb7c9a; hng=CN%7Czh-CN%7CCNY%7C156; miid=791733911206048212; tracknick=chia_jia; tg=0; cookie2=1f0898f4d5e217732638dedf9fe15701; v=0; _tb_token_=ebe5eeed35f33; enc=0hYktGOhhe0QclVgvyiraV50UAu2nXH2DGGiUhLzUiXhhwjN3%2BmWuY8a%2Bg%2B13VWtqA42kqOMQxOCBM%2F9y%2FMKEA%3D%3D; alitrackid=www.taobao.com; _samesite_flag_=true; sgcookie=ErzxRE%2F%2Fujbceh7Nk8tsW; unb=2925825942; uc3=lg2=U%2BGCWk%2F75gdr5Q%3D%3D&id2=UUGgqLe1BUBPyw%3D%3D&nk2=AHLe94pmu18%3D&vt3=F8dBxd9lptyvS0VrdSI%3D; csg=2ff7a88b; lgc=chia_jia; cookie17=UUGgqLe1BUBPyw%3D%3D; dnk=chia_jia; skt=fffc9202f189ba15; existShop=MTU4NDgwNjA5OA%3D%3D; uc4=nk4=0%40AhyIi%2BV%2FGWSNaFwor7d%2Fi8aNNg%3D%3D&id4=0%40U2OXkqaj%2BLnczzIixfRAeE2zi2mx; _cc_=U%2BGCWk%2F7og%3D%3D; _l_g_=Ug%3D%3D; sg=a24; _nk_=chia_jia; cookie1=VW7ubnoPKm6ZWpbFap8xTV%2BlfhUdVkTTn8y8%2Fh5pWuE%3D; tfstk=c-PRBp27QijoTXTB7NX0R8OD7-jGZX8-xUip9wQB5nAdp0OdilPg_WDhF2--MZC..; uc1=cookie16=V32FPkk%2FxXMk5UvIbNtImtMfJQ%3D%3D&cookie21=WqG3DMC9Fb5mPLIQo9kR&cookie15=URm48syIIVrSKA%3D%3D&existShop=false&pas=0&cookie14=UoTUPvg16Dl1fw%3D%3D&tag=8&lng=zh_CN; mt=ci=-1_1; lastalitrackid=buyertrade.taobao.com; JSESSIONID=46486E97DAB8DFE70AF7B618C2AE4309; l=dB_cmQBHqVHSpFQ9BOfwIH3Ssv7t4IdbzrVy9-oE7ICP991H5uC5WZ4ztBTMCnGVn6rkJ3JsgJC4BKm92ydZGhZfP3k_J_xmed8h.; isg=BAwM2R7Qvilbman-Lz4SX8Sj3Wo-RbDvFjL_wmbMw7da8a77j1WsfldLkflJv-hH',
}



def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""

def parsePage(ilt,nlt,xlt,html):
    try:
        plt = re.findall(r'"view_price":"[(\d.)]*"',html)
        tlt = re.findall(r'"raw_title":".*?"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
            xlt.append([price])
            nlt.append([title])
    except:
        print("")

def printMakeList(ilt,xlt,nlt):
    tplt="{:4}\t{:8}\t{:16}" 
    print(tplt.format("序号","价格","商品名称"))
    count = 0
    for g in ilt:
        count += 1
        print(count,g[0],g[1])
    df=pd.DataFrame(data={'name':xlt, 'price':nlt})
    df.to_excel('D:\淘宝爬取数据\huawei.xlsx', sheet_name='商品')
    
def main():
    url = "https://s.taobao.com/search?q=华为p40"
    depth = 2
    infoList = []
    xlt=[]
    nlt=[]
    
    for i in range(depth):
        try:
            start_url = url+"&s=" + str(44*i)
            html = getHTMLText(url)
            parsePage(infoList,xlt,nlt,html)
            
        except:
            continue
        printMakeList(infoList,xlt,nlt)

        

main()

这次可以如老师讲的那样在IDLE上显示，同时也可以用pandas库来将代码保存为Excel表格形式，用于数据分析。虽然没有什么太大的用处，但是可以看到是否成功爬取数据到Excel表格中。就这样，希望能够帮到每一个学习Python的人。谢谢

相关标签：北京大学慕课学习 python excel

上一篇： jQuery的ready函数源码解读

下一篇：专业的JE打造自己专业的博客