爬虫爬取千千音乐榜单音乐

程序员文章站 2022-03-26 12:19:29

最近做了一个爬取千千音乐的demo，免去下载歌曲还要下载对应客户端的麻烦，刚开始接触爬虫，可能写的不太好，求别喷！话不多说，进入正题 1.获取主页信息（获取各个榜单的url）这里想要说的就是关于千千音乐的登录问题，可能是我在浏览器其他地方登录了百度账号，导致点击退出之后它就会自动又登录上，本来想通 ......

最近做了一个爬取千千音乐的demo，免去下载歌曲还要下载对应客户端的麻烦，刚开始接触爬虫，可能写的不太好，求别喷！话不多说，进入正题

1.获取主页信息（获取各个榜单的url）

这里想要说的就是关于千千音乐的登录问题，可能是我在浏览器其他地方登录了百度账号，导致点击退出之后它就会自动又登录上，本来想通过代码登录获取cookie等登录信息的，我也懒得清除缓存了，

索性直接从抓包工具中把请求头全部复制过来，稍微修改一下

# 获取主页
def gethomepage():
    # 创建会话
    s = requests.session()
    home_url = 'http://music.taihe.com/'
    headers ={
        'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        'accept-language':'zh-cn,zh;q=0.9',
        'cache-control':'max-age=0',
        'connection':'keep-alive',
        'cookie':'log_sid=1561218778562e9db28e6a3cda8ed552f27e3703a9ab4; baiduid=e9db28e6a3cda8ed552f27e3703a9ab4:fg=1; bduss=3atoe5xtdjnotbgb2h6uxvyvnzxtel-z2vkc0w2v0kyuvv6mmticwxmahdlvezksufbqufbjcqaaaaaaaaaaaeaaadqric5uqo~3cqvwmmznjuaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaahdscv1w7aldc; flash_tip_pop=true; tracesrc=-1%7c%7c-1; u_lo=0; u_id=; u_t=; u_login=1; userid=965166288; app_vip=show; hm_lvt_d0ad46e4afeacf34cd12de4c9b553aa6=1561206432,1561209820; __qianqian_pop_tt=8; hm_lpvt_d0ad46e4afeacf34cd12de4c9b553aa6=1561218967',
        # 'host':'music.taihe.com',
        'referer':'http://music.taihe.com/',
        'upgrade-insecure-requests':'1',
        'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/75.0.3770.100 safari/537.36',
    }
    r = s.get(home_url,headers = headers)
    soup = beautifulsoup(r.text, 'lxml')

    # 获取新歌榜 热榜 网络歌曲榜的url
    list_m = soup.findall('h4', class_='more-rank')
    for h in list_m:
        bd_url = h.find('a')['href']
        title = h.find('a')['title']
        entitle = h.find('a')['href'].split('/')[-1]
        bd_url = 'http://music.taihe.com' + bd_url
        gotolist(bd_url, headers, s, title, entitle)

2.获取每个榜单中的每首歌曲的id

# 获取各个榜单的歌曲id,并拼接成以逗号隔开的字符串
def gotolist(bd_url, headers, s, title, entitle):
    r = s.get(bd_url, headers = headers)
    r.encoding='utf8'
    soup = beautifulsoup(r.text, 'lxml')
    m_list = soup.select('.song-item')
    m_num_list = ''
    for m_num in m_list:
        soup = beautifulsoup(str(m_num), 'lxml')
        text = soup.find('span', class_='song-title').find('a')['href']
        m_num_list += text.split('/')[-1] + ','
    getjson(m_num_list.strip(','), title, entitle)

3.根据歌曲id获取每首歌曲的基本信息

json_url = 'http://play.taihe.com/data/music/songlink'
    formdata = {
        'songids': num,
        'hq': '0',
        'type': 'm4a,mp3',
        'rate': '',
        'pt': '0',
        'flag': '-1',
        's2p': '-1',
        'prerate': '-1',
        'bwt': '-1',
        'dur': '-1',
        'bat': '-1',
        'bp': '-1',
        'pos': '-1',
        'auto': '-1',
    }
    r = requests.post(json_url,headers = headers, data = formdata)
    # 将获取到的歌曲信息保存在一个列表中
    songlist  = json.loads(r.text)['data']['songlist']

4.遍历并下载歌曲

r = requests.get(music_url, timeout = 500)这行代码中的

timeout = 500得加上，数字可以按情况填写，因为我下载的时候如果不加这个参数下载到中途就会被服务器关闭连接，从而报错

  # 遍历找到歌曲的下载地址/播放地址
    for song in songlist:
        music_url = song['linkinfo']['128']['songlink']
        print(music_url)
        # 创建父目录
        dirname = 'paihangbang'
        if not os.path.exists(dirname):
           os.mkdir(dirname)

        #创建对应排行榜目录
        dirname = dirname + '/' + entitle + '/'
        if not os.path.exists(dirname):
           os.mkdir(dirname)

        try:
            # 歌曲以歌曲名+歌手名进行命名
            filename = dirname + str(song['songname']) + '-' + str(song['artistname']) + '.mp3'
            r = requests.get(music_url, timeout = 500)
            with open(filename, 'wb') as fp:
                fp.write(r.content)
        except filenotfounderror as e:
            print(filename + '未找到！')
        time.sleep(1)

以上就是全部的代码，下载成功后的目录使这样的

爬虫爬取千千音乐榜单音乐

上一篇： C语言的变参列表 va_list

下一篇：更快学习 JavaScript 的 6 个思维技巧

爬虫爬取千千音乐榜单音乐

详解python selenium 爬取网易云音乐歌单名

python爬取网易云音乐评论

xpath+多进程爬取网易云音乐热歌榜。

python爬虫教程：爬取酷狗音乐

爬虫初上手之爬取QQ音乐！

python爬取酷我音乐(收费的也可以实现)

python爬取酷狗音乐排行榜

Python爬虫爬取网易云的音乐

学习笔记：网络机器人6.0python爬取多类型音乐步骤详解

Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)