欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬虫实例之获取豆瓣前250名电影名称

程序员文章站 2024-03-08 18:18:10
...

爬虫实例之获取豆瓣前250名电影名称

代码:

import requests
from bs4 import BeautifulSoup
import time

#程序开始时时间stat
stat = time.time()
#请求头信息,检查目标网页即可获取
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
'Host': 'movie.douban.com'
}
#目标地址
url = 'https://movie.douban.com/top250'
#创建列表
movie_list = []
#循环十页
for i in range(0,10):
    #拼接出目标地址
    link = url+'?'+'start='+str(i*25)
    #检查拼接结果
    print(link)
    # 发起请求,得到响应r,timeout=10十秒不响应就继续执行
    res = requests.get(link,headers=headers,timeout=10)

    #输出响应状态
    print(res.status_code)
    soup = BeautifulSoup(res.text,'html.parser')
    #获取标题div
    div_hd = soup.find_all('div',class_='hd')
    #获取导演
    div_bd = soup.find_all('div', class_='bd')
    #遍历标题div,找到所需信息
    for each in div_hd:
    #获取div下的a下的span
        test_list = each.a.find_all('span',class_='title')
        test_title = ''
        for j in range(len(test_list)):
            test_title += test_list[j].text.strip()
        movie_list.append(test_title)
    # 休息3秒,避免爬的太快封ip
    time.sleep(3)

#解决gbk中文乱码
with open('豆瓣250.txt',"a+",encoding="utf-8") as f:
 for i in range(len(movie_list)):
     #替换 字符串
    movie_list[i] = movie_list[i].replace(' ','')
    f.write(movie_list[i]+'\n')
end = time.time()
print('总时间是',end-stat)

结果:

肖申克的救赎/The Shawshank Redemption
霸王别姬
阿甘正传/Forrest Gump
这个杀手不太冷/Léon
泰坦尼克号/Titanic
美丽人生/La vita è bella
千与千寻/千と千尋の神隠し
辛德勒的名单/Schindler's List
盗梦空间/Inception
忠犬八公的故事/Hachi: A Dog's Tale
星际穿越/Interstellar
楚门的世界/The Truman Show
海上钢琴师/La leggenda del pianista sull'oceano
三傻大闹宝莱坞/3 Idiots
机器人总动员/WALL·E
放牛班的春天/Les choristes
无间道/無間道
疯狂动物城/Zootopia
大话西游之大圣娶亲/西遊記大結局之仙履奇緣
熔炉/도가니
教父/The Godfather
当幸福来敲门/The Pursuit of Happyness
龙猫/となりのトトロ
怦然心动/Flipped
控方证人/Witness for the Prosecution
触不可及/Intouchables
末代皇帝/The Last Emperor
蝙蝠侠:黑暗骑士/The Dark Knight
寻梦环游记/Coco
活着
指环王3:王者无敌/The Lord of the Rings: The Return of the King
哈利·波特与魔法石/Harry Potter and the Sorcerer's Stone
乱世佳人/Gone with the Wind
何以为家/كفرناحوم
飞屋环游记/Up
素媛/소원
摔跤吧!爸爸/Dangal
十二怒汉/12 Angry Men
少年派的奇幻漂流/Life of Pi
哈尔的移动城堡/ハウルの動く城
鬼子来了
我不是药神
大话西游之月光宝盒/西遊記第壹佰零壹回之月光寶盒
天空之城/天空の城ラピュタ
天堂电影院/Nuovo Cinema Paradiso
闻香识女人/Scent of a Woman
指环王2:双塔奇兵/The Lord of the Rings: The Two Towers
罗马假日/Roman Holiday
猫鼠游戏/Catch Me If You Can
辩护人/변호인
指环王1:护戒使者/The Lord of the Rings: The Fellowship of the Ring
钢琴家/The Pianist
大闹天宫
让子弹飞
教父2/The Godfather: Part Ⅱ
狮子王/The Lion King
死亡诗社/Dead Poets Society
搏击俱乐部/Fight Club
黑客帝国/The Matrix
海蒂和爷爷/Heidi
绿皮书/Green Book
饮食男女/飲食男女
美丽心灵/A Beautiful Mind
窃听风暴/Das Leben der Anderen
本杰明·巴顿奇事/The Curious Case of Benjamin Button
两杆大烟枪/Lock, Stock and Two Smoking Barrels
情书/Love Letter
穿条纹睡衣的男孩/The Boy in the Striped Pajamas
看不见的客人/Contratiempo
西西里的美丽传说/Malèna
飞越疯人院/One Flew Over the Cuckoo's Nest
拯救大兵瑞恩/Saving Private Ryan
音乐之声/The Sound of Music
小鞋子/بچه‌های آسمان
阿凡达/Avatar
海豚湾/The Cove
致命魔术/The Prestige
美国往事/Once Upon a Time in America
沉默的羔羊/The Silence of the Lambs
禁闭岛/Shutter Island
蝴蝶效应/The Butterfly Effect
低俗小说/Pulp Fiction
心灵捕手/Good Will Hunting
布达佩斯大饭店/The Grand Budapest Hotel
哈利·波特与死亡圣器(下)/Harry Potter and the Deathly Hallows: Part 2
春光乍泄/春光乍洩
七宗罪/Se7en
摩登时代/Modern Times
喜剧之王/喜劇之王
被嫌弃的松子的一生/嫌われ松子の一生
致命ID/Identity
杀人回忆/살인의 추억
加勒比海盗/Pirates of the Caribbean: The Curse of the Black Pearl
剪刀手爱德华/Edward Scissorhands
狩猎/Jagten
勇敢的心/Braveheart
请以你的名字呼唤我/Call Me by Your Name
红辣椒/パプリカ
7号房的礼物/7번방의 선물
断背山/Brokeback Mountain
天使爱美丽/Le fabuleux destin d'Amélie Poulain
功夫
超脱/Detachment
幽灵公主/もののけ姫
小森林 夏秋篇/リトル・フォレスト 夏・秋
第六感/The Sixth Sense
唐伯虎点秋香/唐伯虎點秋香
重庆森林/重慶森林
阳光灿烂的日子
爱在黎明破晓前/Before Sunrise
人生果实/人生フルーツ
一一
菊次郎的夏天/菊次郎の夏
蝙蝠侠:黑暗骑士崛起/The Dark Knight Rises
哈利·波特与阿兹卡班的囚徒/Harry Potter and the *er of Azkaban
小森林 冬春篇/リトル・フォレスト 冬・春
消失的爱人/Gone Girl
无人知晓/誰も知らない
入殓师/おくりびと
超能陆战队/Big Hero 6
倩女幽魂
侧耳倾听/耳をすませば
完美的世界/A Perfect World
借东西的小人阿莉埃蒂/借りぐらしのアリエッティ
甜蜜蜜
爱在日落黄昏时/Before Sunset
萤火之森/蛍火の杜へ
驯龙高手/How to Train Your Dragon
玛丽和马克思/Mary and Max
幸福终点站/The Terminal
哈利·波特与密室/Harry Potter and the Chamber of Secrets
天书奇谭
大鱼/Big Fish
告白
阳光姐妹淘/써니
射雕英雄传之东成西就/射鵰英雄傳之東成西就
怪兽电力公司/Monsters, Inc.
时空恋旅人/About Time
恐怖直播/더 테러 라이브
神偷奶爸/Despicable Me
玩具总动员3/Toy Story 3
傲慢与偏见/Pride & Prejudice
教父3/The Godfather: Part III
釜山行/부산행
一个叫欧维的男人决定去死/En man som heter Ove
哪吒闹海
血战钢锯岭/Hacksaw Ridge
被解救的姜戈/Django Unchained
未麻的部屋/Perfect Blue
七武士/七人の侍
我是山姆/I Am Sam
头号玩家/Ready Player One
喜宴/囍宴
电锯惊魂/Saw
风之谷/風の谷のナウシカ
上帝之城/Cidade de Deus
新世界/신세계
卢旺达饭店/Hotel Rwanda
三块广告牌/Three Billboards Outside Ebbing, Missouri
英雄本色
疯狂原始人/The Croods
模仿游戏/The Imitation Game
谍影重重3/The Bourne Ultimatum
花样年华/花樣年華
黑客帝国3:矩阵革命/The Matrix Revolutions
寄生虫/기생충
纵横四海/緃横四海
达拉斯买家俱乐部/Dallas Buyers Club
头脑特工队/Inside Out
心迷宫
你的名字。/君の名は。
岁月神偷/歲月神偷
记忆碎片/Memento
忠犬八公物语/ハチ公物語
海街日记/海街diary
荒蛮故事/Relatos salvajes
哈利·波特与火焰杯/Harry Potter and the Goblet of Fire
惊魂记/Psycho
爆裂鼓手/Whiplash
真爱至上/Love Actually
贫民窟的百万富翁/Slumdog Millionaire
东邪西毒/東邪西毒
萤火虫之墓/火垂るの墓
小偷家族/万引き家族
绿里奇迹/The Green Mile
黑天鹅/Black Swan
无敌破坏王/Wreck-It Ralph
九品芝麻官
你看起来好像很好吃/おまえうまそうだな
爱在午夜降临前/Before Midnight
冰川时代/Ice Age
疯狂的石头
雨人/Rain Man
恋恋笔记本/The Notebook
恐怖游轮/Triangle
雨中曲/Singin' in the Rain
魔女宅急便/魔女の宅急便
色,戒
2001太空漫游/2001: A Space Odyssey
虎口脱险/La grande vadrouille
奇迹男孩/Wonder
城市之光/City Lights
海边的曼彻斯特/Manchester by the Sea
可可西里
人工智能/Artificial Intelligence: AI
初恋这件小事/สิ่งเล็กเล็กที่เรียกว่า...รัก
罗生门/羅生門
房间/Room
终结者2:审判日/Terminator 2: Judgment Day
大佛普拉斯
二十二
遗愿清单/The Bucket List
牯岭街少年杀人事件/牯嶺街少年殺人事件
源代码/Source Code
波西米亚狂想曲/Bohemian Rhapsody
青蛇
新龙门客栈/新龍門客棧
魂断蓝桥/Waterloo Bridge
疯狂的麦克斯4:狂暴之路/Mad Max: Fury Road
无耻混蛋/Inglourious Basterds
东京教父/東京ゴッドファーザーズ
步履不停/歩いても 歩いても
无间道2/無間道II
血钻/Blood Diamond
燃情岁月/Legends of the Fall
海洋/Océans
彗星来的那一夜/Coherence
谍影重重2/The Bourne Supremacy
战争之王/Lord of War
穿越时空的少女/時をかける少女
阿飞正传/阿飛正傳
千钧一发/Gattaca
地球上的星星/Taare Zameen Par
完美陌生人/Perfetti sconosciuti
黑客帝国2:重装上阵/The Matrix Reloaded
谍影重重/The Bourne Identity
东京物语/東京物語
崖上的波妞/崖の上のポニョ
香水/Perfume: The Story of a Murderer
我爱你/그대를 사랑합니다
茶馆
再次出发之纽约遇见你/Begin Again
朗读者/The Reader
聚焦/Spotlight
驴得水
浪潮/Die Welle
猜火车/Trainspotting
爱乐之城/La La Land
小萝莉的猴神大叔/Bajrangi Bhaijaan
背靠背,脸对脸

相关标签: 后端博文 python