小牧用Python 爬取数万条房产数据,揭秘一线城市生存压力有多大
---恢复内容开始---
最近各大一二线城市的房租都有上涨,究竟整体上涨到什么程度呢?我们也不得而知,于是乎笔者为了一探究竟,便用 python 爬取了房某下的深圳租房数据。以下是本次的样本数据:
除去【不限】的数据(因为可能会与后面重叠),总数据量为 16971 ,其中后半部分地区数据量偏少,是由于该区房源确实不足。
因此,此次调查也并非非常准确,权且当个娱乐项目,供大家观赏。
统计结果
我们且先看统计结果,然后再看技术分析。深圳房源分布如下,按区划分的话,其中福田与南山的房源分布是最多的。但这两块地的房租十分不菲。
房租单价即 1 平方米 1 个月的价格。方块越大,代表价格越高:
可以看出福田与南山独占鳌头,分别是 114.874 与 113.483 ,是其他地区的几倍。如果以福田 20 平方的房间为例算一下每个月的开销:
福田 20 平方房间的租金: 114.874 x 20 = 2297.48 再来个两百的水电、物业: 2297.48 + 200 = 2497.48 我们节俭一点来算的话,每天早餐 10 块,中午 25 块,晚饭 25 块: 2497.48 + 60 x 30 = 4297.48 是的,仅仅是活下来就需要 3997.48 块。隔断时间下个馆子,每个月买些衣服,交通费,谈个女朋友,与女朋友出去逛街,妥妥滴加个 3500: 4297.48 + 3500 = 7697.48 给爸妈一人一千: 7697.48 + 2000 = 9697.48
如果在乡下没有寸土寸金的感觉,那么可以到北上广深体验一下,福田区每平方米每天需要 3.829 元。
户型方面主要以 3 室 2 厅与 2 室 2 厅为主。与小伙伴抱团租房是最好的选择了,不然与不认识的人一起合租可能会发生一系列让你不舒服的事情。字体越大,代表户型数量越多。
租房面积统计,其中 30 - 90 平方米的租房占大多数——所以,组团租房是最好的选择。
然后是租房描述词云,字体越大,标识出现的次数越多。其中【精装修】占据了很大的部分,说明长租公寓也占领了很大一部分市场。
爬虫思路
先爬取房某下深圳各个板块的数据,然后存进 mongodb 数据库,最后再进行数据分析。
数据库部分数据:
/* 1 */ { "_id" : objectid("5b827d5e8a4c184e63fb1325"), "traffic" : "距沙井电子城公交站约567米。",//交通描述 "address" : "宝安-沙井-名豪丽城",//地址 "price" : 3100,//价格 "area" : 110,//面积 "direction" : "朝南\r\n ",//朝向 "title" : "沙井 名豪丽城精装三房 家私齐拎包住 高层朝南随时看房",//标题 "rooms" : "3室2厅",//户型 "region" : "宝安"//地区 }
爬虫技术分析和代码实现
爬虫涉及到的技术工具如下:
- 请求库:requests
- html 解析:beautiful soup
- 词云:wordcloud
- 数据可视化:pyecharts
- 数据库:mongodb
- 数据库连接:pymongo
首先右键网页,查看页面源码,找出我们要爬取的部分。
代码实现,由于篇幅原因只展示主要代码:(获取一个页面的数据)
def getonepagedata(self, pageurl, reginon="不限"): rent = self.getcollection(self.region) self.session.headers.update({ 'user-agent': 'mozilla/5.0 (macintosh; intel mac os x 10_13_3) applewebkit/537.36 (khtml, like gecko) chrome/68.0.3440.84 safari/537.36'}) res = self.session.get( pageurl ) soup = beautifulsoup(res.text, "html.parser") divs = soup.find_all("dd", attrs={"class": "info rel"}) # 获取需要爬取得 div for div in divs: ps = div.find_all("p") try: # 捕获异常,因为页面中有些数据没有被填写完整,或者被插入了一条广告,则会没有相应的标签,所以会报错 for index, p in enumerate(ps): # 从源码中可以看出,每一条 p 标签都有我们想要的信息,故在此遍历 p 标签, text = p.text.strip() print(text) # 输出看看是否为我们想要的信息 print("===================================") # 爬取并存进 mongodb 数据库 roommsg = ps[1].text.split("|") # rentmsg 这样处理是因为有些信息未填写完整,导致对象报空 area = roommsg[2].strip()[:len(roommsg[2]) - 2] rentmsg = self.getrentmsg( ps[0].text.strip(), roommsg[1].strip(), int(float(area)), int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]), ps[2].text.strip(), ps[3].text.strip(), ps[2].text.strip()[:2], roommsg[3], ) rent.insert(rentmsg) except: continue
数据分析:
# 求一个区的房租单价(平方米/元) def getavgprice(self, region): areapinyin = self.getpinyin(region=region) collection = self.zfdb[areapinyin] totalprice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}]) totalarea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}]) totalprice2 = list(totalprice)[0]["total_price"] totalarea2 = list(totalarea)[0]["total_area"] return totalprice2 / totalarea2 # 获取各个区 每个月一平方米需要多少钱 def gettotalavgprice(self): totalavgpricelist = [] totalavgpricedirlist = [] for index, region in enumerate(self.getarealist()): avgprice = self.getavgprice(region) totalavgpricelist.append(round(avgprice, 3)) totalavgpricedirlist.append({"value": round(avgprice, 3), "name": region + " " + str(round(avgprice, 3))}) return totalavgpricedirlist # 获取各个区 每一天一平方米需要多少钱 def gettotalavgpriceperday(self): totalavgpricelist = [] for index, region in enumerate(self.getarealist()): avgprice = self.getavgprice(region) totalavgpricelist.append(round(avgprice / 30, 3)) return (self.getarealist(), totalavgpricelist) # 获取各区统计样本数量 def getanalycisnum(self): analycislist = [] for index, region in enumerate(self.getarealist()): collection = self.zfdb[self.pinyindir[region]] print(region) totalnum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}]) totalnum2 = list(totalnum)[0]["total_num"] analycislist.append(totalnum2) return (self.getarealist(), analycislist) # 获取各个区的房源比重 def getareaweight(self): result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}]) areaname = [] areaweight = [] for item in result: if item["_id"] in self.getarealist(): areaweight.append(item["weight"]) areaname.append(item["_id"]) print(item["_id"]) print(item["weight"]) # print(type(item)) return (areaname, areaweight) # 获取 title 数据,用于构建词云 def gettitle(self): collection = self.zfdb["rent"] queryargs = {} projectionfields = {'_id': false, 'title': true} # 用字典指定需要的字段 searchres = collection.find(queryargs, projection=projectionfields).limit(1000) content = '' for result in searchres: print(result["title"]) content += result["title"] return content # 获取户型数据(例如:3 室 2 厅) def getrooms(self): results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}]) roomlist = [] weightlist = [] for result in results: roomlist.append(result["_id"]) weightlist.append(result["weight"]) # print(list(result)) return (roomlist, weightlist) # 获取租房面积 def getacreage(self): results0_30 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 0, '$lte': 30}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results30_60 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 30, '$lte': 60}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results60_90 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 60, '$lte': 90}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results90_120 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 90, '$lte': 120}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results120_200 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 120, '$lte': 200}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results200_300 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 200, '$lte': 300}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results300_400 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 300, '$lte': 400}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results400_10000 = self.zfdb.rent.aggregate([ {'$match': {'area': {'$gt': 300, '$lte': 10000}}}, {'$group': {'_id': '', 'count': {'$sum': 1}}} ]) results0_30_ = list(results0_30)[0]["count"] results30_60_ = list(results30_60)[0]["count"] results60_90_ = list(results60_90)[0]["count"] results90_120_ = list(results90_120)[0]["count"] results120_200_ = list(results120_200)[0]["count"] results200_300_ = list(results200_300)[0]["count"] results300_400_ = list(results300_400)[0]["count"] results400_10000_ = list(results400_10000)[0]["count"] attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"] value = [ results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_ ] return (attr, value)
数据展示:
# 展示饼图 def showpie(self, title, attr, value): from pyecharts import pie pie = pie(title) pie.add("aa", attr, value, is_label_show=true) pie.render() # 展示矩形树图 def showtreemap(self, title, data): from pyecharts import treemap data = data treemap = treemap(title, width=1200, height=600) treemap.add("深圳", data, is_label_show=true, label_pos='inside', label_text_size=19) treemap.render() # 展示条形图 def showline(self, title, attr, value): from pyecharts import bar bar = bar(title) bar.add("深圳", attr, value, is_convert=false, is_label_show=true, label_text_size=18, is_random=true, # xaxis_interval=0, xaxis_label_textsize=9, legend_text_size=18, label_text_color=["#000"]) bar.render() # 展示词云 def showworkcloud(self, content, image_filename, font_filename, out_filename): d = path.dirname(__name__) # content = open(path.join(d, filename), 'rb').read() # 基于tf-idf算法的关键字抽取, topk返回频率最高的几项, 默认值为20, withweight # 为是否返回关键字的权重 tags = jieba.analyse.extract_tags(content, topk=100, withweight=false) text = " ".join(tags) # 需要显示的背景图片 img = imread(path.join(d, image_filename)) # 指定中文字体, 不然会乱码的 wc = wordcloud(font_path=font_filename, background_color='black', # 词云形状, mask=img, # 允许最大词汇 max_words=400, # 最大号字体,如果不指定则为图像高度 max_font_size=100, # 画布宽度和高度,如果设置了msak则不会生效 # width=600, # height=400, margin=2, # 词语水平摆放的频率,默认为0.9.即竖直摆放的频率为0.1 prefer_horizontal=0.9 ) wc.generate(text) img_color = imagecolorgenerator(img) plt.imshow(wc.recolor(color_func=img_color)) plt.axis("off") plt.show() wc.to_file(path.join(d, out_filename)) # 展示 pyecharts 的词云 def showpyechartswordcloud(self, attr, value): from pyecharts import wordcloud wordcloud = wordcloud(width=1300, height=620) wordcloud.add("", attr, value, word_size_range=[20, 100]) wordcloud.render()
不管怎样,最近房租的暴涨真得让人无能为力。应对外界条件的变动,我们还是应该提升自己的硬实力,这样才能提升自己的生存能力。
---恢复内容结束---
上一篇: 用EasyMailObject组件处理Exchange邮件源代码(2)
下一篇: c语言 哈夫曼编码