Python分析盘点2019全球流行音乐：是哪些歌曲榜单占领了我们？

程序员文章站 2022-06-03 20:37:15

写在前面：圣诞刚过，弥留者节日气息的大家是否还在继续学习呐~在匆忙之际也不忘给自己找几首好听的歌曲放松一下，缠绕着音乐一起来看看关于2019年流行音乐趋势是如何用Python分析的吧！昨天下午没事儿，随便听了下音乐，结果搜到了一份数据比较好玩，所以拿了来做个数据分享案例。这份数据是由国外比较火的 ......

写在前面：圣诞刚过，弥留者节日气息的大家是否还在继续学习呐~在匆忙之际也不忘给自己找几首好听的歌曲放松一下，缠绕着音乐一起来看看关于2019年流行音乐趋势是如何用python分析的吧！

昨天下午没事儿，随便听了下音乐，结果搜到了一份数据比较好玩，所以拿了来做个数据分享案例。

这份数据是由国外比较火的音乐软件spotify提供的，很有代表意义。

不过涉及到的指标都比较专业，我不是太懂，只能根据自己的理解去做分析，有懂音乐的朋友可以提出专业的看法。

这次的数据分析工具是python，当然如果你python不是很熟，用tableau也是可以的，做出的图还会更好看。

一、数据准备

1、导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from  pyecharts import bar,wordcloud,pie,line
%matplotlib inline
%config inlinebackend.figure_format = 'svg'
df=pd.read_excel(r'c:\users\administrator\desktop\top50.xlsx')
df.head()

这些代码都是不需要思考的，只要打开python做数据分析，你首先就写好，或者直接复制就行，我都是把常用代码保存好，要用的时候就调出来用，这样省时间。

列的名称都是英语，我借助了百度做了下翻译：

track.name-曲目；
artist.name-歌手；
genre - 类型
beats per minute (bpm) - 每分钟节拍，也就是节奏.
energy - 能量 - 分数越高，代表能量就越大；
danceability - 舞蹈性-分数越高，代表你越容易因歌而舞；
loudness (db) - 分贝-值越大，说明歌曲越响亮，反之则低沉；
liveness -现场性-值越大，歌曲越有可能是现场录音的；
valence - 情绪-值越大，情绪越激昂，反之越消沉；
lentgh-时长；
acousticness -音质；.
speechiness -语言-值越大，说明口语化程度越高；
popularity -火热程度。

2、数据列的名称更改

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from  pyecharts import bar,wordcloud,pie,line
%matplotlib inline
%config inlinebackend.figure_format = 'svg'
df=pd.read_excel(r'c:\users\administrator\desktop\top50.xlsx')
df=df.rename(columns={'track.name':'曲名', 'artist.name':'歌手', 'genre':'类型', 'beats.per.minute':'节奏', 'energy':'能量',
'danceability':'舞蹈性', 'loudness..db..':'分贝','liveness':'现场感', 'length.':'时长','speechiness':'语言', 'popularity':'火热程度'})
df.head(10)

看英语的总是不习惯，所以我们可以把英语的列名改为中文。

二、数据分析

1、2019全球最流行的音乐类型排行

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from  pyecharts import bar,wordcloud,pie,line
%matplotlib inline
%config inlinebackend.figure_format = 'svg'
df=pd.read_excel(r'c:\users\administrator\desktop\top50.xlsx')
df=df.rename(columns={'track.name':'曲名', 'artist.name':'歌手', 'genre':'类型', 'beats.per.minute':'音调', 'energy':'能量',
'danceability':'舞蹈性', 'loudness..db..':'分贝','liveness':'现场感', 'length.':'时长','speechiness':'语言', 'popularity':'火热程度'})
df=df.groupby('类型')['曲名'].count().reset_index()
df=df.sort_values(by='曲名',ascending=false).reset_index()

cloud=wordcloud(title='2019最流行的音乐类型',width=800,height=420)
cloud.add(name='音乐类型',attr=df['类型'],value=df['曲名'],word_size_range=(12,60))
cloud.render('2019全球最流行的音乐类型.html')
cloud

从词云图可以看到，2019年全球最火的还是流行音乐（pop&dance pop）。鉴于其他类型的音乐我都不认识，所以下面的分析，我会直接对pop&dance pop作为主要对象，把他们归为一类。

2、2019年全球流行音乐排行

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from  pyecharts import bar,wordcloud,pie,line
%matplotlib inline
%config inlinebackend.figure_format = 'svg'
df=pd.read_excel(r'c:\users\administrator\desktop\top50.xlsx')
df=df.rename(columns={'track.name':'曲名', 'artist.name':'歌手', 'genre':'类型', 'beats.per.minute':'音调', 'energy':'能量',
'danceability':'舞蹈性', 'loudness..db..':'分贝','liveness':'现场感', 'length.':'时长','speechiness':'语言', 'popularity':'火热程度'})

df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)
df

通过上述代码，我已经把dance pop的类型全部换成pop。

#接上面的代码
df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)
df.pivot_table(df,index='曲名').sort_values(by='火热程度',ascending=false).reset_index()

how do you sleep?

这是全球最流行的15首流行歌曲。

结合前面的图我们可以知道：这些流行歌曲的口语化程度低，歌词普遍比较优美，有意境；同时时长恰当，多在3分钟左右......

3、根据流行程度对歌曲进行分类颁奖

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from  pyecharts import bar,wordcloud,pie,line
%matplotlib inline
%config inlinebackend.figure_format = 'svg'
df=pd.read_excel(r'c:\users\administrator\desktop\top50.xlsx')
df=df.rename(columns={'track.name':'曲名', 'artist.name':'歌手', 'genre':'类型', 'beats.per.minute':'音调', 'energy':'能量',
'danceability':'舞蹈性', 'loudness..db..':'分贝','liveness':'现场感', 'length.':'时长','speechiness':'语言', 'popularity':'火热程度'})

df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)
df=df.pivot_table('火热程度',index='曲名').sort_values(by='火热程度',ascending=false).reset_index()

def grade(火热程度):
if(火热程度>=90):
return '年度最热'
if(火热程度>=85):
return '年度火热'
else:
return '年度流行'

df['授予荣誉'] = df.apply(lambda x :grade(x['火热程度']), axis=1)
df

我们知道，很多媒体都喜欢搞排行榜，而且喜欢给歌曲颁奖，这些颁奖一般会根据几个标准进行打分，算出综合排名。不过这个比较复杂，这里只根据流行程度颁奖，大于90分的就是年度最热；85-89的是年度火热；84以下的就是年度流行。这个实现代码很简单，做出分类，再给数据加一列，命名为“授予荣誉”即可。

#接上面的代码
plt.rcparams['font.sans-serif']=['simhei']
plt.figure(figsize=(8,4))
sns.countplot(x="授予荣誉",data=df, order=['年度最热','年度火热','年度流行'],palette="muted")
plt.title('2019年全球流行音乐荣誉',loc='left',size=15)
plt.xlabel('授予荣誉',size=15)
plt.ylabel('数量',size=15)
plt.grid(false)
sns.despine(left=false )

这是对荣誉情况的统计，适用于数量比较大的情况。

4、2019全球最火流行歌手排行榜

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from  pyecharts import bar,wordcloud,pie,line
%matplotlib inline
%config inlinebackend.figure_format = 'svg'
df=pd.read_excel(r'c:\users\administrator\desktop\top50.xlsx')
df=df.rename(columns={'track.name':'曲名', 'artist.name':'歌手', 'genre':'类型', 'beats.per.minute':'音调', 'energy':'能量',
'danceability':'舞蹈性', 'loudness..db..':'分贝','liveness':'现场感', 'length.':'时长','speechiness':'语言', 'popularity':'火热程度'})

df=df.replace('dance pop','pop')
df=df[df['类型']=='pop'].reset_index().drop('index',axis=1)

df=df.pivot_table('火热程度',index='歌手',aggfunc='count').sort_values(by='火热程度',ascending=false).reset_index()
df=df.rename(columns={'火热程度':'上榜次数'})
df

这是全球最火的十大流行音乐歌手的排行。当然下面的图更直观：

#python学习群 592539176
#接上面的代码
plt.rcparams['font.sans-serif']=['simhei']
x=df['歌手']
y=df['上榜次数']

plt.figure(figsize=(12,4))
plt.bar(x,y,width=0.5,align='center')
plt.title('2019全球最火流行歌手排行榜',loc='left',size=15)

for a,b in zip(x,y):
    plt.text(a,b,b,ha='center',va='bottom',fontsize=12)#显示额度标签

plt.xlabel('歌手',size=15)
plt.ylabel('上榜次数',size=15)
plt.xticks(x,size=12,rotation=30)
plt.yticks(size=15,)
plt.grid(false)
sns.despine(left=false )
plt.show()

从上面的分析可以看到，ed sheeran这个人最厉害，15首最流行的歌，他一个人唱了四首，于是我百度了一下，想知道是何方神圣。最后发现就是这个人：

虽然长得确实其貌不扬，但是才华很棒，我听了一下，还蛮好听。

beautiful people (feat. khalid)

百度上说，这个人出生于1991年，今年刚结婚，英国的，2012年21岁的时候就在在第32届全英音乐奖中荣获英国最佳男艺人、英国最具突破艺人；2018年，获得第60届格莱美奖最佳流行歌手、最佳流行专辑奖。2019福布斯100名人榜排名第5位。

然而这么有名的人我竟然不认识，我好孤陋寡闻。

三、写在后面

数据分析其实是个很好玩的东西，平时的训练除了可以熟悉技能，其实还可以知道很多其他东西。

因为你每次做个案例，就相当于对某个领域做了一次了解，有时候还可以刷新自己的认知。

然后在做数据案例的时候，建议大家可以多找些自己感兴趣的数据源，悄悄告诉你，github上有很多。这个网站真的很神奇，不仅有数据源，还可以案例分析，还有源代码，有些你只要复制下来就可以直接用，非常方便。

好了，今天的分享就到这里，下次我们继续。

上一篇： Python 使用 prettytable 库打印表格（美化输出）

下一篇： STM32 hal库DMA中断实验