Python 更快进行探索性数据分析的四个方法
大家好,常用探索性数据分析方法很多,比如常用的 pandas dataframe 方法有 .head()、.tail()、.info()、.describe()、.plot() 和 .value_counts()。
import pandas as pd import numpy as np df = pd.dataframe( { "student" : ["mike", "jack", "diana", "charles", "philipp", "charles", "kale", "jack"] , "city" : ["london", "london", "berlin", "london", "london", "berlin", "london", "berlin"] , "age" : [20, 40, 18, 24, 37, 40, 44, 20 ], "maths_score" : [84, 80, 50, 36, 44, 24, 41, 35], "science_score" : [66, 83, 51, 35, 43, 58, 71, 65]} ) df
在 pandas 中创建 groupby() 对象
在许多情况下,我们希望将数据集拆分为多个组并对这些组进行处理。 pandas 方法 groupby() 用于将 dataframe 中的数据分组。
与其一起使用 groupby() 和聚合方法,不如创建一个 groupby() 对象。 理想的情况是,我们可以在需要时直接使用此对象。
让我们根据列“city”将给定的 dataframe 分组
df_city_group = df.groupby("city")
我们创建一个对象 df_city_group,该对象可以与不同的聚合相结合,例如 min()、max()、mean()、describe() 和 count()。 一个例子如下所示。
要获取“city”是berlin的 dataframe 子集,只需使用方法 .get_group()
这不需要为每个组创建每个子 dataframe 的副本,比较节省内存。
另外,使用 .groupby() 进行切片比常规方法快 2 倍!!
使用 .nlargest()
通常,我们根据特定列的值了解 dataframe 的 top 3 或 top 5 数据。例如,从考试中获得前 3 名得分者或从数据集中获得前 5 名观看次数最多的电影。使用 pandas .nlargest() 是最简单的方式。
df.nlargest(n, column_name, keep = ‘first' )
使用 .nlargest() 方法,可以检索包含指定列的 top ‘n' 值的 dataframe 行。
在上面的示例中,让我们获取前 3 个“maths_score”的 dataframe 的行。
如果两个值之间存在联系,则可以修改附加参数和可选参数。 它需要值“first”、“last”和“all”来检索领带中的第一个、最后一个和所有值。这种方法的优点是,你不需要专门对 dataframe 进行排序。
使用 .nsmallest()
与top 3 或5 类似,有时我们也需要dataframe 中的last 5 条记录。例如,获得评分最低的 5 部电影或考试中得分最低的 5 名学生。使用 pandas .nsmallest() 是最简单的方式
df.nsmallestst(n, column_name, keep = ‘first' )
使用 .nsmallest() 方法,可以检索包含指定列的底部“n”个值的 dataframe 行。
在同一个示例中,让我们获取 dataframe“df”中“maths_score”最低的 3 行。
逻辑比较
比较运算符 <、>、<=、>=、==、!= 及其包装器 .lt()、.gt()、.le()、.ge()、.eq() 和 .ne() 分别在以下情况下非常方便将 dataframe 与基值进行比较,这种比较会产生一系列布尔值,这些值可用作以后的指标。
- 基于比较对 dataframe 进行切片
- 可以基于与值的比较从 dataframe 中提取子集。
- 根据两列的比较在现有 dataframe 中创建一个新列。
所有这些场景都在下面的示例中进行了解释
# 1. comparing the dataframe to a base value # selecting the columns with numerical values only df.iloc[:,2:5].gt(50) df.iloc[:,2:5].lt(50) # 2. slicing the dataframe based on comparison # df1 is subset of df when values in "maths_score" column are not equal or equal to '35' df1 = df[df["maths_score"].ne(35)] df2 = df[df["maths_score"].eq(35)] # 3. creating new column of true-false values by comparing two columns df["maths_student"] = df["maths_score"].ge(df["science_score"]) df["maths_student_1"] = df["science_score"].le(df["maths_score"])
总结
在使用 python 进行数据分析时,我发现这些方法非常方便,它确实让数据分析变得更快。欢迎大家尝试这些,如果你有那些更棒的方法,欢迎评论区留言!
技术交流
欢迎转载、收藏、有所收获点赞支持一下!
到此这篇关于python 更快进行探索性数据分析的四个方法的文章就介绍到这了,更多相关python 数据分析内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
推荐阅读
-
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
-
在Python的struct模块中进行数据格式转换的方法
-
从贵州茅台上市的第一天起,每天买一手茅台能够盈利多少?-利用python进行茅台股票数据分析
-
Python数据分析之双色球统计两个红和蓝球哪组合比例高的方法
-
Python数据分析之双色球统计单个红和蓝球哪个比例高的方法
-
Python使用pandas对数据进行差分运算的方法
-
Python3实现对列表按元组指定列进行排序的方法分析
-
Python数据分析之获取双色球历史信息的方法示例
-
Python数据分析matplotlib设置多个子图的间距方法
-
Python实现字典按照value进行排序的方法分析