欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

利用python进行数据分析(O'Relly)学习笔记

程序员文章站 2022-04-14 13:33:16
利用python进行数据分析(O’Relly)学习笔记 1.第一个bug import pandas plot(arrange(10)) #报错name...

利用python进行数据分析(O’Relly)学习笔记

1.第一个bug

import pandas
plot(arrange(10))
#报错name 'plot' is not defined。
#加注%pylab解决
2.SPYDER快捷键

Ctrl + 1: 注释/反注释
Ctrl + 4/5: 块注释/块反注释
Ctrl + L: 跳转到行号
Tab/Shift + Tab: 代码缩进/反缩进
Ctrl +I:显示帮助
此外,#%%用于创建cell,便于程序测试

3.pandas入门知识

《10 Minutes to pandas》 Pandas的 loc iloc ix 区别 Pandas透视表(pivot_table)详解 利用python做数据分析(六)-reindex

4.bit.ly的1.usa.gov数据

清除变量 reset [y] 字典排序
sorted(counts.items(),key=lambda item:item[1],reverse=True)
argsort函数返回的是数组值从小到大的索引值

5.movielens的数据

 'Series' object has no attribute 'order'
 #python3.6下,Series的排序用.sort_values命令

6.numpy入门知识

numpy之转置(transpose)和轴对换

7. 第八章图形化显示海地地震危机数据

安装basemap包用的是conda install,安装了两次,第一次网络中断,第二次重新装就装好了。但是 import mpl_toolkits.basemap 报错找不到basemap包。检查了一下python27/mpl_toolkits文件夹下确实没有basemap文件夹,于是去anaconda2/pkgs/basemap/lib/mpl_toolkits文件夹下把basemap文件夹移动过去就不再报错了。
接下来在计算投影坐标时候出现runtime error,查了一下是pandas改了序列数据传递值的方式,把
m(cat_data.LONGITUDE,cat_data.LATITUDE) 改成
m(cat_data.LONGITUDE.values, cat_data.LATITUDE.values)就可以了。
具体的pandas说明文档如下:

+.. warning::
 +   In 0.13.0 since ``Series`` has internaly been refactored to no longer sub-class ``ndarray``
 +   but instead subclass ``NDFrame``, you can **not pass** a ``Series`` directly as a ``ndarray`` typed parameter
 +   to a cython function. Instead pass the actual ``ndarray`` using the ``.values`` attribute of the Series.
 +   Prior to 0.13.0
 +   .. code-block:: python
 +        apply_integrate_f(df['a'], df['b'], df['N'])
 +   Use ``.values`` to get the underlying ``ndarray``
 +   .. code-block:: python
 +        apply_integrate_f(df['a'].values, df['b'].values, df['N'].values)