欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

《利用python进行数据分析 第二版》——第一章 准备工作

程序员文章站 2022-04-09 19:00:45
《利用python进行数据分析 第二版》——第一章 准备工作 学习笔记 ......

第一章 准备工作

    本书的数据主要指的是结构化数据(structured data),代指了所有通用格式的数据。 也可以将数据集的特征提取为某种结构化形式。例如一组新闻文章可以被处理为一张词频表,而这张词频表可以用于情感分析。 

    numpy是python科学计算的基础包,除了为python提供快速的数组处理能力,numpy在数据分析方面还有另一个主要作用,即作为在算法之间传递数据的容器。python之所以能在科学计算上独领风骚很大程度上就是因为这个库。它还影响了另一个很有名的深度学习库, pytorch 

 

    pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。

    matplotlib是最流行的用于绘制数据图表的python库,非常适合创建出版物上用的图表,和ipython结合得很好

    ipython是python科学计算标准工具集的组成部分,它为交互式和探索式计算提供了一个强健而高效的环境

    scipy是一组专门解决科学计算中各种标准问题域的包的集合,包括以下包:

  • sicpy.integrate:数值积分例程和微分方程求解器
  • scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能
  • scipy.optimize:函数优化器(最小化器)及根查找算法
  • scipy.signal:信号处理工具
  • scipy.sparse:稀疏矩阵和稀疏线性系统求解器
  • scipy.special:specfun(这是一个实现了许多常用数学函数的fortran库)
  • scipy.stats:标准连续和离散概率分布、各种统计检验方法,以及更好的描述统计法
  • scipy.weave:利用内联c++代码加速数组计算的工具

    numpy和scipy的有机结合完全可以代替matlab的计算功能(包括插件工具箱)

  scikit-learn项目(http://scikit-learn.org)是目前python编程者首选的机器学习工具包,其包含了以下子模块

  • 分类:svm、最邻近、随机森林、逻辑回归等
  • 回归:lasso、岭回归等
  • 聚类:k-means、谱聚类
  • 降维:pca、特征选择、矩阵分析等
  • 模型选择:网格搜索、交叉验证、指标矩阵
  • 预处理:特征提取、正态化

   statsmodels(http://statsmodels.org)是一个统计分析包,其包含了经典的(高频词汇)统计学、经济学算法。statsmodels更专注于统计推理,提供不确定性评价和p值参数。相反,scikit-learn更专注于预测

   python社区已经广泛接受了一些常用模块的命名惯例

1 import numpy as np
2 import pandas as pd 3 import matplotlib.pyplot as plt

    安装及更新python包

 

conda install package_name   #安装包
conda update package_name #更新包

 

      每年都有很多python编程者会议,可以去参加。很多会议为没有能力负担入场费或旅行费用的人士提供经济支持。

  • pycon和eurpython:北美和欧洲两大主要python会议
  • scipy和euroscipy:北美和欧洲面向科学计算的会议
  • pydata:全世界范围内一系列区域性的会议,主题为数据科学和数据分析用例
  • 国际和地区性的pycon会议(参见http://pycon.org上的列表)