《利用python进行数据分析第二版》——第一章准备工作

程序员文章站 2022-06-24 14:47:31

《利用python进行数据分析第二版》——第一章准备工作学习笔记 ......

第一章准备工作

本书的数据主要指的是结构化数据（structured data），代指了所有通用格式的数据。也可以将数据集的特征提取为某种结构化形式。例如一组新闻文章可以被处理为一张词频表，而这张词频表可以用于情感分析。

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。

matplotlib是最流行的用于绘制数据图表的python库，非常适合创建出版物上用的图表，和ipython结合得很好

ipython是python科学计算标准工具集的组成部分，它为交互式和探索式计算提供了一个强健而高效的环境

scipy是一组专门解决科学计算中各种标准问题域的包的集合，包括以下包：

numpy和scipy的有机结合完全可以代替matlab的计算功能（包括插件工具箱）

scikit-learn项目（http://scikit-learn.org）是目前python编程者首选的机器学习工具包,其包含了以下子模块

statsmodels(http://statsmodels.org)是一个统计分析包，其包含了经典的（高频词汇）统计学、经济学算法。statsmodels更专注于统计推理，提供不确定性评价和p值参数。相反，scikit-learn更专注于预测

python社区已经广泛接受了一些常用模块的命名惯例

1 import numpy as np
2 import pandas as pd
3 import matplotlib.pyplot as plt

安装及更新python包

conda install package_name   #安装包
conda update  package_name   #更新包

每年都有很多python编程者会议，可以去参加。很多会议为没有能力负担入场费或旅行费用的人士提供经济支持。