欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Github上Pandas,Numpy和 Scipy三个库中20个最常用的函数(1)

程序员文章站 2022-06-06 08:06:02
...

pandas

Github上Pandas,Numpy和 Scipy三个库中20个最常用的函数(1)
pandas.DataFrame data=None, index=None, columns=None, dtype=None, copy=False)
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
参数
- data:numpy ndarray (structured or homogeneous), dict, or DataFrame Dict can contain Series, arrays, constants, or list-like objects
- index:Index or array-like
Index to use for resulting frame. Will default to np.arange(n) if no indexing information part of input data and no index provided
- columns:Index or array-like
Column labels to use for resulting frame. Will default to np.arange(n) if no column labels are provided
- dtype:dtype, default None
Data type to force. Only a single dtype is allowed. If None, infer
- copy: boolean, default False
Copy data from inputs. Only affects DataFrame / 2d ndarray input

import pandas as pd
df = pd.DataFrame(data={'y':[1,2,3],
                        'score':[93.5,89.4,90.3],
'name':['Dirac','pauli','Bohr'],
'birthday':['1902-08-02','1963-02-01','1923-04-05']})
print(type(df))
print(df.dtypes)
print(df)
```运行结果





<div class="se-preview-section-delimiter"></div>

birthday object
name object
score float64
y int64
dtype: object
birthday name score y
0 1902-08-02 Dirac 93.5 1
1 1963-02-01 pauli 89.4 2
2 1923-04-05 Bohr 90.3 3
“`
2)pd.read_csv(filename):从CSV文件导入数据
读取CSV(逗号分割)文件到DataFrame
也支持文件的部分导入和选择迭代
未完

birthday     object
name         object
score       float64
y             int64
dtype: object
     birthday   name  score  y
0  1902-08-02  Dirac   93.5  1
1  1963-02-01  pauli   89.4  2
2  1923-04-05   Bohr   90.3  3

**pd.read_csv**(filename):从CSV文件导入数据
读取CSV(逗号分割)文件到DataFrame
也支持文件的部分导入和选择

pd.Series (data, index=index)是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
这里,data指代许多不同的数据类型:

  • a Python dict
  • an ndarray
  • a Python list
  • a scalar value

In [2]: obj = Series([4, 7, -5, 3])
In [3]: obj
Out[3]:
0    4
1    7
2   -5
3    3
dtype: int64

pd.concatt(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False)
参数说明

  • objs: series,dataframe或者是panel构成的序列lsit
  • axis: 需要合并链接的轴,0是行,1是列
  • join:连接的方式 inner,或者outer

pd.to_datetime

  1. 获取指定的时间和日期
  2. 将str和unicode转化为时间格式
import pandas as pd
print(pd.to_datetime('2018/04/03',format='%Y/%m/%d'))
#2018-04-03 00:00:00

pd.merge
pd.date_range
pd.read_table
pd.util.testing
pd.isnull
pd.DatatimeIndex
pd.Index
pd.read_excel
pd.notnull
pd.DataFrame.from_csv
pd.HDFStore
pd.DataFrame.from_records
pd.MultiIndex.from_tuples

Numpy

Github上Pandas,Numpy和 Scipy三个库中20个最常用的函数(1)
np.array
np.zeros
np.arange
np.sqrt
np.ones
np.sum
np.mean
np.linspace
np.asarray
np.ndarray
np.dot
np.exp
np.abs
np.where
np.empty
np.max
np.concatenate
np.log
np.sin
np.vstack

scipy

Github上Pandas,Numpy和 Scipy三个库中20个最常用的函数(1)
sp.stats
sp.sparse
sp.optimize
sp.io
sp.linalg
sp.interpolate
sp.special
sp.singal
sp.ndimage
sp.misc
sp.integrate
sp.sparse.linalg
sp.spatial.distance
sp.spatial
sp.io.loadmat
sp.sparse.csr_matrix
sp.org
sp.csr_matrix
sp.array
sp.issparse