pd.Categorical的应用
程序员文章站
2022-03-09 20:31:14
...
pd.Categorical的应用
pd.Categotical可以有效编码重复的文本数据,可以极大提高数据处理的性能。
pd.Categorical(values,categories=None,ordered=None,dtype=None,fastpath=False)
参数:
values:类似列表。分类变量的值,如果数据被赋予了类别,不在类别里的值会以NaN填充。
categories:类似索引,可选。此分类的唯一类别。如果没有给出,则假定类别是值的唯一值。
ordered:布尔值,(默认为False)。此分类是否被视为有序分类。如果没有给出,则不会订购生成的分类。
dtype:CategoricalDtype
,CategoricalDtype
用于此分类的实例
报错类型
ValueError :如果类别不验证。
TypeError:如果显示的给出了ordered=True
,但却未给出categories
且值不可排序。
属性
categories:索引,分类变量的类别。
codes:数组,该类别的代码。
ordered:布尔型,分类变量是否有序。
dtype :CategoricalDtype
,存储categories
和ordered
的分类类别实例。
实例
>>> pd.Categorical([1, 2, 3, 1, 2, 3])
[1, 2, 3, 1, 2, 3]
Categories (3, int64): [1, 2, 3]
>>> pd.Categorical(['a', 'b', 'c', 'a', 'b', 'c'])
[a, b, c, a, b, c]
Categories (3, object): [a, b, c]
通过特别的对类别排序,排序后的类别就会有大小之分。
>>> c = pd.Categorical(['a','b','c','a','b','c'], ordered=True,
... categories=['c', 'b', 'a'])
>>> c
[a, b, c, a, b, c]
Categories (3, object): [c < b < a]
>>> c.min()
'c'
上一篇: 第七十篇 数据处理与分析 Numpy
下一篇: 数据分析day1