Pandas 多层级索引 Python 数据处理案例指南

人工智能57

今天我们来聊一下 Pandas当中的数据集中带有多重索引的数据分析实战

我们通常接触到单层索引,而多级索引意味着数据集中有多个级别的行索引,如下图所示

[En]

Usually we come into contact with single-tier indexes, and multi-level indexes mean that there are multiple levels of row indexes in the dataset, as shown in the following figure

Pandas 多层级索引 Python 数据处理案例指南

; 导入数据

我们先导入数据与 pandas模块

import pandas as pd

df = pd.read_csv('dataset.csv')
df.head()

output

Pandas 多层级索引 Python 数据处理案例指南

该数据集描述的是 英国部分城市在2019年7月1日至7月4日期间的全天天气状况,我们先来看一下当前的数据集的行索引有哪些?代码如下

df.index.names

output

FrozenList(['City', 'Date'])

数据集当中 CityDate,这里的 City我们可以当作是 第一层级索引,而 Date则是 第二层级索引

我们也可以通过调用 sort_index()方法来按照数据集的行索引来进行排序,代码如下

df_1 = df.sort_index()
df_1

output

Pandas 多层级索引 Python 数据处理案例指南

要是我们想将这个多层索引去除掉,就调用 reset_index()方法,代码如下

df.reset_index()

下面我们就开始针对多层索引来对数据集进行一些分析的实战吧

第一层级的数据筛选

pandas当中数据筛选的方法,一般我们是调用 loc以及 iloc方法,同样地,在多层级索引的数据集当中数据的筛选也是调用该两种方法,例如筛选出伦敦白天的天气状况如何,代码如下

df_1.loc['London' , 'Day']

output

Pandas 多层级索引 Python 数据处理案例指南

要是我们想针对所有的行,就可以这么来做

df_1.loc[:, 'Day']

output

Pandas 多层级索引 Python 数据处理案例指南

同理针对所有的列,就可以这么来做

df_1.loc['London' , :]

output

Pandas 多层级索引 Python 数据处理案例指南

多层级索引的数据筛选

要是我们想看伦敦2019年7月1日白天的天气状况,就可以这么来做

df.loc['London', 'Day'].loc['2019-07-01']

output

Weather               Shower
Wind               SW 16 mph
Max Temperature           28
Name: 2019-07-01, dtype: object

这里我们进行了两次数据筛选的操作,先是 df.loc['London', 'Day'],然后再此的基础之上再进行 loc['2019-07-01']操作,当然还有更加方便的步骤,代码如下

df.loc[('London', '2019-07-01'), 'Day']

output

Weather               Shower
Wind               SW 16 mph
Max Temperature           28
Name: 2019-07-01, dtype: object

除此之外我们要是想看一下伦敦2019年7月1日和7月2日两天白天的天气情况,就可以这么来做

df.loc[
    ('London' , ['2019-07-01','2019-07-02'] ) ,
    'Day'
]

output

Pandas 多层级索引 Python 数据处理案例指南

在此基础上,我们要查看天气和风速列,也可以分别提取它们,代码如下

[En]

On this basis, we want to look at the weather and wind speed columns, we can also extract them separately, the code is as follows

df.loc[
    'London' ,
    ('Day', ['Weather', 'Wind'])
]

output

Pandas 多层级索引 Python 数据处理案例指南

按照范围来筛选数据

对于第一层级的索引而言,我们同样还是调用 loc方法来实现

df.loc[
    'Cambridge':'Oxford',
    'Day'
]

output

Pandas 多层级索引 Python 数据处理案例指南

但是对于第二层级的索引,要是用同样的方式来用就会报错,

df.loc[
    ('London', '2019-07-01': '2019-07-03'),
    'Day'
]

output

SyntaxError: invalid syntax (<ipython-input-22-176180497f92>, line 3)

正确的写法代码如下

df.loc[
    ('London','2019-07-01'):('London','2019-07-03'),
    'Day'
]

output

Pandas 多层级索引 Python 数据处理案例指南

筛选出所有全部的内容

对于单层索引而言,我们通过 :来筛选出所有的内容,但是在多层级的索引上面则并不适用,


df.loc[
    ('London', :),
    'Day'
]

df.loc[
    (: , '2019-07-04'),
    'Day'
]

正确的做法如下所示


df.loc[
    ('London', slice(None)),
    'Day'
]

output

Pandas 多层级索引 Python 数据处理案例指南


df.loc[
    (slice(None) , '2019-07-04'),
    'Day'
]

output

Pandas 多层级索引 Python 数据处理案例指南

当然这里还有更加简便的方法,我们通过调用 pandas当中 IndexSlice函数来实现,代码如下

from pandas import IndexSlice as idx
df.loc[
    idx[: , '2019-07-04'],
    'Day'
]

output

Pandas 多层级索引 Python 数据处理案例指南

又或者是

rows = idx[: , '2019-07-01']
cols = idx['Day' , ['Max Temperature','Weather']]
df.loc[rows, cols]

output

Pandas 多层级索引 Python 数据处理案例指南

xs() 方法的调用

对于多层级索引的数据集而言,调用 xs()方法能够更加方便地进行数据的筛选,例如我们想要筛选出日期是2019年7月4日的所有数据,代码如下

df.xs('2019-07-04', level='Date')

output

Pandas 多层级索引 Python 数据处理案例指南

我们需要在 level参数上指定是哪个标签,例如我们想要筛选出伦敦2019年7月4日全天的天气情况,代码如下

df.xs(('London', '2019-07-04'), level=['City','Date'])

output

Pandas 多层级索引 Python 数据处理案例指南

最后 xs方法可以和上面提到的 IndexSlice函数联用,针对多层级的数据集来进行数据的筛选,例如我们想要筛选出2019年7月2日至7月4日,伦敦全天的天气状况,代码如下

rows= (
    idx['2019-07-02':'2019-07-04'],
    'London'
)
df.xs(
    rows ,
    level = ['Date','City']
)

output

Pandas 多层级索引 Python 数据处理案例指南

推荐文章

技术交流

欢迎转载、收藏、有所收获点赞支持一下!

Pandas 多层级索引 Python 数据处理案例指南

目前开通了技术交流群,群友已超过 2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

  • 方式①、发送如下图片至微信,长按识别,后台回复:加群;
  • 方式②、添加微信号: dkl88191,备注:来自CSDN
  • 方式③、微信搜索公众号: Python学习与数据挖掘,后台回复:加群

Pandas 多层级索引 Python 数据处理案例指南

Original: https://blog.csdn.net/weixin_38037405/article/details/123477652
Author: Love Python数据挖掘
Title: Pandas 多层级索引 Python 数据处理案例指南



相关阅读

Title: TensorFlow实现条件批归一化(Conditional Batch Normalization)

Title: TensorFlow实现条件批归一化(Conditional Batch Normalization)

条件批归一化(Conditional Batch Normalization)

批归一化 (Batch Normalization, BN) 是深度学习中常用的网络训练技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中"梯度弥散"的问题,从而使得训练深层网络模型更加容易和稳定,所以目前 BN 已经成为几乎所有卷积神经网络的标配技巧了,简单回顾下批 BN 的方程式:
B N ( x ) = γ ( x − μ ( x ) σ ( x ) ) + β BN(x) = \gamma (\frac {x-\mu(x)}{\sigma(x)}) + \beta B N (x )=γ(σ(x )x −μ(x )​)+β
其中,均值 µ µµ 和标准差 σ σσ 是在 (N, H, W) 维度上进行计算的,每个规范化层只有一个仿射变换参数对 γ γγ 和 β ββ,它们是在训练时网络自己学习得到的。
但是在生成对抗网络 (Generative Adversarial Networks, GAN) 中使用 BN 会导致生成图片在一定程度上出现同质化的缺点。例如,在 CIFAR10 数据集中,有10类图片:6种是动物(分别为:鸟,猫,鹿,狗,青蛙和马),4种是交通工具(分别是:飞机,汽车,轮船和卡车)。显然,不同类别的图片在外观上看起来截然不同——交通往往具有坚硬而笔直的边缘,而动物倾向于具有弯曲的边缘和较柔和的纹理。
风格迁移中我们已经了解了,激活的统计数据决定了图像样式。因此,混合批统计信息可以创建看上去有点像动物同时也有点像交通工具(例如,汽车形状的猫)的图像。这是因为批归一化在由不同类别图片组成的整个批次中仅使用一个 γ \gamma γ 和一个 β \beta β。如果每种类别都有一个 γ \gamma γ 和一个 β \beta β,则该问题得以解决,而这正是条件批规范化的意义所在。每个类别有一个 γ \gamma γ 和一个 β \beta β,因此CIFAR10中的10个类别每层有10个 γ \gamma γ 和10个 β \beta β。

TensorFlow实现条件批归一化

现在,我们可以构造条件批处理规范化所需的变量,如下所示:

利用自定义层实现条件批归一化,首先创建所需变量:

class ConditionBatchNorm(Layer):
    def __init__(self, n_class=2, decay_rate=0.999, eps=1e-7):
        super(ConditionBatchNorm, self).__init__()
        self.n_class = n_class
        self.decay = decay_rate
        self.eps = 1e-5

    def build(self, input_shape):
        self.input_size = input_shape
        n, h, w, c = input_shape
        self.gamma = self.add_weight(shape=[self.n_class, c],
            initializer='zeros', trainable=True, name='gamma')
        self.moving_mean = self.add_weight(shape=[1, 1, 1, c],
            initializer='zeros', trainable=False, name='moving_mean')
        self.moving_var = self.add_weight(shape=[1, 1, 1, c],
            initializer='zeros', trainable=False, name='moving_var')

当运行条件批归一化时,为标签检索正确的 β \beta β 和 γ \gamma γ。这是使用 tf.gather(self.beta, labels) 完成的,它在概念上等效于 beta = self.beta[labels],如下所示:

    def call(self, x, labels, trainable=False):
        beta = tf.gather(self.beta, labels)
        beta = tf.expand_dims(beta, 1)
        gamma = tf.gather(self.gamma, labels)
        gamma = tf.expand_dims(gamma, 1)
        if training:
            mean, var = tf.nn.moments(x, axes=(0,1,2), keepdims=True)
            self.moving_mean.assign(self.decay * self.moving_mean + (1-self.decay)*mean)
            self.moving_var.assign(self.decay * self.moving_var + (1-self.decay)*var)
            output = tf.nn.batch_normalization(x, mean, var, beta, gamma, self.eps)
        else:
            output = tf.nn.batch_normalization(x, self.moving_mean, self.moving_var, beta, gamma, self.eps)
        return output

在残差块中应用条件批归一化

条件批处理标准化的使用方式与批处理标准化相同,作为示例,我们现在将条件批处理标准化添加到残差块中:

[En]

Conditional batch normalization is used in the same way as batch normalization, and as an example, we now add conditional batch normalization to the residual block:

class ResBlock(Layer):
    def build(self, input_shape):
        input_filter = input_shape[-1]
        self.conv_1 = Conv2D(self.filters, 3, padding='same', name='conv2d_1')
        self.conv_2 = Conv2D(self.filters, 3, padding='same', name='conv2d_2')
        self.cbn_1 = ConditionBatchNorm(self.n_class)
        self.cbn_2 = ConditionBatchNorm(self.n_class)
Self.Studed_skip=FALSE<details><summary>*<font color='gray'>[En]</font>*</summary>*<font color='gray'>Self.learned_skip = False</font>*</details>
        if self.filters != input_filter:
            self.learned_skip = True
            self.conv_3 = Conv2D(self.filters, 1, padding='same', name='conv2d_3')
            self.cbn_3 = ConditionBatchNorm(self.n_class)

以下是使用条件批归一化残差块的前向计算代码:

    def call(self, input_tensor, labels):
        x = self.conv_1(input_tensor)
        x = self.cbn_1(x, labels)
        x = tf.nn.leaky_relu(x, 0.2)
        x = self.conv_2(x)
        x = tf.cbn_2(x, labels)
        x = tf.nn.leaky_relu(x, 0.2)
        if self.learned_skip:
            skip = self.conv_3(input_tensor)
            skip = self.cbn_3(skip, labels)
            skip = tf.nn.leaky_relu(skip, 0.2)
        else:
            skip = input_tensor
        output = skip + x
        return output

Original: https://blog.csdn.net/LOVEmy134611/article/details/119114925
Author: 盼小辉丶
Title: TensorFlow实现条件批归一化(Conditional Batch Normalization)

Original: https://blog.csdn.net/LOVEmy134611/article/details/119114925
Author: 盼小辉丶
Title: TensorFlow实现条件批归一化(Conditional Batch Normalization)

相关文章
《Effective C++》阅读总结(三):资源管理 人工智能

《Effective C++》阅读总结(三):资源管理

第三章 资源管理 C++中的资源管理非常重要,在将资源加载到内存后,便可以使用资源了,当我们不再需要资源时,我们要保证其正确的释放,才能将其占用的内存空间归还给操作系统,不正确的释放很容易造成内存泄漏...
2021电赛F题数字识别和巡线部分 人工智能

2021电赛F题数字识别和巡线部分

文章之前12月发了一次,但是我后来申请的免毕设后,用到了一些文字,所以删了这篇文章,但是还是查重了,于是我把一些程序讲解先删了,等毕设结束后再编辑加上。 这次电赛我没有准备多少东西,只提前准备了图像识...
Self-attention算法 人工智能

Self-attention算法

一、Vector Set as Input 1、文字处理: 在文字处理中,我们的input是一个句子(不同的句子或者词汇着不同的长度)我们可以将句子中的每个词汇描绘成一个vector,这样我们将文字的...
每周汇报 - 树叶的图像分类 人工智能

每周汇报 – 树叶的图像分类

数据集 图片简介 这项任务是预测树叶图像的类别。 该数据集包含176个类别,18353幅图像。 每个类别至少有50幅图像用于训练。 图片样品 代码实现 引入相关类库 import pandas as ...