数据分析—pandas的高级操作

人工智能34

一、替换操作(replace)

  • 替换操作可以同步作用与Series和DataFrame中

df.replace(to_replace , value , replace , ...) #将所有 to_replace 替换成value
df.replace(to_replace={4:5},value='five' ) #将指定列 的元素进行替换,re_place{列索引:被替换的值}
df.replace(to_replace={1:'one'} ) #字典形式的替换,将1替换成'One'

二、映射操作(map)

  • 概念:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)——字典形式的映射关系表
  • 创建一个df,两列分别是姓名和薪资,然后给其名字起对应的英文名

Series_data. map( dic) #只能给Series数据进行映射(dic)
map只能是Series的方法,只能被Series调用

数据分析—pandas的高级操作

三、运算工具(map)

  • 需求:超过3000部分的钱需要缴纳50%的税,计算每个人的税后薪资

数据分析—pandas的高级操作

四、排序实现的随机抽样

take([隐式索引],axis=1) #将原始数据按隐式索引打乱(列打乱)
np.random.permutation(n) #产生0~n的随机数

  1. 将原始数据的列打乱(axis=1)

数据分析—pandas的高级操作数据分析—pandas的高级操作

  1. 在此基础上将原始数据的行进行打乱(axis=0)

数据分析—pandas的高级操作

  1. 随机取样

数据分析—pandas的高级操作

五、数据的分类处理

  • 数据分类处理的核心
  • groupby(by , )函数
  • groups属性查看分组情况

原始数据:数据分析—pandas的高级操作

  1. 对原始数据的水果进行分类并查看分组情况

数据分析—pandas的高级操作

  1. 为什么要进行分组呢? 为了进行聚合【分组聚合】——计算每一种说过的平均价格

数据分析—pandas的高级操作

  1. 将计算出的每种颜色的平均重量汇总到源数据,需要用到映射——map(dic),字典数据。

数据分析—pandas的高级操作

六、高级数据聚合

数据分析—pandas的高级操作

当我们分好组之后,想进行一个聚合操作,但是这个聚合操作并没有被pandas封装,那么就需要我们自己封装一个聚合操作,例如mean()。

  • transform( ) #返回映射后的结果
  • apply( ) #返回没有映射的结果

数据分析—pandas的高级操作

七、数据加载

  1. 读取type-.txt文件

  2. 将文件中每一个词作为元素存放到DataFrame中数据分析—pandas的高级操作

  3. 读取数据库中的数据

数据分析—pandas的高级操作

八、透视表

  • 透视表是一种可以对数据动态排列并且 分类汇总 的表格格式。在Excel中常用,而在pandas中被称作pivot_table。
  • 透视表优点:
  • 灵活性高,可以随意定制你的分析计算要求
  • 脉络清晰易于理解数据
  • 操作性强,报表神器

  • 导入数据

数据分析—pandas的高级操作

  1. 参数index

数据分析—pandas的高级操作

  1. 参数values

数据分析—pandas的高级操作

  1. 参数aggfunc

数据分析—pandas的高级操作

  1. 参数columns

数据分析—pandas的高级操作

九、交叉表

  • 是一种用于计算分组的特殊透视表,对数据进行汇总
  • pd.crosstab(index,columns)
  • index:分组数据,交叉表的行索引
  • columns:交叉表的列索引

  • 原始数据

数据分析—pandas的高级操作

  1. 求出各个性别(列)抽烟(行)的人数

数据分析—pandas的高级操作

  1. 求出各个年龄段(行)抽烟(列)人的情况

数据分析—pandas的高级操作

Original: https://blog.csdn.net/S1406793/article/details/123497393
Author: S1406793
Title: 数据分析---pandas的高级操作

相关文章
padding(卷积中的填充) 人工智能

padding(卷积中的填充)

文章目录 * - 情景(步长s为1): - 另外一种情景(步长不为1): - 卷积存在问题 - 填充 - Valid卷积 - Same卷积(一般用在s=1情况) - + * s=1情况 * s !=1...
Pandas 库之 DataFrame 人工智能

Pandas 库之 DataFrame

1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种 二维表。 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(当然matl...
OpenCV笔记整理【模板匹配】 人工智能

OpenCV笔记整理【模板匹配】

1. 模板匹配 模板匹配就是在图像A中寻找与图像B最相似的部分,一般将图像A称为输入图像,图像B称为模板图像。操作方式是B在A图像上从左到右自上而下滑动,遍历所有的像素。 模板匹配函数: result...
项目实训第一周(车道线检测) 人工智能

项目实训第一周(车道线检测)

项目实训我主要负责计算机视觉方面,识别出车道线并据此导航。相关内容也更新在我的个人博客上个人网站 相关介绍 车道线检测如果用传统方法,识别速度较慢,效果不够好,容易受到多种因素的干扰,因此我们打算开发...