一、替换操作(replace)
- 替换操作可以同步作用与Series和DataFrame中
df.replace(to_replace , value , replace , ...) #将所有 to_replace 替换成value
df.replace(to_replace={4:5},value='five' ) #将指定列 的元素进行替换,re_place{列索引:被替换的值}
df.replace(to_replace={1:'one'} ) #字典形式的替换,将1替换成'One'
二、映射操作(map)
- 概念:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定(给一个元素值提供不同的表现形式)——字典形式的映射关系表
- 创建一个df,两列分别是姓名和薪资,然后给其名字起对应的英文名
Series_data. map( dic) #只能给Series数据进行映射(dic)
map只能是Series的方法,只能被Series调用
三、运算工具(map)
- 需求:超过3000部分的钱需要缴纳50%的税,计算每个人的税后薪资
四、排序实现的随机抽样
take([隐式索引],axis=1) #将原始数据按隐式索引打乱(列打乱)
np.random.permutation(n) #产生0~n的随机数
- 将原始数据的列打乱(axis=1)
- 在此基础上将原始数据的行进行打乱(axis=0)
- 随机取样
五、数据的分类处理
- 数据分类处理的核心
- groupby(by , )函数
- groups属性查看分组情况
原始数据:
- 对原始数据的水果进行分类并查看分组情况
- 为什么要进行分组呢? 为了进行聚合【分组聚合】——计算每一种说过的平均价格
- 将计算出的每种颜色的平均重量汇总到源数据,需要用到映射——map(dic),字典数据。
六、高级数据聚合
当我们分好组之后,想进行一个聚合操作,但是这个聚合操作并没有被pandas封装,那么就需要我们自己封装一个聚合操作,例如mean()。
- transform( ) #返回映射后的结果
- apply( ) #返回没有映射的结果
七、数据加载
-
读取type-.txt文件
-
将文件中每一个词作为元素存放到DataFrame中
-
读取数据库中的数据
八、透视表
- 透视表是一种可以对数据动态排列并且 分类汇总 的表格格式。在Excel中常用,而在pandas中被称作pivot_table。
- 透视表优点:
- 灵活性高,可以随意定制你的分析计算要求
- 脉络清晰易于理解数据
-
操作性强,报表神器
-
导入数据
- 参数index
- 参数values
- 参数aggfunc
- 参数columns
九、交叉表
- 是一种用于计算分组的特殊透视表,对数据进行汇总
- pd.crosstab(index,columns)
- index:分组数据,交叉表的行索引
-
columns:交叉表的列索引
-
原始数据
- 求出各个性别(列)抽烟(行)的人数
- 求出各个年龄段(行)抽烟(列)人的情况
Original: https://blog.csdn.net/S1406793/article/details/123497393
Author: S1406793
Title: 数据分析---pandas的高级操作
相关文章

中科院冯洋| Prefix-to-Prefix生成:进展、挑战与展望
【专栏:研究思路】序列到序列生成是目前NLP领域生成任务的主流模型,主要应用于机器翻译、语音识别、序列标注等任务上。然而,这需要源序列是完整的,在同声传译、流式语音识别等现实场景中不能够适用。因此,根...

《知识图谱从入门到实践》05 基于Pyltp依存句法分析获取文本关系
目录 书山有路勤为径,学海无涯苦作舟 一、安装Pyltp 二、依存句法分析获取文本关系 * 2.1 对文本进行分词 2.2 词性标注 2.3 依存句法分析 2.4 角色语义标注 2.5 构建每个词语维...

padding(卷积中的填充)
文章目录 * - 情景(步长s为1): - 另外一种情景(步长不为1): - 卷积存在问题 - 填充 - Valid卷积 - Same卷积(一般用在s=1情况) - + * s=1情况 * s !=1...

CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING
Abstract & Introduction & Related Work 研究任务 AAC(自动音频字幕) 已有方法和相关工作 面临挑战 创新思路 使用预训练模型,seq2seq模...

同时安装 Tensorflow&Pytorch
Pytorch 与 Tensorflow 可一同安装,但需要注意版本对应问题,找到一个两者都能用的CUDA号, 如:CUAD 11.0; Pytorch v1.7.1; tensorflow_gpu-...

Tensorflow模型保存、加载和fine-tune
1.保存文件说明 Tensorflow模型主要包含网络的设计(图)和训练好的各参数的值等。所以,Tensorflow模型有两个主要的 文件: 1) graph.pbtxt:这其实是一个文本文件,保存了...

《Nuitka打包教程》自定义导入包
抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。 Original: https://blog.cs...

Pandas 库之 DataFrame
1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种 二维表。 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(当然matl...

《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析
一、使用说明 1.1 描述 训练三音素模型。与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定。 steps/deltas.sh Usage: steps/train_deltas....

【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介
【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介 概述 词向量维度 Word2Vec * CBOW 模型 Skip-Gram 模型 负采样模型 词向量的训练过程 * 1. 初始化词...

OpenCV笔记整理【模板匹配】
1. 模板匹配 模板匹配就是在图像A中寻找与图像B最相似的部分,一般将图像A称为输入图像,图像B称为模板图像。操作方式是B在A图像上从左到右自上而下滑动,遍历所有的像素。 模板匹配函数: result...

【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review
Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录 * - 管道 - 语义模型 * 1.召回 * - ...

scipy之傅里叶变换
导读 关于 傅里叶变换想必大家应该都不陌生吧?在 信...

2021-07-12 在 GeForce RTX 3090上配置深度学习环境 cuda 11.1 + tensorflow2.5.0 + python3.8.3
本博客配置成功的环境已经导出 至 https://download.csdn.net/download/Julse/20687132?spm=1001.2014.3001.5501 文章目录 成功安装...

项目实训第一周(车道线检测)
项目实训我主要负责计算机视觉方面,识别出车道线并据此导航。相关内容也更新在我的个人博客上个人网站 相关介绍 车道线检测如果用传统方法,识别速度较慢,效果不够好,容易受到多种因素的干扰,因此我们打算开发...