Pandas的下载
控制台中输入命令:pip install pandas进行下载pandas
pandas下载成功后,会出现上述界面
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数
pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能
Series
Series是一种类似于一维数组的对象,由数据(各种NumPy数据 类型)以及与之相关的数据标签(即索引)组成
可以通过字典构建Series对象,Series对象的索引也是可以修改的
举例:
import pandas as pd
data = [1, 2, 3]
series1 = pd.Series(data=data)
print(series1, type(series1))
# 获取下标为0的数据
print(series1[0])
print(">" * 70)
# 通过字典创建series
data1 = {1: "java", 2: "python", 3: "scala"}
series2 = pd.Series(data=data1)
print(series2, type(series2))
# 根据key值进行获取数据
print("根据key值获取数据:"+series2[2])
print(">" * 70)
# 创建series给定下标 根据给定key值进行创建
series3=pd.Series(data=data1, index=[2, 3])
print(series3)
结果:
相关函数:获取最大值与获取最小值:series1.max();series1.min()
结果:
DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每 列可以是不同的值类型(数值、字符串、布尔值等)
DataFrame既有行索引也有列索引,可以看做由Series组成的字典
DataFrame的创建
DataFrame的创建可以通过字典创建,也可以通过列表创建,在使用列表创建时,默认情况下输出的列名称为数字顺序,可以在创建时加入设置列名称:columns=... ...
# 创建dataframe,通过字典创建
data2 = {
"Language": ["Python", "java", "scala", "sql"],
"application": ["pyspark", "hadoop", "spark", "hive"]
}
df = pd.DataFrame(data=data2)
print(df)
# 通过列表创建,可以增加列名称
data3 = [["java", "1"], ["Python", "2"], ["scala", "3"]]
df2 = pd.DataFrame(data=data3, columns=["Language", "Number"])
print(df2)
结果:
当dataframe中只有一列数据时,仍然表示的是一个dataframe,而不是series
data4=[[10],[20],[30]]
df3=pd.DataFrame(data4)
print(df3,type(df3))
删除操作:
使用 Drop方法进行删除操作
格式:DataFrame.drop(labels=["行/列名称"],axis=0:表示行/1:表示列)
当想要进行删除操作时,需要指定删除的是行数据还是列数据
这里的指定有一个变量axis,若在进行删除操作时,不加axis的值,axis默认为0,表示删除行数据
但是这里进行删除后的dataframe是一个新的dataframe,若想使被删除的原dataframe在删除后变为删除后的表,需要使用 inplace方法进行替换
格式:DataFrame.drop(labels=["行/列名称"],axis=0:表示行/1:表示列,inplace=True)
这里的inplace默认为False
# 删除df2中的列数据Number
df4=df2.drop(labels=["Number"], axis=1)
print(df4)
# 这里删除后的数据存到了df4中,df2中并未被删除
#使用inplace使df2中数据也被删除
print(">" * 70)
df2.drop(labels=["Number"], axis=1, inplace=True)
print(df2)
结果:
获取操作:
dataframe中进行获取数据时,有多种获取数据的方法
获取列数据:
1、通过key(列)获取数据
2、通过.+列名称进行获取
获取行数据:
1、通过dataframe.loc[index(行下标)]进行获取固定下标的一行数据
2、通过dataframe.head()进行从前获取5行数据
3、通过dataframe.tail()进行从后获取5行的数据
举例:
# 获取数据,通过key(列)进行获取
print(">" * 70)
print(df["application"], type(df["application"]))
# 通过.列名称获取
print(df.application,type(df.application))
data5 = {
"Language": ["A", "B", "C", "D", "E", "F", "G"],
"words": ["a", "b", "c", "d", "e", "f", "g"]
}
df5 = pd.DataFrame(data5)
print(df5.loc[2]) # 获取下标为2的数据
print(df5.head()) # 获取前5行数据
print(df5.tail()) # 获取后5行数据
获取列数据结果:
根据结果得出: 通过列进行取值后,取出的数据为一个Series
获取行数据结果:
根据结果得出: 通过行获取的数据,是一个DataFrame
根据具体条件获取数据
创建一个DataFrame,从其中获取到年龄小于18的学生信息
# 创建一个学生DataFrame
data6 = {
"name": ["张同学", "李同学", "王同学"],
"age": [17, 19, 16]
}
df6 = pd.DataFrame(data=data6)
print(df6)
# 获取年龄小于18的结果
print("----获取年龄小于18的结果----")
print(df6["age"] < 18)
# 进一步获取年龄小于18的同学的信息
print("----进一步获取年龄小于18的同学的信息----")
print(df6[df6["age"] < 18])
结果:
使用describe可以针对Series或者DataFrame列进行计算汇总统计
对df6进行汇总统计:print(df6.describe())
数据1到3的内容表示他的四分位数
文件操作
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,常用的函数为read_csv和read_table
read_csv:从文件、URL、文件型对象中加载带分隔符 的数据。默认分隔符为逗号。
read_table:从文件、URL、文件型对象中加载带分隔 符的数据。默认分隔符为制表符("\t")
read_csv中可以指定name的值,即读取到的文件存入dataframe中的列名称,使用names=[... ...]
# 读取文件
df7 = pd.read_csv("D:\PyCharmProjects\day47\data\students.txt", names=["id", "name", "age", "gender", "clazz"])
print(df7)
print(df7.head())
结果:
read_csv/read_table常用参数介绍:
path :表示文件系统位置、URL、文件型对象的字符串
sep/delimiter:用于对行中个字段进行拆分的字符序列或正则表达式
header:用做列名的行号。默认为0(第一行),若无header行,设为None
names:用于结果的列名列表,结合header=None skiprows: 需要忽略的行数
na_values:一组用于替换NA的值
nrows:需要读取的行数(从文件开始处算起)
verbose:打印各种解析器信息,比如"非数值列中缺失值的数量"
encoding:用于unicode的文本格式编码。例如,"utf-8"表示用UTF-8 编码的文本
使用jupyter notebook完成文件相关操作
在控制台输入jupyter notebook启动jupyter,跳转页面至网页,没有跳转就手动点击网址跳转
在跳转后的网址中新建一个ipynb文件
点击该名称,可以重命名该文件,初次创建该文件时,文件名默认为Untitled
在jupyter下先导入pandas,再执行读取文件操作
取该文件前一百行数据
需求:统计各班级的人数
实现:
这里可以看见对该结果进行获取类型,发现是Series
想要将其转换为DataFrame需要加上命令:reset_index()
进一步改进,更改列名id为人数cnt,并将结果替换原来的clazz_num保存
以cnt的值从大到小实现排序:
读取成绩文件score.txt,设置列名
统计每个学生的总分并转换为DataFrame
更改列名称并替换:
将该成绩表与学生表相关联:
实现关联需要使用 merge方法
格式:左表.merge(右表,left_on="左表关联列",right_on="右表关联列",how='关联方式')
left_on表示左表中用来关联的列名称
right_on表示右表中用来关联的列名称
how表示用来关联的方式,类似于sql中连表联查中的左联右联和内联,这其中的关联方式有很多种:left,right,outer,inner,cross
改进:有关学生id出现了两个,删除其中一个student_id
统计每个班的前三名,先进行分组,然后使用rank函数进行排名操作,并且设置ascending=False
使连接后的表进行倒序排列
获取前三:使用first_rank
Original: https://blog.csdn.net/m0_64350718/article/details/123780035
Author: Tian-Ys
Title: Day47 Pandas数据分析
相关阅读
Title: ModuleNotFoundError: No module named ‘tensorflow‘
ModuleNotFoundError: No module named 'tensorflow'
ModuleNotFoundError: No module named 'tensorflow':
例如:在Jupyter Notebook或Pycharm中运行会诸如此类的报错
)
; 最直接的解决方案:
选择要删除的环境直接remove!按照下方链接教程一点点核对,重新安装环境
.
如果您了解正在配置的环境,并且坚信安装是正确的,请按照下一节中提供的步骤进行操作。[En]
If you know the environment you are configuring and firmly believe that the installation is correct, follow the steps provided in the next section.
如果是在 Jupyter Notebook 里报错
查看这里是否导入安装之前安装 tensorflow 的环境,没有的话先导入环境再切换到该环境
; 导入环境到 Jupyter Notebook
点击右上角的 New 选择 Terminal
输入以下指令进行环境添加操作:
首先查看已经安装环境列表
conda env list
然后根据自己实际情况结合下方代码编辑 环境名称 ,添加所需环境到 Jupyter Notebook 工作台
python -m ipykernel install --user --name **环境名称** --display-name "Python (环境名称)"
最后,回到自己代码的编辑页,对内核进行切换
还有一种比较小可能性是需要更新 Tensorflow 环境
首先查看已经安装环境列表
conda env list
然后根据自己实际情况,选择已经安装 TensorFlow 的环境
activate **环境名称**
输入以下指令更新 TensorFlow 版本
更新GPU版本
pip install --upgrade --ignore-installed tensorflow-gpu -i https://pypi.douban.com/simple
更新CPU版本
pip install --upgrade --ignore-installed tensorflow -i https://pypi.douban.com/simple
运行命令尝试解决
耐心等待安装完成,如果过慢,请切换其他源进行尝试,直接更换上述 https://pypi.douban.com/simple 部分即可)
阿里云
http://mirrors.aliyun.com/pypi/simple/
中国科技大学
https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣(douban)
http://pypi.douban.com/simple/
清华大学
https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术大学
http://pypi.mirrors.ustc.edu.cn/simple/
如果仍有红色错误报告,则简单粗暴地删除此环境!不需要更正错误报告,这太耗时了!
[En]
If there is still a red error report, simply and rudely delete this environment! It is not necessary to correct the error report, which is too time-consuming!
Original: https://blog.csdn.net/weixin_44161490/article/details/123560760
Author: CV刘昊然
Title: ModuleNotFoundError: No module named ‘tensorflow‘

第一章 | 加州房价数据集 | 端到端的机器学习 | 回归问题 | tensorflow2.6+sklearn | 学习笔记

层次聚类概述

tensorflow和numpy库中tensordot详解

电影音频自动剪辑语料

Android mediarecord: start failed: -38 麦克风通道被占用

基于 NCC/灰度信息 的模板匹配算法(QT + Opencv + C++),10ms内获取匹配结果,部分源码

风控必学|肘部法与客户分群——客户画像中的聚类与特征画像分析

【Computer Vision】基于卷积神经网络实现美食分类

在Windows下使用Nodist进行Node版本控制

添加metadata到tflite模型

K210(SiPEED MaixBit)MicroPython使用参考(四、孤立词语音识别)

马尔科夫链(Markov Chain, MC)算法详解及Python实现

安装NCCLmpirunhorovodnvidia-tensorflow(3090Ti)

Linear Algebra (一)
