[python][pandas]DataFrame的基本操作

2022-12-02人工智能109

问题来源

在实验中经常需要将数据保存到易于查看的文件当中，由于大部分都是vector数据，所以选择pandas的dataframe来保存到csv文件是最简单的方法。

基本操作

下图是DataFrame的一些基本概念，可以看出与基本的csv结构是保持一致的。

[python][pandas]DataFrame的基本操作

1. 创建DataFrame

创建DataFrame通常有两种方法，从list中创建和从dict中创建:

从dict创建，key的名字会作为名，如下所示：

>>> d = {'col1': [1, 2], 'col2': [3, 4]}
>>> df = pd.DataFrame(data=d)
>>> df
   col1  col2
0     1     3
1     2     4

从list创建，列名会以[0,n]来显示：

>>> d = [2, 3, 4, 5]
>>> df = pd.DataFrame(data=d)
>>> df
  0
0 2
1 3
2 4
3 5

当然，您还可以指定列名：

[En]

Of course, you can also specify column names:

>>> df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
...                    columns=['a', 'b', 'c'])
>>> df2
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9

note:对于不带小数点的数字，df默认的datatype为int64,如果需要修改datatype，那么需要在创建的时候声明datatype:

>>> df = pd.DataFrame(data=d, dtype=np.int8)

2. 行列选择

行和列搜索，可以分为单行/列搜索和多行/列搜索，思路相同。

[En]

Row and column search, can be divided into single row / column search and multiple row / column search, the idea is the same.

单/多行查找是通过loc函数进行查找的，例子如下：

>>> data = pd.read_csv("nba.csv", index_col ="Name")
>>> data.loc["Avery Bradley"]) # 查找一行
>>> data.loc[["Avery Bradley","R.J. Hunter"]] #查找多行

需要注意的是，先对数据进行索引，默认的索引为[0,n]。

单/多列的查找更简单一些，可以直接使用下标的方式来进行查找，猜测在df内部存储的方式是以列优先的。例子如下：

>>> data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
      'Age':[27, 24, 22, 32],
      'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
      'Qualification':['Msc', 'MA', 'MCA', 'Phd']}
>>> df = pd.DataFrame(data)
>>> df['Name'] # 查找为Name一列的所有数据
>>> df[['Name','Address']] #查找Name和Address的数据

通过索引下标查找，通过数组下标来查找，可以通过iloc方法来查找，例子如下：

>>> data = pd.read_csv("nba.csv", index_col ="Name")
>>> row2 = data.iloc[3]  # 查找第4行
>>> row2 = data.iloc [[3, 5, 7]]  # 查找多行

查找分块矩阵类似于上诉方法，如下例所示：

[En]

Finding a chunked matrix is similar to the appeal method, as shown in the following example:

>>> data = pd.read_csv("nba.csv", index_col ="Name")
>>> row2 = data.iloc[[3, 4], [1, 2]]
>>> row2 = data.iloc [:, [1, 2]]

3. 调整行号

如果是使用dict生成的df，那么其对应的列的顺序是按照字母序进行排列的，这时需要进行按添加顺序进行排序。可以通过以下方式调整顺序：

>>> data = {'Name':['Jai', 'Princi', 'Gaurav', 'Anuj'],
      'Age':[27, 24, 22, 32],
      'Address':['Delhi', 'Kanpur', 'Allahabad', 'Kannauj'],
      'Qualification':['Msc', 'MA', 'MCA', 'Phd']}
>>> df = pd.DataFrame(data)
>>> df = df[['Name','Age','Address','Qualification']]

当然，也有一些要求，比如需要更改行号，将行号更改为日期，则可以使用以下方法：

[En]

Of course, there are some requirements, such as the need to change the line number, change the line number to a date, then you can use the following methods:

>>> df = pd.DataFrame(data)
>>> df.index = df.index + 1 #行号从1开始
>>> df.index = pd.date_range('20190101',periods=len(df))  #行号为日期

引用

[1]. https://www.geeksforgeeks.org/python-pandas-dataframe/

[2]. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

Original: https://www.cnblogs.com/wildkid1024/p/11093199.html
Author: wildkid1024
Title: [python][pandas]DataFrame的基本操作

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[python][pandas]DataFrame的基本操作

问题来源

基本操作

1. 创建DataFrame

2. 行列选择

3. 调整行号

引用

猿创征文｜时间序列分析算法之平稳时间序列预测算法和自回归模型(AR)详解+Python代码实现

logistic回归模型—基于R

环境混合物总体效应：加权分位数和回归（WQS）

数学建模学习：岭回归和lasso回归

R 计算均方差MSE(mean squared error)

python数据相关性绘图-散点图正态分布图回归图等及鸢尾花数据集可视化（附Python代码）

基于Lasso回归的实证分析（Python实现代码）

目标检测中边框回归的直观理解 bbox regression

通过R语言实现平稳时间序列的建模–基础（ARMA模型）

【sklearn使用】sklearn中调用R2（回归问题评价指标）的3种方式

【项目实战】Python实现GBDT(梯度提升树)回归模型(GradientBoostingRegressor算法)项目实战

机器学习算法系列（四）- 岭回归算法（Ridge Regression Algorithm）

stata基础–回归，画散点图，异质性分析

机器学习之分类回归树（CART）

机器学习基础：用 Lasso 做特征选择

利用lasso回归建立预测模型并绘制列线图二分类结局资料的lasso回归与列线图绘制

计量经济学笔记6-Eviews操作-自相关的检验与消除（DW、LM检验与FGLS、广义差分变换）

Pytorch：全连接神经网络-MLP回归

机器学习实验——回归预测算法

基于MATLAB的随机森林（RF）回归与变量影响程度（重要性）排序

机器学习算法、Python、数据分析、学习资料 & 面试大汇总（免费送）