pandas学习笔记

阅读数: 次 2021-09-26

pandas学习笔记

1.pandas是什么

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。
Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。
Pandas 名字衍生自术语 “panel data”（面板数据）和 “Python data analysis”（Python 数据分析）。
Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。
Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

2.pandas的应用

Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据），这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

3.pandas数据结构

Series 是一种类似于一维数组的对象，它由一组数据（各种Numpy数据类型）以及一组与之相关的数据标签（即索引）组成。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

4.pandas安装

pip install pandas

5.DataFrame

DataFrame 构造方法如下：

pandas.DataFrame( data, index, columns, dtype, copy)

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

Pandas DataFrame 是一个二维的数组结构，类似二维数组。

5.1 使用列表创建

import pandas as pd
data = [['HWb',22],['HJJ',22],['xxl',21]]
df = pd.DataFrame(data,columns=['name','Age'],dtype=float)
print(df)
  name   Age
0  HWb  22.0
1  HJJ  22.0
2  xxl  21.0

5.2 使用 ndarrays 创建

以下实例使用 ndarrays 创建，ndarray 的长度必须相同，如果传递了 index，则索引的长度应等于数组的长度。如果没有传递索引，则默认情况下，索引将是range(n)，其中n是数组长度。

import pandas as pd
data = {'name':['HWB', 'HJJ', 'XXL'], 'Age':[22, 18, 21]}
df = pd.DataFrame(data)
print (df)
  name  Age
0  HWB   22
1  HJJ   18
2  XXL   21

从以上输出结果可以知道， DataFrame 数据类型一个表格，包含 rows（行）和 columns（列）：

5.3 使用字典创建

还可以使用字典（key/value），其中字典的 key 为列名:

import pandas as pd
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print (df)
   a   b     c
0  1   2   NaN
1  5  10  20.0
没有对应的部分数据为 NaN。

6.DataFrame实例

# 创建一个符合正态分布的10个股票5天的涨跌幅数据
import numpy as py  # 导入numpy库缩写为py
import random  # 导入random库
stock_change = py.random.normal(0,1,(10,5))  # 随机生成10行5列平均值为0方差为1的正态分布
stock_change

array([[-1.06800116, -0.37443869, -1.23808272, -0.75406374, -0.50755135],
[-0.04029325,  0.30943342, -0.5650164 ,  0.80889311,  1.69124362],
[ 1.34404984,  0.86567577,  0.21049149, -0.62413927, -1.01411892],
[-0.91162311,  1.94650874, -0.76540775, -0.40466176,  1.82564254],
[ 1.1037756 , -1.44806443, -0.22655289, -0.27195686,  0.25442413],
[-0.24138772,  0.09097876,  0.25489516, -0.81538893, -0.23034344],
[ 0.47820904, -0.64306511, -0.73356056,  1.08312939,  0.73778542],
[-1.57577287,  0.13320064,  0.45175379, -0.87767146,  0.5910714 ],
[ 0.33857434, -1.32241751, -1.24833299,  3.38109839, -1.62391399],
[ 0.2793945 ,  1.17221319,  0.05353832, -0.13597506,  0.66324601]]

1 2	import pandas as pd # 导入pandas库 pd.DataFrame(stock_change) # 可以把DataFrame理解成有行列索引的adarray

# 添加行索引
stock = ['股票{}'.format(i) for i in range(10)]
pd.DataFrame(stock_change,index = stock)  #添加行索引index表示
date = pd.date_range(start = '20210101',periods = 5, freq='B')  # 从20210101开始生成5个日期
data = pd.DataFrame(stock_change, index = stock, columns=date)  #添加列索引 columns表示
data  # shape (10,5)

6.1 DataFrame属性

data.shape  # 形状
(10, 5)
data.index  # 行索引
Index(['股票0', '股票1', '股票2', '股票3', '股票4', '股票5', '股票6', '股票7', '股票8', '股票9'], dtype='object')
data.columns  # 列索引
DatetimeIndex(['2021-01-01', '2021-01-04', '2021-01-05', '2021-01-06','2021-01-07'],dtype='datetime64[ns]', freq='B')
data.values  # 值
data.T  # 转置
data.head(3)  # 取前三行，默认是前五行
data.tail(3)  # 取后三行，默认是后五行

6.2 修改行列索引

#不能单独修改某一索引，必须修改整体
stock_ = ['股票_{}'.format(i) for i in range(10)]  # 整体进行修改
data.index = stock_
# 重设索引
data.reset_index()  # drop值默认为False即不删除原来的行索引
data.reset_index(drop=True)  # 删除原来的行索引

7.Series

# 带索引的一维数组 只有行索引
# 属性： index ，values
sr = data.iloc[1,:]
2021-01-01   -0.040293
2021-01-04    0.309433
2021-01-05   -0.565016
2021-01-06    0.808893
2021-01-07    1.691244
Freq: B, Name: 股票_1, dtype: float64
# 创建Series指定内容
pd.Series(np.arange(3,9,2),index = ['a', 'b', 'c'])  # 指定索引为a，b，c
a    3
b    5
c    7
dtype: int32
# 利用字典创建Series
pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})
red        100
blue       200
green      500
yellow    1000
dtype: int64

8.基本的数据结构

1 2	data1 = pd.read_csv('stock_day.csv') # 导入文件 data1 = data1.drop(['ma5','ma10','ma20','v_ma5','v_ma10','v_ma20'], axis=1) # 删除列名为ma5...的数据

8.1 索引操作

# 直接进行索引（先列后行）
data1['open']['2018-02-26']
22.8
# 按名字进行索引  loc
data1.loc['2018-02-26']['open']  # 先行后列
22.8
data1.loc['2018-02-26','open']
22.8
# 按数字进行索引  iloc
data1.iloc[1,0]
22.8
# 使用ix组合索引：数字和名字   ix
# 获取行第1天到第4天，['open', 'close', 'high', 'low']这个四个指标的结果
data1.ix[:4, ['open', 'close', 'high', 'low']]
data1.loc[data1.index[:4],['open', 'close', 'high', 'low']]  # 全部用名字来索引

            open	close	high	low
2018-02-27	23.53	24.16	25.88	23.53
2018-02-26	22.80	23.53	23.78	22.80
2018-02-23	22.88	22.82	23.37	22.71
2018-02-22	22.25	22.28	22.76	22.02

8.2 赋值操作

1 2	# 索引然后赋值 data1.iloc[1,0] = 20

8.3 排序

# 1.对内容排序
data1.sort_values(by=['high', 'p_change'],ascending=False)   # 按照high字段进行从大到小进行排序如果相同则再比较P_change  ascending默认为True即从小到大

# 2.对索引排序
data1.sort_index().head()  # 按行日期进行从小到大排序

# 用Series进行排序
sr = data1['open']
sr.sort_index()  # 对索引排序
sr.sort_values()  # 对内容排序

8.4 算术运算

1
2
3

data1['open'] + 3
data1['open'].add(3)  # 一样的效果
data1 + 10  # 对DataFrame统一进行操作,所有数据都加10

8.5 逻辑运算

# 逻辑运算符 <,>,|,&
# 例如筛选p_change > 2的日期数据
data1['p_change'] > 2
# 完成一个多个逻辑判断， 筛选p_change > 2并且low > 15
(data1['p_change'] > 2) & (data1['low'] > 15)
# 逻辑运算函数
data1.query('p_change > 2 & low > 15')  # 更方便
# 判断'turnover'是否为4.19, 2.39
data1['turnover'].isin([4.19, 2.39])

8.6 统计运算

1 2	# max,min,mean,median,var,std data1.describe()

data1.max()  # 每列最大值
open                34.99
high                36.35
close               35.21
low                 34.01
volume          501915.41
price_change         3.03
p_change            10.03
turnover            12.56
dtype: float6
data1.mean()  # 平均值
data1.idxmax()  # 最大值所在的行索引

8.7 累计统计函数

1 2	# cumsum 累加函数 data1['p_change'].sort_index().cumsum().plot()

8.8 自定义运算

data1.apply(lambda x:x.max() - x.min())  # 设置最大值—最小值
open                22.74
high                23.68
close               22.85
low                 21.81
volume          500757.29
price_change         6.55
p_change            20.06
turnover            12.52
dtype: float64

9.pandas画图

1	data1.plot(x='turnover', y='volume',kind='scatter') # kind为图像类型

10.文件的读取与存储

1 2	sa = pd.read_json('Sarcasm_Headlines_Dataset.json', orient='records',lines='True') # 读取json文件 sa.to_json('test.json', orient='records',lines=True) # json文件的存储