pandasでデータの相関分析 Mac

統計の問題を Python で実際に計算してみる

[Python] pandasを使ってcsvファイルの読み込み

 

上記の記事を参考にして、試して見ます。

test.csv

95,-10,110
5,-40,108
60,5,100
100,-5,101
33,0,93
5,-10,91
0,0,88

 

sample.py

import pandas as pd
xxx = pd.read_csv('test.csv') #xxxは適当な変数

print (xxx) # 全カラムの出力

 

これでとりあえず実行してみる。

$ python sample.py 

    95  -10  110

0    5  -40  108

1   60    5  100

2  100   -5  101

3   33    0   93

4    5  -10   91

5    0    0   88

 test.csvのデータが出力された。

 

matplotlib をインストールする。

$ pip install matplotlib

 

色々と試してみた。

 

import seaborn as sns

import pandas as pd

import numpy as np

import matplotlib as mpl

import matplotlib.pyplot as plt

import scipy as sp

 

data = pd.read_csv("data2.csv", 

names=[

'Temp1', 'TempMax1', 'TempMin1', 'Rain1', 'Sun1', 'Wind1'

# 'Temp2', 'TempMax2', 'TempMin2', 'Rain2', 'Sun2', 'Wind2',

]

)

df2 = data.describe()

print(df2)

 

 

from pandas.tools.plotting import scatter_matrix

#plt.figure()

scatter_matrix(data)

plt.show()

plt.savefig("image.png")

 

# heat map

#sns.heatmap(sm)

 

 

df = data.corr()

 

print(df)

 

sns.heatmap(df,annot=True, fmt='.2f')

plt.show()

 

# 値を取り出す

temp = data.iloc[:,0].values

TMax = data.iloc[:,1].values

TMin = data.iloc[:,2].values

Rain = data.iloc[:,3].values

Sun  = data.iloc[:,4].values

Wind = data.iloc[:,5].values

 

# temp TMax の回帰式

slope, intercept, r_value, p_value, std_err = sp.stats.linregress(temp, TMax)

print(slope, intercept, r_value)

 

# temp Rain の回帰式

slope, intercept, r_value, p_value, std_err = sp.stats.linregress(temp, Rain)

print(slope, intercept, r_value)

 

気象庁ホームページから、気温などのデータを取得した。

気象庁|過去の気象データ・ダウンロード

 

f:id:marchantime:20180716211145p:plainf:id:marchantime:20180716211141p:plain