32. ch03. pandas - 시각화 - 03. plot, line, bar, histogram - 35. ch03. pandas - 시각화 - 06. area, pie. scatter
32. ch03. pandas - 시각화 - 03. plot, line, bar, histogram
plot 일반 선그래프
df['분양가'].plot()
df['분양가'].plot(kind = 'line')
kind 옵션:
line: 선그래프
bar: 바 그래프
barh: 수평 바 그래프
hist: 히스토그램
kde: 커널 밀도 그래프
hexbin: 고밀도 산점도 그래프
box: 박스 플롯
area: 면적 그래프
pie: 파이 그래프
scatter: 산점도 그래프
1) line 그래프 : 데이터 연속적인 경우(ex. 주가 데이터)
df['분양가'].plot(kind = 'line')
df_seoul = df.loc[df['지역'] == '서울']
df_seoul_year = df_seoul.groupby('연도').mean()
df_seoul_year
>월 분양가
연도
2015 11.0 6201.000000
2016 6.5 6674.520833
2017 6.5 6658.729167
2018 6.5 7054.687500
2019 6.5 8735.083333
2020 1.5 9647.375000
df_seoul_year.plot(kind = 'line')
df_seoul_year['분양가'].plot(kind = 'line')
월은 필요없으니 분양가로만
2) bar그래프
그룹별로 비교할 때 유용
df.groupby('지역')['분양가'].mean()
df.groupby('지역')['분양가'].mean().plot(kind = 'bar') 가로
df.groupby('지역')['분양가'].mean().plot(kind = 'barh') 세로
3) 히스토그램(hist)
분포-빈도
가로측: 분포, 세로측: 빈도
df['분양가'].plot(kind = 'hist')
깍두기 모양으로.
33. ch03. pandas - 시각화 - 04. kde, hexbin
4) 커널 밀도 그래프
히스토그램과 유사. 밀도. 부드러운 라인.
df['분양가'].plot(kind = 'kde')
5) hexbin
고밀도 산점도 그래프.
x와 y값 넣어줘야 함. 육각형
numeric한 값. (문자열 포함된 데이터 안됨)
데이터의 밀도 추정.
df.plot(kind = 'hexbin', x='분양가', y='연도', gridsize=20)
사이즈까지 넣어줘서 크게 볼 수 있도록.
34. ch03. pandas - 시각화 - 05. boxplot
6) 박스 플롯 (box)
df_seoul = df.loc[df['지역'] == '서울'] 지역이 서울인 것들을 조건으로 넣어주고
df_seoul['분양가'].plot(kind = 'box') 분양가 기준으로 박스 형태로.
median 중앙값. 3rd quartile 박스의 상단 4/3 지점 위치한 곳. 1st quartile 4/1 지점
lower whisker 최소값 upper whisker 최대값
possible outliers
df_seoul.describe()
>연도 월 분양가
count 212.00000 212.000000 212.000000
mean 2017.45283 6.566038 7308.943396
std 1.31439 3.603629 1402.869496
min 2015.00000 1.000000 5061.000000
25% 2016.00000 3.000000 6519.750000
50% 2017.00000 7.000000 6895.500000
75% 2019.00000 10.000000 7732.000000
max 2020.00000 12.000000 13835.000000
IQR은 Inter Quantile Range의 약어로써, (3Q - 1Q) * 1.5
IQR = (7732 - 6519.75) * 1.5
75% 값 - 25% 값
IQR
>1818.375
## 박스 플롯 max
7732 + IQR
>9550.375
## 박스 플롯 min
6519.75 - IQR
>4701.375
극단적 값 outliner 배제하고 계산하는 경우
튀는 값들을 outliner라고 생각하면 됨
35. ch03. pandas - 시각화 - 06. area, pie. scatter
7) area plot
df.groupby('월')['분양가'].count().plot(kind='line')
df.groupby('월')['분양가'].count().plot(kind='plot')
area plot은 line 그래프에서 아래 area를 모두 색칠해준 형태
8) pit plot(파이 그래프)
데이터 점유율 보여줄 때 (액셀에서도 많이 활용)
df.groupby('연도')['분양가'].count().plot(kind = 'pie')
8) scatter plot(산점도 그래프)
점으로 데이터를 표기.
x, y 값 필요. (hexbin과 유사)
x축과 y축을 지정해주면 그에 맞는 데이터 분포도를 볼 수 있습니다.
역시 numeric 한 column 만 지정할 수 있습니다
df.plot(kind = 'scatter', x = '월', y = '분양가')
x축과 y축이 비례적인 데이터.
패스트캠퍼스 데이터분석 강의 링크
https://bit.ly/3imy2uN