본문 바로가기

카테고리 없음

[패스트캠퍼스 수강 후기] 데이터분석 인강 100% 환급 챌린지 14회차 미션

32. ch03. pandas - 시각화 - 03. plot, line, bar, histogram - 35. ch03. pandas - 시각화 - 06. area, pie. scatter


32. ch03. pandas - 시각화 - 03. plot, line, bar, histogram

plot 일반 선그래프

df['분양가'].plot()

df['분양가'].plot(kind = 'line')

kind 옵션:

line: 선그래프
bar: 바 그래프
barh: 수평 바 그래프
hist: 히스토그램
kde: 커널 밀도 그래프
hexbin: 고밀도 산점도 그래프
box: 박스 플롯
area: 면적 그래프
pie: 파이 그래프
scatter: 산점도 그래프


1) line 그래프 : 데이터 연속적인 경우(ex. 주가 데이터)

df['분양가'].plot(kind = 'line')


df_seoul = df.loc[df['지역'] == '서울']



df_seoul_year = df_seoul.groupby('연도').mean()

df_seoul_year
>월 분양가
연도
2015 11.0 6201.000000
2016 6.5 6674.520833
2017 6.5 6658.729167
2018 6.5 7054.687500
2019 6.5 8735.083333
2020 1.5 9647.375000


df_seoul_year.plot(kind = 'line')

df_seoul_year['분양가'].plot(kind = 'line')
월은 필요없으니 분양가로만

2) bar그래프

그룹별로 비교할 때 유용

df.groupby('지역')['분양가'].mean()
df.groupby('지역')['분양가'].mean().plot(kind = 'bar') 가로

df.groupby('지역')['분양가'].mean().plot(kind = 'barh') 세로

3) 히스토그램(hist)

분포-빈도
가로측: 분포, 세로측: 빈도

df['분양가'].plot(kind = 'hist')
깍두기 모양으로.


33. ch03. pandas - 시각화 - 04. kde, hexbin

4) 커널 밀도 그래프
히스토그램과 유사. 밀도. 부드러운 라인.

df['분양가'].plot(kind = 'kde')

5) hexbin

고밀도 산점도 그래프.
x와 y값 넣어줘야 함. 육각형
numeric한 값. (문자열 포함된 데이터 안됨)
데이터의 밀도 추정.

df.plot(kind = 'hexbin', x='분양가', y='연도', gridsize=20)
사이즈까지 넣어줘서 크게 볼 수 있도록.


34. ch03. pandas - 시각화 - 05. boxplot


6) 박스 플롯 (box)

df_seoul = df.loc[df['지역'] == '서울'] 지역이 서울인 것들을 조건으로 넣어주고

df_seoul['분양가'].plot(kind = 'box') 분양가 기준으로 박스 형태로.

median 중앙값. 3rd quartile 박스의 상단 4/3 지점 위치한 곳. 1st quartile 4/1 지점
lower whisker 최소값 upper whisker 최대값

possible outliers


df_seoul.describe()
>연도 월 분양가
count 212.00000 212.000000 212.000000
mean 2017.45283 6.566038 7308.943396
std 1.31439 3.603629 1402.869496
min 2015.00000 1.000000 5061.000000
25% 2016.00000 3.000000 6519.750000
50% 2017.00000 7.000000 6895.500000
75% 2019.00000 10.000000 7732.000000
max 2020.00000 12.000000 13835.000000

IQR은 Inter Quantile Range의 약어로써, (3Q - 1Q) * 1.5


IQR = (7732 - 6519.75) * 1.5
75% 값 - 25% 값
IQR
>1818.375

## 박스 플롯 max
7732 + IQR
>9550.375

## 박스 플롯 min
6519.75 - IQR
>4701.375

극단적 값 outliner 배제하고 계산하는 경우
튀는 값들을 outliner라고 생각하면 됨



35. ch03. pandas - 시각화 - 06. area, pie. scatter

7) area plot

df.groupby('월')['분양가'].count().plot(kind='line')
df.groupby('월')['분양가'].count().plot(kind='plot')

area plot은 line 그래프에서 아래 area를 모두 색칠해준 형태

8) pit plot(파이 그래프)
데이터 점유율 보여줄 때 (액셀에서도 많이 활용)

df.groupby('연도')['분양가'].count().plot(kind = 'pie')


8) scatter plot(산점도 그래프)

점으로 데이터를 표기.
x, y 값 필요. (hexbin과 유사)
x축과 y축을 지정해주면 그에 맞는 데이터 분포도를 볼 수 있습니다.
역시 numeric 한 column 만 지정할 수 있습니다

df.plot(kind = 'scatter', x = '월', y = '분양가')

x축과 y축이 비례적인 데이터.



 패스트캠퍼스 데이터분석 강의 링크
https://bit.ly/3imy2uN