매치 데이터 셋 from sklearn.metrics import classification_report, confusion_matrix from sklearn.model_selection import train_test_split #--------------------------------------------- from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import GradientBoostingClassifier from sklearn.linear_model import LogisticRegression from lightgbm..
라이엇 API 등록(210705 기준) 다양한 롤 데이터들을 지원해주니 API적극 사용 추천 주의 : API 일반 사용에는 데이터 통신에 제한(Limit)가 있으니 주의할 것. ※ 라이엇 API의 규정 및 웹에서 다루는 내용에는 따로 작성하지 않겠습니다. 데이터 수집 목표 : 챌린저, 그랜드마스터 경기 데이터 내용 수집 API내의 변수들을 분석해봤을 때, summonerId(소환사ID) -> accountId(계정ID) -> gameId(게임의 ID) // 흐름을 설명하자면 1. 챌린저, 그랜드마스터 등 게임내의 1~500위 까지 소환사닉네임의 ID를 추출한다. 2. 추출한 닉네임ID(닉네임이 아닙니다)를 변수 Input값으로 활용해 계정의 ID를 추출한다. 3. 해당 계정 ID들이 진행한 게임ID값들을..
실제 데이터를 활용한 EDA(Exploratory Data Analysis) ※ 수많은 양의 데이터를 한눈에 분석하기위한 방식이 필요. 사용 데이터 셋 sales_data : 한 브랜드의 2013.01 ~ 2015.10 까지 판매량을 조사한 데이터 1. 데이터 불러오기 import pandas as pd sales = pd.read_csv('sales.csv') 2. 먼저 데이터가 어떻게 구성되어 있는지 확인해보자 sales.info() sales.head() ※ 데이터의 유형에 맞게 Dtype을 변경해주는 작업도 필요하다. 해당 데이터 셋에서는 shop_id, item_id가 int 값이지만 범주형 데이터에 포함되어 평균, 최대값, 최빈값들이 의미가 없어 object로 변해도 무방하다. 3. 데이터 결..
Boxplot란? 데이터의 분포를 한 눈에 볼 수 있게 시각화하여 이상치(Outlier)등을 탐지할 수 있는 시각화 도구. median - 중앙값 IQR - 25% ~ 75%에 해당한 부분 75th Percentile - 제 3사분위수 25th Percentile - 제 1사분위수 Whisker - 최댓값, 최솟값 Outlier - 이상치 Median - 중앙값 데이터들을 정렬했을 때 중앙값 위치 선으로 표시 예를들어 데이터 [1, 5, 9, 10 ,15, 20, 34] 일 때, 중앙값은 10 # Numpy, pnadas, matplotlib 라이브러리 필요 import numpy as np import pandas as pd import matplotlib.pyplot as plt test = pd.D..