'분류 전체보기' 카테고리의 글 목록 (13 Page)

#2-2 롤(LOL) 게임 데이터 요소를 이용한 승리예측 - [머신러닝 프로젝트]

2021.07.05

매치 데이터 셋 from sklearn.metrics import classification_report, confusion_matrix from sklearn.model_selection import train_test_split #--------------------------------------------- from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import GradientBoostingClassifier from sklearn.linear_model import LogisticRegression from lightgbm..

머신러닝/머신러닝 프로젝트

#2-1 롤(LOL) 라이엇 API사용하여 롤 데이터 크롤링(API사용) - [머신러닝 프로젝트]

2021.07.05

라이엇 API 등록(210705 기준) 다양한 롤 데이터들을 지원해주니 API적극 사용 추천 주의 : API 일반 사용에는 데이터 통신에 제한(Limit)가 있으니 주의할 것. ※ 라이엇 API의 규정 및 웹에서 다루는 내용에는 따로 작성하지 않겠습니다. 데이터 수집 목표 : 챌린저, 그랜드마스터 경기 데이터 내용 수집 API내의 변수들을 분석해봤을 때, summonerId(소환사ID) -> accountId(계정ID) -> gameId(게임의 ID) // 흐름을 설명하자면 1. 챌린저, 그랜드마스터 등 게임내의 1~500위 까지 소환사닉네임의 ID를 추출한다. 2. 추출한 닉네임ID(닉네임이 아닙니다)를 변수 Input값으로 활용해 계정의 ID를 추출한다. 3. 해당 계정 ID들이 진행한 게임ID값들을..

파이썬/데이터 전처리

Pandas를 이용한 데이터 전처리 및 분석 EDA(판매 데이터 활용) - [데이터 전처리]

2021.07.01

실제 데이터를 활용한 EDA(Exploratory Data Analysis) ※ 수많은 양의 데이터를 한눈에 분석하기위한 방식이 필요. 사용 데이터 셋 sales_data : 한 브랜드의 2013.01 ~ 2015.10 까지 판매량을 조사한 데이터 1. 데이터 불러오기 import pandas as pd sales = pd.read_csv('sales.csv') 2. 먼저 데이터가 어떻게 구성되어 있는지 확인해보자 sales.info() sales.head() ※ 데이터의 유형에 맞게 Dtype을 변경해주는 작업도 필요하다. 해당 데이터 셋에서는 shop_id, item_id가 int 값이지만 범주형 데이터에 포함되어 평균, 최대값, 최빈값들이 의미가 없어 object로 변해도 무방하다. 3. 데이터 결..

파이썬/데이터 전처리

ML, DL학습에 필요한 Pandas 전처리 방식 모음 정리 - [데이터 전처리]

2021.06.29

Pandas 데이터프레임 표 import pandas as pd - Pandas Series 데이터프레임 생성 pd.Series(data = list) - 리스트 데이터프레임 생성 pd.Series(data = dic) - 사전 데이터프레임 생성 a1 = {4 : 123, 9 : 456, 3:789} a2 = [1,2,3,4,5] t1 = pd.Series(data = a1) t2 = pd.Series(data = a2) - Pandas 데이터 프레임 생성 pd.DataFrame(data = 데이터, columns = ['열1', '열2'...], index = ['인덱스1', '인덱스2', ....]) test = pd.DataFrame(data = [1,2,3], columns = ['test1'],..

파이썬/데이터 전처리

Boxplot 상자도표를 통한 이상치 탐지 - [데이터 전처리]

2021.06.26

Boxplot란? 데이터의 분포를 한 눈에 볼 수 있게 시각화하여 이상치(Outlier)등을 탐지할 수 있는 시각화 도구. median - 중앙값 IQR - 25% ~ 75%에 해당한 부분 75th Percentile - 제 3사분위수 25th Percentile - 제 1사분위수 Whisker - 최댓값, 최솟값 Outlier - 이상치 Median - 중앙값 데이터들을 정렬했을 때 중앙값 위치 선으로 표시 예를들어 데이터 [1, 5, 9, 10 ,15, 20, 34] 일 때, 중앙값은 10 # Numpy, pnadas, matplotlib 라이브러리 필요 import numpy as np import pandas as pd import matplotlib.pyplot as plt test = pd.D..

머신러닝/머신러닝 프로젝트

#2 롤(LOL) 챔피언 조합 데이터 크롤링(OP.GG 크롤링) - [머신러닝 프로젝트]

2021.06.07

필요한 라이브러리 BeautifulSoup(정적 크롤링) or Selenium(동적 크롤링) 둘다 구현 함 tqdm - for문 내의 진척을 알기위한 라이브러리 numpy pandas from selenium import webdriver import requests from bs4 import BeautifulSoup import csv import json import time import pandas as pd import tqdm import numpy as np from tqdm import tqdm from tqdm import trange from tqdm import notebook gameId 크롤링(1) gameId를 가져오기 위한 함수들 # startinfo 불러오기 def start..

티스토리툴바