728x90 반응형 데이터베이스 DB 728x90 반응형 56 dplyr 패키지 용도, 각 함수가 하는 일 디플라이어 패키지는 데이터를 핸들링하고 싶을 때 사용한다. 1) 원하는 변수select() / 2) 행(개체)filter()만 추출하거나, 3) 특정 변수를 기준으로 재정렬하거나 arrange() 4) 새로운 변수를 추출하거나 mutate() 5) 그룹별 요약통계량을 추출하고 group_by()/summariase() 싶을 때! 1) #지방이랑 관련된 변수만 추출 #select(drinks,Total.Fat, Trans.Fat, Saturated.Fat) 이렇게 써도 되는데 밑처럼 쓰면 간단하게 추출 가능 select(drinks, contains("Fat")) 변수명 모르면 colnames(파일) 쳐서 실행시키면 확인 가능 저 변수들보다 많이 쓰는 건 필요없는 변수 제거인데, 그냥 변수명/함수명 앞에 .. 2020. 3. 20. R working directory가 중요한 이유: setwd() 함수 R은 프로그래밍을 하면서 스크립트와 데이터 셋이 생성되는데, 이걸 어디에 저장할 건지 정하는 것이 작업공간 설정이다. 그래서 코딩을 하기 전에 setwd를 꼭 하는 것이 중요하다. 저걸 눌러서 설정해도 되고 콘솔에서 > setwd("폴더이름") 쳐서 해도 된다. 근데 이걸 고정으로 안 해놓으면 시작할 때마다 지정해줘야 한다고 한다. 고정하는 방법은 다른 분들이 해놓으셨던데 나는 R 자주 안 쓸 것 같아서 안 했다. 2020. 3. 20. 모델 평가 방법: K-fold Cross Validation K-fold Cross Validation은 기존의 학습-평가(train-test) 데이터 나누기의 상위 버전으로, 1) 한 개의 데이터셋을 k개로 나누고 2) n/k번째 세트를 제외한 부분을 재사용해서 3) 학습과 평가를 k번 반복하여 각 회차의 에러평균을 구해 4) 에러값이 최소인 모델을 최종모델로 선택하는 교차 검정이다. 2020. 3. 19. 모델링 최적화와 일반화의 차이 최적화: 에러(손실함수의 결과값)를 줄이는 것 손실함수의 결과값이 가장 많이 감소하는 방향으로 이동시키는 방법으로 최적화를 진행한다. 최적화는 "더이상 감소될 수 없을 때까지 = 내려갈 수 없는 곳에 도달할 때까지" 반복한다. 경사하강법: 임의의 점에서 시작해서 경사를 따라서 내려갈 수 없을 때까지 반복적으로 내려가며 최솟값을 찾는다. 어느 방향으로 내려갈지, 한 번에 어느 정도 이동할지(step의 크기)를 정해야 한다. 일반화: 기존 데이터 뿐만 아니라 새로운 데이터를 넣어도 모델이 잘 동작하도록 하는 것 일반화가 제대로 안 되면 과적합 문제 발생. train-test data split, validation set approach, cross-validation 등의 방법으로 진행한다. 2020. 3. 19. 손실함수 loss function 손실함수는 모델의 성능을 나타내는 수학적 표현이다. 예측을 얼마나 정확하게 했는지, 모델이 실제로 데이터를 바르게 표현했는지가 기준이 된다. 손실함수로 얻은 결과값은 에러값이기 때문에 손실함수의 값이 낮다면 모델의 성능이 좋은 것. 2020. 3. 19. 이전 1 ··· 5 6 7 8 9 10 11 12 다음