관리 메뉴

선택과 집중

51日 : 의사결정 트리(decision tree), 지니 지수, 랜덤 포레스트 본문

삶의 질 수직상승/AI 기술이 뭐야?

51日 : 의사결정 트리(decision tree), 지니 지수, 랜덤 포레스트

500% 2023. 1. 3. 11:16
반응형

의사결정 트리(decision tree)

의사결정 트리를 이용해 불순물(엔트로피)를 계산해볼 수 있다

-무조건 훈련은 된다. 그래서 과적합이 발생할 수 있는게 단점(과적합이 심하게 일어나는 모델)

-기업에서 이걸쓰면 의사결정할 때 도움이 됨. ex) 3프로 올리면 매출이 오르더라~~그러니 4프로까지 안올려도 된다.

-분석의 기준을 알 수 있다. 머신러닝 중에 유일하게. 이 디시전 트리는 그렇다.

-통계분석은 인사이트에 집중,, !!! #성능은 당연히 ai가 좋지. 분류성능(어큐러시)를 높이는 데는 머신러닝

-왜그런지 알 수 있는 거는. 이 디시전 트리가 유일!

 

 

-디시전트리 과적합을 방지하기 위해서

가지를 잘라버린다.

그래서 치기전에는 파란색으로 분류되었다면, 가지를 치고 난뒤 주황색으로 분류됨.!!

 

 
 

엔트로피(entropy)

-entropy(불순도) : 얼마나 지저분하냐. 순도가 높을수록 좋다.

주머니에 빨간공과 파란공이 있는데 엔트로피를 계산해보면 이렇다.

entropy = -(2/5 log2/5 + 3/5 log 3/5)

각각이 나올 확률에 로그값을 곱해준 것!

-확률은 1을 못 넘는다

-작은 애들이 많을수록 엔트로피 값은 커진다.)

ex) 1/2 여러개 더한것보다 1/3 값 여러개를 더하면, 엔트로피 값을 커진다.

 -엔트로피 값은 계산기가 있어야 한다. 

 

지니 지수

종류별로 나올 확률을 1에서 빼주면 된다.

지니 지수 = 1 - (yes의 확률)제곱 - (no의 확률)제곱

이렇게 ㅋㅋ

 

랜덤 포레스트(random_forest)

: 나무를 여러그루 심어서

각각의 나무의 결정을 다수결로 따르는 것.

 

첨에 import시킬때 이렇게 BaggingClassifier를 써야한다.

 

 

반응형