Dec 27, 2023
K에서 팔꿈치 방법 사용 중지
엘보우 방법은 k-평균 클러스터링에서 최적의 'K'를 찾는 그래픽 표현입니다. 이는 일반적으로 팔꿈치가 생성되는 k-값을 선택하여 수행됩니다. 그러나 이것은 그렇지 않습니다.
팔꿈치 방법은 최적의 'K'를 찾는 것을 그래픽으로 표현한 것입니다. k-평균 클러스터링에서. 이는 일반적으로 팔꿈치가 생성되는 k-값을 선택하여 수행됩니다. 그러나 이것이 최적의 'K'를 찾는 최선의 방법은 아닙니다.
엘보우 방법(elbow method)은 k-평균 클러스터링 알고리즘에서 최적의 K 값을 찾는 그래픽 방법입니다. 엘보우 그래프는 다양한 K 값(x축)에 해당하는 y축의 클러스터 내 제곱합(WCSS) 값을 표시합니다. 최적의 K 값은 그래프가 팔꿈치를 형성하는 지점입니다.
이번 블로그에서는 가장 실용적인 방법을 살펴보겠습니다.k-평균 클러스터링 알고리즘에 대한 클러스터 수(또는 K)를 찾고 팔꿈치 방법이 답이 아닌 이유를 알아보세요.
이번 블로그에서 다룰 주제는 다음과 같습니다.
시작하자.
K-평균 클러스터링은 서로 가까운 데이터 포인트를 지정된 개수의 클러스터/그룹으로 그룹화하는 거리 기반 비지도 클러스터링 알고리즘입니다.
데이터 과학 분야에서 가장 많이 사용되는 클러스터링 알고리즘 중 하나입니다. k-평균 알고리즘을 성공적으로 구현하려면 k-평균을 사용하여 생성하려는 클러스터 수를 식별해야 합니다.
다음은 k-평균 알고리즘이 따르는 단계입니다.
데이터 과학에 대한 추가 정보C-평균 클러스터링 설명
앞서 언급했듯이 팔꿈치 방법에는 그래픽 표현을 통해 최적의 k를 찾는 것이 포함됩니다. 이는 클러스터 내 제곱합(WCSS), 즉 클러스터의 점과 클러스터 중심 사이의 제곱 거리의 합을 찾는 방식으로 작동합니다.
엘보우 그래프는 x축의 다양한 K 값에 해당하는 y축의 WCSS 값을 표시합니다. 그래프에 팔꿈치 모양이 보이면 팔꿈치가 생성되는 K 값을 선택합니다. 이것을 엘보포인트(elbow point)라고 부를 수 있다. 팔꿈치 지점을 넘어 'K' 값을 늘려도 WCSS가 크게 감소하지 않습니다.
팔꿈치 곡선은 다음과 같을 것으로 예상됩니다.
그러나 일반적으로 다음과 같습니다.
따라서 실제 데이터 세트의 대부분에는 팔꿈치 방법을 사용하여 올바른 'K'를 식별할 수 있는 명확한 팔꿈치 변곡점이 없습니다. 이렇게 하면 잘못된 K를 찾는 것이 더 쉬워집니다.
Silhouette Score는 Elbow 방식이 Elbow Point를 나타내지 않을 때 K의 개수를 구하는 데 매우 유용한 방법입니다.
Silhouette 점수의 값은 -1부터 1까지입니다. 다음은 Silhouette 점수에 대한 해석입니다.
실루엣 점수 = (ba)/max(a,b)
어디:
엘보우법을 비교해 보자그리고그만큼 Iris 데이터 세트를 사용한 실루엣 점수. Python에서 팔꿈치 곡선을 만드는 것부터 시작하겠습니다.
팔꿈치 곡선다음 코드를 사용하여 만들 수 있습니다.
위 그래프에서는 K=4에서 엘보우 점을 선택했지만 K=3도 그럴듯한 엘보우 점처럼 보입니다. 그래서,팔꿈치 지점이 무엇인지 명확하지 않습니다.
실루엣 플롯을 사용하여 K 값을 검증해 보겠습니다.아래 코드를 사용합니다.
실루엣 점수는 K=2에 대해 최대값(0.68)이지만 최적의 K를 선택하기에는 충분하지 않습니다.
올바른 선택을 위해서는 다음 조건을 확인해야 합니다.실루엣 플롯을 사용하는 'K':
따라서 실루엣 플롯 접근법은 K=3을 최적 값으로 제공합니다.
Iris 데이터 세트의 최종 클러스터링을 위해 K=3을 선택해야 합니다.
또한 클러스터 내 입력 기능의 분포를 인덱싱/확인하여 출력 클러스터의 유효성을 검사했습니다.
데이터 과학에 대한 추가 정보 Scikit-Learn 종합 가이드(Sklearn)
엘보 곡선과 실루엣 플롯은 모두 k-평균 클러스터링에 대한 최적의 K를 찾는 데 매우 유용한 기술입니다. 실제 데이터 세트에서는 팔꿈치 곡선만으로는 올바른 'K'를 찾기에 충분하지 않은 경우가 꽤 많이 발견됩니다. 이러한 경우 실루엣 플롯을 사용하여 데이터 세트에 대한 최적의 클러스터 수를 파악해야 합니다.

