머신러닝이란 데이터를 분석/학습 한 정보를 기반으로 예측이나 결정을 하기 위해 적용하는 알고리즘이라고 할 수 있습니다.

머신러닝과 유사한 의미의 용어로 AI, 딥러닝, 데이터마이닝, 패턴인식, 통계학 등도 사용되고 있는데 관련 전공자가 아니면 무슨 차이가 있는지 알기 어렵고, 또 무엇이 다른지 쉽게 이해가 되지 않습니다.

결론적으로는 약간의 차이는 있으나 교집합이 매우 큰 거의 유사한 의미라고 생각하면 됩니다.

비슷한 의미이지만 여러 용어가 사용하는 이유는 과학이나 기술분야도 이전과 큰 차이가 없으면서도 의도적으로 새로운 용어를 만들어서 좀 더 트렌디하게 보이고 좀 더 잘 팔리게 하려는 전략적인 목적이 있습니다.

데이타의 시대

스마트 폰은 우리의 위치와 패턴을 시시각각 기록하고 웹사이트는 모든 사용자의 클릭 하나하나를 수집하고 있습니다. 현재 우리는 데이타의 홍수 속에 살고 있지만 데이타의 수집하는 것만으로는 어떤 의미도 없습니다. 이러한 데이타를 분석하고 비지니스에 활용해야 의미가 있습니다.

Good Accuracy

머신러닝 모델을 만들다보면 정확도 수준이 어느 정도인지 끊임없이 고민해야 합니다. 예를들면 자신의 메일에서 스팸메일을 분류하는 분류 모델을 만들었고 스팸메일 예측이 90%의 정확도가 나왔다고 가정하겠습니다. 높은 성능이라 할 수 있을까요? 2010년 데이터에 따르면 전체 이메일의 90%가 스팸메일이라고 하니 분류 모델의 90% 성능은 그렇게 놀란만한 결과는 아닌 것 같습니다.

다중 클래스 예측이라 불리는 문제인데 단순히 가장 흔한 클래스를 예측하는 것입니다. 클래스의 불균형이 있을 때 굉장한 성능을 낼 수 있습니다. 한 클래스가 다른 클래스보다 월등히 많아 나타나는 문제입니다.

긍정오류 VS 부정오류

위에 언급한 것처럼 어떠한 데이타로 학습을 시켰고 그 데이타의 균형이 적절했는지에 따라 오류가 있을 수 있습니다. 그리고 오류의 유형에는 여러 유형이 존재합니다.

정답은 긍정인데 예측이 부정이면 거짓 부정 (부정오류)라고 합니다. 반대로 정답은 부정인데 예측이 긍정인 경우 거짓 긍정 (긍정오류)라고 합니다.

거짓 부정과 거짓 긍정은 실무에서 다른 영향력을 가집니다. 스팸 필터링을 다시 예로들면, 부정오류로 인해 스팸 메일인데 아니라고 판단한 겁니다. 이건 짜증이 나지만 아주 나쁘지는 않습니다. 반대로 긍정오류로 스팸이 아닌 이메일을 스팸으로 판단하여 스팸 폴더로 보내버렸다면 이메일은 못보게 되고 유실됩니다. 이 경우는 긍정오류가 더 안좋습니다.

다른 경우로 부정오류 인해 질병에 걸렸는데 안걸렸다고 나왔다면 매우 나쁜 결과입니다. 긍정오류의 경우도 질병이 없는데 질병이 있다고 판단한 경우 잘못된 약을 처방 할 수 있으니 이 경우나 나쁜 결과입니다.

사실 이런 두 오류로 인한 결과가 큰 영향을 가져오는 영역에서는 사용이 어렵다고 판단됩니다. 실제 비지니스에 적용하고 사용하는데 매우 신중 할 수 밖에 없습니다.

비즈니스에 활용

그렇다고 지나치게 부정적일 필요는 없습니다.

유투브는 매분마다 100시간 분량의 비디오가 업로드되고 있습니다. 그럼 뭘 봐야 하느냐가 문제입니다. 유튜브에서 관심있는 비디오를 보고 싶지만 정보의 과다로 인해 관심가는 컨텐츠를 찾아내는건 쉬운일이 아닙니다. 나에게 맞는 컨텐츠를 자동으로 발견할 방법이 있어야 합니다. 이때 필요한 것이 추천 시스템입니다. 사용자와 관심 컨텐츠를 연결이 필요했고 그 것을 머신러닝을 통해 구현이 가능합니다.

반응형

'Insights > IT Trends' 카테고리의 다른 글

ChatGPT 사용기 (사용법)  (0) 2022.12.20
Data Representation (Data Labeling)  (0) 2022.12.16
Open Source  (0) 2021.01.29
Digital Transformation(DT) 알아보기  (0) 2021.01.29
OCR Solution 개발 (Python)  (0) 2021.01.29