본문 바로가기

글읽기

[유혁의 데이터이야기](유혁, 2019~2020)

● 10년치 데이터: 규모가 제법 큰 국내 제조업에서 데이터를 분석하는 친구에게 들은 이야기.

  • 친구 : 공장에서 12년치 데이터를 줄테니 빅데이터 분석을 해 달래.
  • 나 : 어. 그런데?
  • 친구 : 엑셀 13줄이야 ㅋㅋㅋㅋ1년에 한줄씩 ㅋㅋㅋㅋㅋ
  • 나 : ㅋㅋㅋㅋ 12줄은 알겠는데 13줄은 뭐야
  • 친구 : 맨 위 데이터 이름 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
  • 나 : ㅋㅋㅋㅋ
  • 친구 : 이걸로는 못하겠다고 했더니 뭐래는지 알아?
  • 나 : 뭐래?
  • 친구 : 10년치 넘는 데이터 줘봐야 소용 없더라고 우리 상무님한테 보고했어 ㅋㅋㅋㅠㅠ

 

● "빅데이터와 AI를 기반으로"

  • 가장 흔히 보는 표현 중 하나지만 답이 없는, 사라져야 할 표현이다.
  • 머신러닝에는 1차식 회귀부터 딥러닝까지 수십수백가지 방법이 있는데 다짜고짜 빅데이터와 AI를 기반으로.
  • "라면이 있는데 이걸로 뭘 해먹을까?"에 대한 답으로 "계란넣고 끓여먹자"나 "생라면 부셔먹자" 대신 "잘!"이라고 하는 것과 다름이 없다.
  • 이런 분들과 조금 길게 말씀을 나눠보면, 대부분 "데이터를 가지고 이케저케 하면 되겠지"라는 막연한 생각.
  • 그러나 그러다가는 생라면을 먹겠다고 부순 라면을 끓이는 대참사로 이어지기도 한다.
  • 젓가락으로 안집어지고 떠먹기엔 짜고. 기껏 시간들여 돈주고 사온 라면은 버리고 배고픔은 해결이 안되고.
  • 욕은 데이터 담당자가 먹는다 - "알파고라더니 별거 없네?".
  • 이보세요. 라면을 처음 본 사람한테 부숴놓고 끓여달라고 한 건 당신입니다.

● 데이터, 알고리즘, 비즈니스.

  • 중앙일보에 1년 반 가량 유혁의 데이터 이야기라는 이름으로 글이 연재됐다. (링크: https://bit.ly/3oY6LBZ)
  • 필자는 윌로우 데이터 스트래티지(Willow Data Strategy) 대표로 30여년간 데이터를 끼고 살아온 유혁 대표.
  • 대개 사장님으로 대표되는 경영진들에게 전하는 메시지. "데이터는 이런 겁니다. 제발 이렇게 하세요."
  • 30년을 근무하셨으니 그 경험과 내공이 오죽하겠느냐만, 간혹 동종업계 분들과 이야기를 나누면 다 비슷하다.
  • 이해는 된다. 평생 한번도 안해본 일인데 다른 일로 쌓은 내공을 바탕으로 접근하니 오류가 생길 수 밖에. 
  • 심지어 언론에는 역시나 잘 모르는 기자들이 광고문구에 넘어간 채, 또는 막연한 공포에 기사를 써댄다.

● 수많은 "비전공자" 데이터쟁이들

  • 적절한지 표현인지는 의문이지만 데이터 분야에서는 산공, 통계 등을 제외한 이들이 흔히 비전공자라고 불린다.
  • 데이터 관련 소양을 커리큘럼을 통해 익히지 않고 독학이나 온라인 강의 등을 통해 익혔다는 뜻.
  • 데이터와 머신러닝 관련 인력 수요가 단기간에 폭증해서 대기업을 중심으로 자체 교육을 강화하기도 했고
  • 취업이나 창업 기회를 잡으려는 많은 젊은이들이 스스로 공부해서 데이터 필드에 뛰어들었다.
  • 그리고 이들의 역량은 전공자 못지 않고, 현업에 대한 깊은 이해를 바탕으로 전공자보다 성과를 잘 내기도 한다.

● "비전공자" 데이터쟁이들의 동료들에게

  • "비전공자"들이 데이터를 담당하는 곳은 조직 규모에 비해 데이터 활용 레벨이 낮은 경우가 많다.
  • "비전공자" 데이터 담당자들은 그만큼 조직의 목적은 더 잘 이해하고 있지만, 
  • 그들의 동료들은 조직의 데이터 활용 레벨이 낮은 만큼, 지식과 경험이 부족한 경우가 많고 
  • 이는 다시 데이터쟁이들에게 부담으로 다가온다. 동료의 레벨을 끌어올릴 책무가 이들에게 달려있기 때문이다.
  • 이 때 동료들이 스스로 데이터에 한발짝 다가선다면 동료들과 자신에게 큰 도움이 된다.

● "비전공자" 데이터쟁이가 이공계 연구원 동료들에게 부탁을 드리고자 합니다.

  - 여러분의 훌륭한 지식과 영감을 부정확한 데이터로 오염시키지 않기를 바랍니다.

  1. 빅데이터라는 말을 안 쓰면 좋겠습니다 - 여러분도 아시잖아요. 본인 데이터가 빅(big)하지 않은 거.
  2. 연구데이터라는 말을 쓰면 좋겠습니다 - 연구데이터엔 여러 지식과 현상이 농축되어 있습니다.
    개, 고양이 사진같은 일반 데이터와 달리 적은 수로도 할 수 있는 것이 많습니다.
  3. 눈대중은 이제 그만 하면 좋겠습니다 - 그래프는 그림 이전에 숫자입니다.
    안구운동을 멈추고 미분과 적분을 꺼내들어주세요. 박사님들이잖아요.
  4. 엑셀이라도 배워주세요 - 데이터 읽어서, 그래프 그리고, 잡음 제거하고, 미분 적분하는 일은 엑셀로도 합니다.
    심리적 장벽은 있겠지만 박사학위자에게 이 정도 지적 노력이 부담된다고는 생각하지 않습니다.

"데이터 나도(or 내 자녀도) 해볼까" 하는 분들께 - 유혁님의 컬럼을 인용하겠습니다.

  • 첫째, 기술적 능력이 뛰어나야 한다. 코딩이나 통계의 기본을 모르면 아무 소용이 없다.
  • 둘째, 전공분야 외에도 궁금한 것이 많고 뭐든 할 수 있다는 긍정적인 태도가 중요하다. 기존 지식만 평생 우려먹겠다는 태도로는 어림도 없다.
  • 셋째, 비전문가들과 기술적 단어를 전혀 사용하지 않고도 소통할 수 있어야 한다. 진정한 전문가는 상대방이 알아듣기 쉽게 설명한다.
  • 넷째, 실전적용이 이론보다 중요하므로 비즈니스적 소양도 갖추어야 한다. 데이터는 취미로 만지는 게 아니기 때문이다.
  • 많은 학부모들은 스티브 잡스를 존경한다며 한국에서도 그런 선각자가 많이 나와야 한다고 말한다. 하지만 정작 자신의 자녀가 잡스처럼 멋대로 비 전공 예술과목이나 청강하고 다니다가 학교도 중퇴해 버리고 취직대신 창업부터 하겠다고 덤비면 대부분은 혼비백산할 것이다.
  • 이제는 틀에 얽매이지 않고 여러 분야를 자유롭게 넘나드는 사람들이 필요한 시대다. 기술적 기본을 갖추었다면 철학, 사회학, 심리학, 경영학 등 여러 분야의 책을 읽어보고 자유로운 여행을 통해 다양한 문화도 접해보며, 특히 남들과 입장을 바꾸어 보는 훈련을 하길 권한다.

빅데이터, 머신러닝을 기반으로 뭔가 하겠다는 것은,

  • 문제의 본질이 파악되어 있고
  • 문제를 해결할 데이터가 준비되어 있고 or 준비되고 있고
  • 한 번에 답을 맞추는 것이 아니라 무수히 많은 iteration과 검증을 통해 맞춰간다는 뜻이다.
  • 한 마디로, "질문부터 제대로 해서 목적을 분명히 해야" 의미 있는 결과가 나온다.
  • "데이터는 꿰어야 보배가 되는 구슬 같은 존재다"