본문 바로가기

책읽기

[데이터 과학자 되는 법](에밀리 로빈슨, 재클린 놀리스 著, 이창화 譯, 2021)

  • 분노와 짜증으로 가득찬 나날
    • 화를 잘 내지 않고 어디 가서도 둥글둥글하다는 말을 듣는 편이지만 데이터에 발을 들인 이후 많이 바뀌었다.
    • 의심이 많아졌고 분노로 가득하며 체력이 감당할 수 있는 범위를 넘어서면서 짜증을 낼 때도 많아졌다.
    • 이런 부정적인 감정은 표면적으로는 특정 데이터나 인물을 향해있지만 나는 안다. 스스로를 향한 것이라는 걸.
    • 기껏 받은 데이터를 원하는 대로 요리하지 못하는 나, 쓸만한 모델을 만들지 못하는 나에게 화가 난다.
    • 내 능력이 한없이 부족하게 느껴지는 것과 비례하여 자기 데이터를 제대로 보지도 않는 오너들이 어이가 없다.
    • 쏟아지는 신기술을 따라잡는 건 사실상 포기, 그런데 현업에서는 옛날 기술만 요구해서 성장은 정체된다.
    • 산책이라도 하면서 냉정하게 판단하려고 노력을 하고 나름의 전략을 수립하지만 맞게 가는 중인지 불안하다.
    • 사춘기 때, 늦어도 학위 과정 중에 마쳤어야 하는 고민을 지금 하는 것 같아 나이에 뒤처진 느낌마저 든다. 

 

  • 데이터 과학자들은 불안하다
    • 한 명의 사람이 태어나 신체적으로, 정신적으로, 사회적으로 한 사람 구실을 하려면 여러 과정이 필요하다.
    • 걸음마를 하기 위해서 넘어져 보기도 하고 다른 친구들과 부대끼며 사랑과 이별을 겪으며 감정이 여문다.
    • 전문적인 기술을 익히면서 조금은 특별한 존재가 되는데 이 때 스승과 선배들의 도움이 요긴하다.
    • 문제는 새로운 분야에 몸을 담은 사람들. 이들에게는 스승이나 선배라고 할 만한 사람들이 존재하지 않는다.
    • 다 같이 걸음마를 하는 입장에서 내가 똑바로 걷고 있는지 봐 줄 사람도 없고,
    • 다른 일을 하는 이들의 조언은 와 닿지도 않고 도움도 안된다.
      - 귀는 듣고 입은 "네네"라고 하고 있지만 속으로는 "개뿔..."을 되뇌인 게 백 번은 넘은 것 같다.
    • 실질적으로 역량을 키울 수 있는 방법을 경험적으로 체득하지만 제도권에서 노력으로 인정받기 힘들다.
      - 블로그 작성, 커뮤니티 활동, 오픈 소스 기여, 유튜브 등 공개 강연 등이 그 예시.
      - 생존과 성장을 위한 필사적인 노력이지만 밖에서 보기엔 시간이 남아 노는 걸로 보이기 딱 좋다.

 

  • 선배 데이터 과학자들의 후배를 위한 조언
    • 이 책은 데이터 과학자 되는 법이라는 제목과 매우 잘 어울리는 내용을 담고 있다.
    • 네 개의 파트로 나누어진 본문은 소제목 이상의 의미를 담고 있다.
    • 교과서적인 뻔한 원론적인 이야기는 과감하게 배제한다.
    • 아니, 교과서적인 이야기가 때로는 틀릴 수 있음을 여러 사례를 들어 알려준다.
    • 흔히 커뮤니티 질의 응답에서 회바회(회사 바이 회사), 사바사(사람 바이 사람)으로 정리되는 데이터 과학의 너무나 많은 사례들을 적절하게 묶어서 유형별로 정리해주기 때문에 데이터 과학자들이 겪는 성장통의 원인과 처방을 알 수 있다.

 

  • Part I. 데이터 과학 시작하기
    • 데이터 과학의 본질과 회사 유형별 업무 형태를 알려 준다.
    • 막연하게 최신 기법을 적용하려는 이들과 데이터 만능주의로 빠지기 쉬운 이들에게 경종을 울린다.
    • "12년동안 일하면서 아카이브 논문을 적용한 경우는 없습니다. 효과가 높은 회귀분석을 여전히 사용합니다. 이것이 바로 현실이죠. 여러분은 데이터를 정리할 것입니다. (중략) 이것이 현실입니다." - p68
    • "데이터를 잘 알아야 합니다. (중략) 데이터 품질은 모든 업무의 기본입니다. (중략) 데이터를 제대로 이해하기 위해서는 해당 분야의 전문가와 가까이 지내야 합니다." - p69
    • "해당 분야의 최신 기술이나 트렌드를 따라잡는 데 너무 스트레스받지 마세요. 데이터 과학과 머신러닝 일을 하면 딥러닝이나 다른 고급 방법을 사용해야 한다는 유혹이 있을 겁니다. 이런 방법은 산업에서 가장 어려운 문제 중 일부를 해결하기 위해 개발됐습니다. 데이터 과학자로서, 특히 신입이 직면할 문제가 아닙니다. 데이터 변환 및 시각화, 다양한 패키지를 사용한 프로그래밍, 가설 검정, 분류 및 회귀분석과 같은 통계적 기법부터 시작해야 합니다. 최신 개념을 고민하기 전에 개념을 잘 이해하고 적용하는 것이 중요합니다." - p102

 

  • Part II. 데이터 과학 직무 찾기
    • 커뮤니티에 가장 많이 올라오는 질문 중 하나다. "이 회사 어떤가요?" or "이 회사 가면 뭐 하나요?"
    • 경영진이 데이터 과학을 제대로 아는 경우가 적기도 하고, 세상이 빠르게 변해 같은 말이 다르게 쓰인다.
    • 사람에게 문제가 없어도 데이터가 제대로 갖춰지지 않은 경우가 허다하고 이 사실을 아무도 모른다.
    • 제대로 된 기업은 공고를 내면 지원자가 너무 많기 때문에 인맥을 통해 사람을 뽑는다. 결국 인맥이 중요하다.
    • "직무 기술서에서 눈여겨봐야 할 문장이 있다. '열심히 일하고 열심히 놉니다'는 장시간 근무하고 비공식적인 회사 행사(회식)에 참석해야 한다는 것을 의미한다. '자발적이고 독립적인 사람'은 지원을 많이 받지 못한다는 뜻이다." - p109
    • "필요한 데이터는 잘 정리돼 항상 이용할 수 있고 문제가 있으면 엔지니어 팀이 즉시 해결해주며 여러분의 업무는 직무 기술서에 명시된 그대로이고 흥미 없는 데이터 과학은 하지 않아도 된다고 생각할 것이다.
      아쉽게도 꿈 같은 일이다." - p111
    • "2017년 캐글의 조사에 따르면 데이터 과학자로 채용된 사람들이 회사를 찾았던 대표적인 방법은 채용 담당자 및 친구, 친인척, 지인 등 인맥을 통해서이다. 인맥을 만드는 가장 좋은 방법은 밋업meetup 행사에 가는 것이다." - p 112

 

  • Part III. 데이터 과학자로 자리잡기
    • Part I과 II가 데이터 과학자로서의 삶을 시작하는 이들을 위한 부분이라면 III부터는 이미 데이터 과학자로서의 삶을 시작한 이들을 위한 장이다.
    • 대기업과 중소기업의 업무 형태를 비교하고, 효과적으로 분석하는 방법과 모델을 배포하는 방법을 언급한다. 
    • 특히 Chapter 10. 효과적으로 분석하기 부분에서 크게 공감을 하고 많은 위안을 얻었다.
    • 수년간 여러 데이터를 겪으며 고민한 내용을 발표한 적도 있지만(https://bit.ly/3Hbu7gR) 혼자만의 고민으로 얻은 결론이기에 누군가의 지지가 절실했는데 내가 했던 말과 거의 같은 내용들이 적혀 있어서 너무 기뻤다.
    • "처음으로 데이터 과학에 입문하는 사람들은 흔히 최고 성능의 모델을 개발하는 것이 목표라고 오해하고는 한다. 많은 학문적 연구와 교육에서 정확한 모델을 만드는 방법을 다루기 때문에 충분히 오해할 만 하다. 대부분 데이터 과학 업무에서 매우 정확한 모델을 가지는 것 만으로는 성공하기 어렵다. 모델의 유용성, 통찰력 수준, 유지 가능성 등이 더 중요하다." - p178 (번역 수정) 
    • "데이터에서 '뭐지?'라고 소리쳤던 부분을 기록하며 어디에 있는지 발견해야 한다. 업무 과정에서 일일이 기억하기는 어렵다. 많은 기업은 데이터를 문서화하지 않으며 데이터 발견에 도움을 주는 시스템이 없다." 
      - p180
    • "관리자에게 질문을 하고 다른 사람에게 몇 분간 물어보는 것이 며칠 동안의 헛수고보다 낫다." - p183
    • "협업을 잘 하는 두 가지 비결이 있습니다. 엔지니어의 언어를 이해하고 엔지니어의 업무에 관심을 갖는 것입니다." - p233

 

  • Part IV. 데이터 과학자로 성장하기
    • 성장을 바라보는 저자들의 관점이 여기에 녹아있을텐데, 단락들이 흥미롭다. 
    • Chapter 13. 데이터 과학 프로젝트를 실패할 때, Chapter 14. 데이터 과학 커뮤니티에 참여하기, Chapter 15. 품위 있게 퇴사하기, Chapter 16. 한 단계 올라가기
    • 그간 겪어왔던 크고 작은 실패로 인해 마음이 불편하고 빚진 느낌은 짜증과 분노의 원인이 되고 있다.
    • 내가 부족하다고 보기에는 억울한 일들 - 아무 생각 없이 분석을 요청한 이들, 자기 데이터의 상태도 모르고 있던 이들, 계획하지 않는 책임자 - 도 상당히 많았지만 결국 내 탓이라는 생각에 앓기도 했다.
    • 때로 나 혼자 아픈 것이 아니라는 것을 아는 것 만으로도 큰 치유가 되는데 이 단락을 읽으며 내 영혼이 많이 나은 것 같다.
    • "대부분 데이터 과학 프로젝트는 위험성이 높고 모험적이다. 어느 누구도 예측하지 못한 것을 예측하고 최적화하지 못한 것을 최적화하며 이전에 보지 못한 데이터를 이해해야 한다. 여러분은 무엇이 되었든 그 프로젝트를 하는 첫 번째 사람이며 프로젝트는 항상 실험적이다." - p259
    • "실패한 프로젝트의 마지막에 나오는 자연스러운 말은 '내가 더 훌륭한 데이터 과학자였다면 이 프로젝트는 실패하지 않았을 것이다'이다. 잘못된 생각이다. 대부분 데이터 과학 프로젝트는 데이터 과학이 본질적으로 작동하지 않는 것을 시도하는 데 기초해 실패한다. (중략) 데이터 과학 프로젝트를 실패하는 이유는 여러 가지이다. 데이터 과학자의 역량 문제인 경우는 매우 드물다." - p269

 

  • 가면 증후군이 치료될지도 모르겠다.
    • 본문 중에 여러 차례 언급되는 가면 증후군(impostor syndrome)은 본인의 성공을 스스로의 재능과 노력이 아닌 운에 기인했다고 생각하고 언젠가 자신의 사기 행각이 드러날까 두려워하는 불안 증세를 말한다.
    • 고백컨대 데이터에 발을 들인 이후 저 생각을 안 한 날이 드물다.
    • 나를 좋게 봐 주시는 분들이 적지 않고 이 분들께 진심으로 감사하는 한편, 아직 저 분들이 내 단점을 알지 못하기에 어쩌다가 일시적으로 그런 생각을 해 주시는 것이라는 불안감이 공존하고 있다.
    • 하지만 데이터 과학의 범위가 넓은 만큼 모든 분야를 잘 알고 잘 하는 사람은 상상 속에나 존재한다
    • 내가 알고 있는, 나보다 나은 수많은 사람들이 모든 분야에서 나보다 나은 것은 아니기 때문에 이들을 보며 자괴감에 빠지기보다 (이제까지 이렇게 하려고 노력해왔듯) 좋은 부분은 보고 배우며 내게 맞는 나만의 장점을 다듬어 나갈 일이다.

 

  • 나는 틀리지 않았다는 사실이 가장 반갑다.
    • 데이터 owner들과의 협업을 제외하면 데이터 담당자로서 4년째 혼자 일을 하면서 고민이 많다.
    • 부서별로 뽑은 AI 담당자들과의 협력, 지원부서 소속으로 연구부서 소속인 저들과의 차별화 포인트.
    • 세상과 동떨어지기 너무 좋은 환경이라 어떻게 시류에 뒤쳐지지 않을 지에 대한 방안.
    • 무엇보다 조직과 세상에 보탬이 될 수 있는 방법.
    • 내가 고민하고 실행하고 있는 방법이 데이터 과학자 되는 법이라고 말해주는 이 책이 너무 반가웠다.
      1. 커뮤니티에서 기술을 배우며 인맥을 늘리고 기회를 얻고 돌려주며
      2. 블로그를 통해 허용 가능한 범위에서 프로젝트를 공유하고
      3. 사이드 프로젝트를 하면서 현업에서 생기는 구멍을 메우고
      4. 컨퍼런스에 참여해서 강연을 하기도 하고 듣기도 하며 기회를 만든다.
      5. 오픈 소스 컨트리뷰션으로 생태계에 기여한다.
    • 생각해보면 새로울 것도 없다. 다트머스 회의를 비롯한 수많은 기성 학회가 이렇게 시작되었다.
    • 데이터 과학자를 꿈꾸는 이들, 데이터 과학자로 살아가는 비슷한 고민을 가진 이들에게 필독을 권한다.

※ 한빛미디어 2021 도서 서평단 "나는 리뷰어다"의 일원으로 도서를 제공받아 작성한 리뷰입니다.