본문 바로가기

책읽기

[과학의 과학](다슌 왕, 앨버트 라슬로 바라바시 著, 노다해, 이은 譯, 2023)

● 연구자를 어떻게 평가하면 좋을까?

- 연구자는 기본적으로 논문의 양과 질로 평가받는다.

- 그런데 한 사람은 impact factor가 높은 논문을 냈지만 인용이 별로 되지 않았고,

- 다른 사람은 impact factor는 낮은 논문을 냈지만 훨씬 많이 인용이 되었다면 누구를 더 좋게 평가해야 할까?

- 조금 진지하게 물어보자면, 누구를 뽑아야 우리 팀에 더 공헌을 많이 할까?

- 경영진 입장에서는, 혁신적인 연구를 촉진하려면 어떻게 해야 할까? 팀을 모아야 할까, 쪼개야 할까?

 

● 과학의 과학 (science of science)

- 대학원 생활을 해 본 이들이라면 각자 이런 질문들에 대해 경험을 바탕으로 답을 할 수 있을 수 있을지도 모르겠다.

- 네트워크 과학의 대가인 저자들은 수많은 논문과 저자 정보, 인용 정보를 데이터삼아 위 질문에 대한 답을 도출했다.

- 낯설게 느껴질 수도 있지만 과학 자체를 연구 대상으로 삼아 진행한, 과학에 대한 연구가 상당히 풍성하게 진행돼왔다.

- 다른 단어로 scientometrics라고 하며 20세기 초부터 시작되어 데이터 분석 환경 발전과 함께 활발해지고 있다.

- 논문에는 본문과 저자 정보, 인용 정보 등 다양한 면이 있기 때문에 이 모든 걸 책 한권에 정리하는 것도 쉽지 않은 일인데,

- 저자들은 이 복잡한 면을 (1) (개인의) 경력의 과학, (2) 협업의 과학, (3) 영향력의 과학, (4) 전망 순으로 나누어 풀어간다.

- 참고로 이 책의 분량은 400페이지가 넘고 레퍼런스도 420개가 넘는다.

- 정리하는 것만 해도 보통 일이 아닌데, 술술 읽힐 만큼 구성이 매끄럽다.

- 정보가 많은 책인 만큼 감상보다 책을 요약하는 데 집중한다.

 

 

(1) 경력의 과학

: 언제 최고의 성과를 내는지, 어떤 점이 다른 이들과 구별되는지

 

- 생산성은 분야마다 다르다. 역사학과 교수는 5년간 평균 1.2편을 내지만 화학과는 10.5편을 낸다.

- 생산성은 사람마다 다르다. 쇼클리(Shockley)의 연구 결과 한 명의 연구자가 출판한 논문 수는 로그 정규분포를 따른다.

  다시 말해, 극소수의 연구자들이 매우 많은 논문을 낸다. 그러나 논문 편수는 연구자를 평가하는 좋은 기준이 아니다.

- 2005년 허쉬(Jorge E. Hirsch)가 제안한 h-index가 상당히 합리적이며 심지어 예측력도 어느 정도 확보하고 있다.

 

- 마태 효과(부익부 빈익빈)가 존재한다. 유명한 사람의 논문은 출판되기 쉽고 신인의 논문은 거절되기 쉽다.

- 그렇다고 블라인드가 신인에게 유리하지도 않다. 블라인드를 하면 전체적으로 게재승인률이 크게 낮아지기 때문이다.

- 저자나 기관의 평판은 논문 출판 초기에 중요한 역할을 하며, 인용이 많이 된 논문이 더 많이 읽혀 인용률이 더 올라간다.

- 그러나, 대가와 신인이 공저한 논문에서 중대한 결함이 발견되면 신인에겐 치명적이지만 대가는 무사하다.

 

- 과거에는 젊은 나이에 최고의 성과를 내기도 했지만 최고의 성과를 내는 나이는 점차 늦어지고 있다.

- 지식이 쌓일 수록 더 높은 거인의 어깨에 올라야 하는 지식의 부담때문일 수 있다.

- 실험적 혁신가는 개념적 혁신가에 비해 더 많은 나이에 전성기를 맞는 경향이 있다. 경험 축적에 필요한 시간 때문이다.

- 그러나 딱히 최고의 성과가 도출되는 시기는 존재하지 않는다. 그저 성과를 많이 낼 때 최고의 성과가 나올 확률이 높다. 

- 기업가의 경우, 50대 창업가가 성공할 확률은 20대 창업가의 두 배다.

 

- 과학자들에게는 능력의 차이가 존재한다.

- Q변수라고 불리는데 같은 아이디어라도 다른 영향력을 가진 일로 만들어낼 수 있는 능력의 차이를 말한다.

- 그리고, 훌륭한 과학자는 경력 전체에 걸쳐 한결같이 위대하며, Q 변수는 h-index로 어림할 수 있다.

 

- 승승장구(hot streak)시기가 있다. 과학자, 영화감독, 예술가를 통틀어 모두 최고와 두 번째 업적 사이 기간이 매우 짧다.

- 그러나 승승장구가 찾아오는 시기는 랜덤이다. 누군가는 경력 초기에, 누군가는 후기에 나타나며 짧은 기간 지속된다.

- 승승장구의 결과물은 양이 아니라 질이다. 유달리 많은 결과물을 만드는 것이 아니라 품질이 우수한 것이다.

- 필즈상처럼 연령을 제한하는 상이나 과제 지원은 연구자의 승승장구 시기와 엇갈려 기회를 날릴 수 있다.

 

 

(2) 협업의 과학

: 협업이 가진 강점과 예기치 못한 위험, 어떻게 성공적인 팀을 꾸리는지, 팀의 성과를 누구의 공으로 돌려야 하는지

 

- 현대 과학에서 팀은 점점 더 많은 논문을 출판하는 것 뿐 아니라 평균 피인용 수가 높다.

- 전통적인 생각에 뿌리를 두고 새로운 조합을 소개하는 연구들의 성과가 좋았으며 (2배 이상 유명해졌다)

- 1963년 인터뷰가 성사된 노벨상 수상자들은 전원 팀워크를 지향하는 경향이 덜 알려진 연구자보다 강했다.

 

- 중력파 탐색 등 초대형 연구가 수행되며 팀 연구가 중요해진 경향도 있지만, 국제 공동연구가 점점 더 활발해지고 있다.

- 인터넷 등 통신수단의 발달로 거리의 소멸(death of distance)현상이 강해지고 있는데,

- 선진국은 국내 연구보다 국제공동연구가 더 가파르게 성정하지만 한국은 추세와 동떨어져 국내 연구에 머무르고 있다.

- 한편으로 신흥국은 두뇌 유출(brain drain)에 직면하는 현실적인 문제도 있어 연구자를 유지할 국가의 역할이 중요하다.

 

- 좋은 동료와 마주하는 것은 그 자체로 상승효과를 가져온다 : 동료 효과(peer effect)

- 분야를 막론하고 평범한 능력자들 사이에 탁월한 능력자가 한 명 들어오면 모두의 효율이 올라간다. 

- 스타 과학자에겐 비상한 기운(bright ambiance)이 있다. 스타 과학자의 존재만으로 직접 공헌 없이 생산성이 올라간다.

- 스타 과학자가 부임한 학과의 성과는 48% 향상되었으며, 장래 고용의 질은 68%가 올랐다.

- 스타 과학자와 연관된 분야의 신규 고용의 질은 434%, 무관한 분야의 신규 고용의 질도 48% 올랐다.

- 그러나 스타 과학자가 해고, 이직 등으로 조직을 떠났을 때 물리학은 13%, 화학은 16.5% 생산성이 감소했다. 

 

- 500명 이상과 협업한 수학자 에르되시 팔과 얼마나 학문적으로 가까운지를 측정하는 에르되시 수(數)가 있다.

- 이와 비슷하게 분야별로 결집도 W를 구할 수 있다. 결집도가 작으면 개별적으로, 크면 뭉쳐서 연구를 한다는 뜻이다.

- 예술가들을 대상으로 연구한 결과 W가 커지면 정보와 피드백이 강해져 대담한 시도를 하고 성과를 내기 좋았지만,

- W가 일정 이상으로 커지자 오히려 창의성에 방해가 된다는 것이 밝혀졌다.

- 서로의 이해가 복잡해지면서 유용한 정보를 무시하는 경향이 생긴 것이다.

 

- 엘리트만을 모으면 팀이 망가진다. 구성원간 우위를 점하려고 싸움이 벌어지기 때문이다.

- 지나친 재능 효과(too-much-talent effect)가 생기는 것이다.

- 개인보다 나은 팀이 되기 위해서는 함께 일하는 법을 배울 수 있어야 한다.

- 그러나 야구와 축구를 비교했을 때, 야구에서 부정적인 효과가 덜했다. 구성원간 끈끈한 협업이 덜 필요하기 때문이다.

- 다양성, 특히 인종적 다양성이 높은 팀이 성공하는 경향이 있었지만 다양성이 너무 높아지면 크게 실패하는 경향이 있다.

 

- 경력자와 신입자는 어떻게 섞는 것이 좋을까?

- 영향력이 큰 학술지에 출판하는 팀에는 경험자들이 많았다.

- 그러나 오래 손발을 맞춘 사람들끼리만 출판하는 경우는 영향력이 높은 학술지에 출판하는 데 어려움이 있었다.

- 베테랑 연구자의 경험도 중요하지만, 새로운 아이디어를 제공할 수 있는 신입자가 일정 부분 섞여야만 한다.

- 과거의 경험에 묶여 생각이 제한되기 때문이다.

 

- 반면, 오랜 기간 함께 일하며 대부분의 저작물을 함께 생산하는 초연결(super tie)은 매우 중요해 보인다.

- 평생의 파트너라 불릴 수도 있는 이들간의 생산성은 다른 연구자에 비해 8배 높고, 추가적인 인용 영향력은 14배 높다.

 

- 큰 팀은 항상 더 좋을까?

- 중력파 발견처럼 작은 팀이 할 수 없는 대형 프로젝트를 수행하려면 큰 팀을 꾸려야만 한다.

- 그러나 큰 팀에 속한 개인들은 더 적은 아이디어를 내놓고, 배운 정보를 덜 기억했고, 외부 관점을 더 잘 거절했으며, 서로의 관점을 무효화했다.

- 큰 팀을 유지하기 위해서는 연속적인 성공이 필요하기에 위험을 회피하려는 경향 또한 강했다.

- 기존의 연구를 연속선상에서 발전시키는 일은 큰 팀이 더 잘 한다.

- 그러나 파괴적인 혁신을 유도하려면 작은 팀이 필요하다. 큰 팀의 문화는 혁신에 방해가 된다.

- 큰 팀과 작은 팀은 모두 필요하다. 역사적으로 큰 팀은 작은 팀과 단독연구자들이 가득했을 때 번성했다.

 

 

(3) 영향력의 과학

: 과학적 발상과 영향력 저변에 자리잡은 근본 원리

 

- 과학은 기하급수적으로 성장하고 있다.

- 과학 문헌은 12년마다 두 배씩 늘어나고 있으며, 이는 지금껏 만들어진 업적의 절반이 지난 12년간 만들어졌다는 뜻이다.

- 이런 양적 증가는 학계 전반에 대한 관찰을 불가능하게 만들고 있다.

- 과학의 혁신은 예술의 혁신과 다르다. 누가 근처에 있던 사과는 다 익었을 때 떨어진다는 것이다.

- 미켈란젤로나 피카소가 없었다면 우리가 미술관에서 보는 그림은 지금과 매우 달랐겠지만

- 코페르니쿠스가 없더라도 누군가는 지구가 태양의 주위를 돌고 있다는 것을 알아냈을 것이다.

- 현실의 발견은 소수의 천재가 하는 것이 아니라 수많은 과학자가 몇 년에 걸쳐 노력한 결과이기 때문이다.

 

- 논문이 기하급수적으로 빠르게 출판되는 현실 속에서 연구자들은 극심한 경쟁에 내몰린다.

- 바너비 리치(Barnaby Rich)는 1613년에 이미 "이 시대의 질병 중 하나는 책의 과다함이다" 라고 썼고,

- 어니스트 러더퍼드는 1900년 피에르와 마리 퀴리 부부에게 방사능 논문 발표의 영예를 빼앗긴 후 "경주에서 뒤처지지 않으려면 가능한 빨리 현재 하는 일을 발표해야 한다" 라고 말했다.

- 그리고 연구를 빨리 출판하고자 네이처의 <편집자에게 보내는 편지>라는, 주로 다른 이들의 연구에 대한 견해를 밝히는데 사용되는 코너를 이용해 자기 발견을 싣기 시작한 것이 오늘날 레터(letter) 출판의 기원이 되었다.

 

- 누적되는 지식으로 인해 학위를 받기는 점점 더 어려워지고 있다.

- 생물학, 화학, 물리학 박사의 학위논문 길이는 1950~ 1990년 사이에 100페이지에서 거의 200페이지로 두 배가 됐다.

- 1984년도 상반기와 2014년도 상반기에 출판된 생물학 논문을 비교하면 차트 그래프 등 도표가 2~4배 증가했다.

 

- 학계에서 직장을 잡기는 더 어려워졌다.

- 연간 과학 박사학위 취득자의 수는 1998년에 2008년까지 40% 가까이 증가했지만 교수직의 수는 약간 감소했다.

- 종신 재직권을 확보한 박사학위 소유자의 비율은 꾸준히 떨어지고 있으며, 산업계도 공백을 완전히는 못 메운다.

- 1996년 일본 정부는 서양과 동등한 수준의 과학적 역량을 갖추고자 박사학위 소지자를 1만명으로 늘리겠다고 했지만,

- 이들이 어디서 일할지는 고민하지 않았으며,

- 정부가 기업에 이들을 고용할 때 보조금을 400만엔씩 제공했음에도 불구하고 1만 8천명의 박사학위자가 실직 상태다.

- 미국에서도 박사학위를 받은 후 학계에 머물고자 하는 박사후 연구원의 대우는 부적절한 수준이지만,

- 미국에서 학계를 떠난 박사의 연봉 중간값은 9만달러로 높고, 실업률은 2.1%로 매우 낮다.

 

- 피인용 수는 분야마다 매우 다르다. 그러나 인용 패턴은 놀라울 정도로 보편적이며 로그 정규함수로 근사된다.

- 피인용 수는 실적 지표로 많이 사용되지만 실제로 담고 있는 의미는 그다지 크지 않을 수 있다.

- 리뷰 논문은 학술적 기여는 높다고 보기 어렵지만 피인용수는 매우 높다.

- 이전 논문을 기반으로 새로운 연구를 진행하지 않아도 비판하거나, 때로는 형식적으로 인용된다.

- 논문의 피인용 수가 높을 수록 다시 인용될 확률이 높아 부익부 현상이 펼쳐진다.

 

- 피인용 수 분포를 거의 예측하는 프라이스 모형은 두 가지 핵심적인 양상을 포함한다.

- (1) 과학 문헌의 성장 : 새로운 논문은 계속해서 출판되며 각각 일정한 수의 이전 논문을 인용한다.

- (2) 선호적 연결 : 저자가 특정 논문을 골라 인용할 확률은 균일하지 않으며, 그 논문의 이전 피인용 수에 비례한다.

- 이 두 가지 전제만으로 피인용 수 분포가 재현된다는 것은 다른 요소가 존재하지 않다는 말과 동일하다.

 

- 그렇다면 후발 논문은 살아남을 수 없지만 꾸준히 새로운 스타 논문이 나온다는 점에서 다른 인자의 존재를 알 수 있다.

- 논문의 참신함, 중요도, 수준 등에서 발생하는 영향력 차이를 적합성(fitness)이라고 보는 적합성 모형, 또는 비앙코니-바라바시 모형(Bianconi-Barabasi model)이 있다.

- 이 모형에서는 인용률이 선호적 연결과 적합성 모두로 인해 결정된다고 가정한다. 여기엔 두 요소가 있다.

- (1) 성장 : 새로운 논문 i에는 시간에 따라 변하지 않는 적합성 η_i가 있으며, η_i는 분포 p(η)에서 추출한 임의의 수이다.

- (2) 선호적 연결 : i 이후 출판된 논문이 i를 인용할 확률은 i의 기존 피인용 수와 η_i의 곱에 비례한다.

 

- 다시 말해 더 적합한 논문이 더 많이 인용될 수 있고(fit-get-richer)

- 프라이스모형이 제시하는 거듭제곱함수 분포로 예측되지 않는, 최근 연구들이 밝히고 있는 로그 정규분포를 예측한다.

- 그렇다면 적합성이 높은 논문은 어떤 논문인가?

- 참신한 연구는 적합하다고 보기 힘들 수 있다. 기존 상식에서 벗어난 특허는 성공과 실패로 이어질 확률이 모두 높다.

- 참신함의 역설을 개선하려면 참신함과 관습의 균형을 맞출 필요가 있다.

- 다윈이 종의 기원 1부에서 개, 소, 비둘기 등의 선택적 번식에 관한 잘 받아들여진 내용에 공을 들인 이유가 이것이다.

- 대중성은 좋건 나쁘건 피인용수를 늘린다. 언론에 보도되면 긍정이든 부정이든 훨씬 많이 인용된다.

 

- 연구의 영향력을 높이려면 어떤 논문을 인용해야 할까? 오래된 논문일까, 참신한 논문일까?

- 결론부터 이야기하면, 최신 지식만을 인용한 논문은 놀라울 정도로 피인용이 적다.

- 최신 논문을 다수 배치하면서도 광범위하게 오래된 지식을 함께 인용하면 무작위 논문에 비해 2.2배 많이 인용된다.

- 아이러니하게도 인터넷 검색이 활발해지면서 오래 된 논문들의 인용이 크게 늘고 있다.

- 서고에서 논문을 찾았다면 보이지 않았을 논문이 검색을 하면서 눈에 띄고 있는 것이다.

 

- 그러나 논문에는 수명이 있다.

- 어떤 논문은 출간 직후에 급격히 인용되고, 어떤 논문은 한참을 묵혀있다 발견되지만 총 피인용수엔 패턴이 있다.

- 측정 가능한 세 가지 매개변수, 즉 적합성, 즉시성, 지속성으로 논문의 수명을 예측하는 공식까지 확인했으나,

- 그리고 상대 적합성만으로 계산할 수 있는 최종 영향력 공식까지 얻어낼 수 있으나 이를 토대로 아직 살아있는 논문의 수명을 지레짐작하는 것은 위험하다.

- 자기 실현적 예언처럼 작용해 가치 있는 아이디어에게 너무 이른 사망선고를 내릴 수 있기 때문이다.

 

 

(4) 전망

: 인공지능의 역할과 편향, 작동 원리

 

- 과학은 가속할 수 있는가? 라는 화제로 자율화 실험실(Autonomous Lab)이 등장한다.

- 실험 설계와 수행, 데이터 분석을 토대로 목적을 향해 연구를 진행하는 로봇 과학자(robot scientist)인데

- 2009년, 애덤(Adam)이라는 이름의 로봇은 스스로 유전자와 관련된 12개의 새로운 가설을 확인했다.

- 면밀한 검토 결과 이 중 6개는 이미 문헌에서 보고된 바 있었지만 (그러나 애덤에게는 정보가 주어지지 않았다)

- 기존 문헌에 존재하지 않는, 효소 암호화에 참여하는 3개의 유전자를 스스로 발견해냈다.

- 기계가 혼자 움직여 과학적 지식을 만들어 낸 셈이다.

 

- 스완슨 가설(Swanson hypothesis)도 기계를 통해 새로운 가설을 발견하는 데 좋은 출발점이다.

- A와 B가 같은 문헌에서 다루어졌고 B와 C가 또 다른 문헌에서 함께 탐구되었다면 A와 C의 관계를 알아볼만한 가치가 있다는 가정이다.

- 데이터 처리 능력의 발전으로 수백만건의 문헌에서 이와 같은 연결고리를 자동으로 찾아내는 것이 가능해졌다.

- 예를 들어 과학자들은 장래성 있는 화학물질을 찾기 위해 기존에 알려진 물질 근처를 집중적으로 찾는 경향이 있는데,

- 이와 같은 방법을 사용하면 비어 있는 공간(white spaces)를 확인하고 탐구할 수 있다.

 

- 최근 인공 지능의 발전은 여기에 기름을 붓고 있다.

- 데이터에 숨겨져 있거나 확률적으로 있을 법한 패턴과 구조를 가장 잘 찾는 것이 인공 지능이기 때문에,

- 지난 2018년 CASP 대회의 단백질 구조 예측 등 인간의 개입 없이 최고의 결과를 자아내고 있다.

- 인공 지능은 반드시 읽어야 하는 논문들을 판별하고 개인화해줄 수 있고,

- 논문을 개연성 있게 요약하고 가장 상관성 있는 핵심 발견들을 뽑아내며,

- 해당 분야의 핵심적 발전을 요약하는 뉴스레터 형식의 요약문을 만들 수 있다. (실제로 이런 서비스가 시작되고 있다)

 

- 의사결정권자들에게는 전략적 투자가 필요한 영역을 제안할 수 있다.

- 아이디어를 판별하고 혁신적인 과학을 이끌 수 있는 팀을 구성하는 등 좀 더 포괄적인 환경 탐색(horizon scanning) 능력을 제공한다.

- 그러나 인공 지능 분야의 발전에도 불구하고 과학적 과정들을 운용할 수 있는 기술들(ex. 연구 과제 제출용 웹사이트)이 매우 정체되어 있어 발목을 잡고 있다.

 

- 노벨 물리학상 수상자 프랭크 윌첵(Frank Wilczek)은 100년 내에 최고의 물리학자는 기계가 될 것이라는 예측을 했다.

- 그러나 과학은 문제를 풀기에 앞서 새로운 문제를 제기하거나 새로운 연구 분야를 발굴해야 한다.

- 인간과 기계의 전략적 파트너십이 필요하다.

- 또한 인공 지능에는 인간의 지능을 옮길 때 발생하는 편향이 담겨 있기 때문에 이를 극복하려는 노력이 필요하며,

- 데이터를 사용하는 연구는 데이터를 얻을 수 있는 분야에 한정된다는 생존 편향 문제를 안고 있다.

 

(5) 맺음말

- 과학의 과학은 이럴 때 요긴하다.

- (1) 중요하지만 간과된 분야를 탐구하려 할 때

- (2) 이미 수행하고 있는 일을 더 효과적으로 수행해 성과를 올리려고 할 때.

- 과학의 과학이 성공하려면 전통적인 분야의 한계를 넘어서야 하며, 모든 분과의 재능, 전통, 경험이 필요하다.