뇌의 시각 정보 처리의 심층 신경망 모델

사람의 시각 시스템은 우리가 세상을 이해하기 위한 주요 수단 중 하나이다. 빛이 눈에 들어오고 정보가 시신경을 통해 뇌로 전달되면 뇌가 그 정보를 해석해 ‘이미지를 생성’한다. 그 중 뇌가 관여하고 있는 과정은 특히 복잡하고 난해한데, 이것이 인식과 의사 결정, 그리고 모든 행동의 기반이 된다. 즉, 시각 시스템은 뇌의 구조를 알고 싶어하는 과학자의 주된 목표 중 하나가 된다. 그리고 동시에 시각 시스템은 이미지 정보 처리를 위한 궁극 모델 중 하나이다. 공학자는 시각 시스템을 이해하고 이것을 모방함으로써 기계가 복잡한 문제를 해결한다는 오랜 목표에 대응해 왔다. 양쪽의 대응 목적은 다르지만, 동일한 연구 대상을 다른 형태로 쫓고 있다.

최근 심층 신경망이라는 기술은 이들 양쪽의 합류를 촉진해 각각의 목표를 실현하는 데 공헌하기 시작했다. 심층 신경망은 뇌의 신경세포 네트워크의 일부를 모방해 이미지 인식, 물체 탐지 및 이미지 생성과 같은 시각 과제에 대해 탁월한 성능을 보여주고 있다. 그리고 자율주행차, 의료영상 진단, 비디오 분석, 가상현실, 증강현실, 대규모 언어 모델 등 많은 분야에서 혁신적인 응용이 이루어지고 있다. 그리고 이 놀라운 기술은 뇌의 모델이 되기도 한다.

이 글에서는 뇌 모델의 심층 신경망을 간단히 설명한 후, 심층 신경망이 뇌의 시각 정보 처리를 어떻게 모델화하고 있는지를 설명한다. 특히 필자 등의 연구그룹을 중심으로 진행되고 있는 착시 연구는 상세하게 소개하고 싶다. 착시는 사물이 실제와 다르게 보이는 현상으로, 뇌의 시각 정보 처리가 어떻게 작동하고 있는지를 이해하는 데 도움이 되는 유력한 도구이다. 착시는 우리의 시각 시스템이 기대나 바이어스, 패턴 인식에 어떻게 영향받는지를 보여준다. 심층 신경망이 착시를 어떻게 처리하고, 그것이 인간의 시각 시스템과 어떻게 비교되는지를 탐색함으로써 모델의 이해와 개선에 공헌할 것이다. 마지막으로, 이들 기술이 미래에 어떻게 진화하고 그 진화가 우리 뇌를 이해하는데 어떤 역할을 할 것인지, 그리고 어떠한 과제가 존재하는지에 대해서도 논의하고 싶다.

뇌 모델의 심층 신경망

1. 구성론적 접근법

뇌는 대규모의 복잡 시스템이다. 이러한 복잡 시스템을 이해하기 위한 방법 중 하나가 구성론적 접근법이다. 요점은 ‘만들어서 이해한다’고 하는 방법이다. 복잡 시스템은 단순히 규모가 크다는 것만이 아니라, 예상치 못한 창발적인 현상이 발생하기 때문에 시스템 내의 인과관계를 파악하기 어렵고 인간의 이해를 방해하는 경우가 많이 있다. 그러나 시스템을 만들기 위한 단순한 법칙을 얻을 수 있다면 적어도 시스템의 큰 틀은 이해할 수 있다. 가설로서 시스템 생성의 법칙을 고안하고 그것을 실장해 시스템 모델을 동작시키고 그 움직임이 실제와 유사한지를 평가한다. 만약 유사하지 않으면 가설을 수정하는 식의 루프를 돌려 언젠가는 실제 시스템에 근접하기를 기대한다.

뇌는 구성론적 접근법에 비교적 적합하다. 그 최소 유닛은 뉴런으로 특정되어 있으며, 나머지는 최소 유닛이 어떻게 조합되어 작동하는지를 신경망으로서 실장하면 된다. 최소 유닛인 뉴런의 모델화 자체도 구성론적 접근법의 일부라는 점은 항상 유의해 둘 필요는 있지만, 만약 최소 유닛을 가령 고정해도 된다면 나머지는 학습 규칙, 아키텍처, 목적함수, 그리고 환경이라는 네 가지 요소를 가설로 고안해 심층 신경망에 실장해 가는 것이 AI 개발 환경이 잘 갖춰진 현재로서는 가장 효율적인 방법이다. 효율화를 중시한 나머지 뇌를 안다는 대의를 놓쳐서는 안 되지만, 아직 이 방법론이 다 추구된 상황에 있지 않고 또한 유용한 AI로서 심층 신경망 기술은 눈에 띄게 발전하고 있으므로 이 노선을 잠시 달리는 것도 나쁘지 않은 선택이다. 앞으로 이 글은 이 논거를 바탕으로 써 갈 것이며, 우선은 뉴런의 모델화부터 설명한다.

2. 뉴런의 모델화

생물학적인 뉴런을 시간의 개념까지도 포함해 재현하려고 하는 경우 스파이킹 뉴런 모델이 사용된다. 스파이킹 뉴런 모델로 구성된 네트워크를 스파이킹 신경망이라고 한다. 스파이킹 뉴런 모델에서는 막 전위의 개념이 재현되어 막 전위가 임계값에 도달하면, 뉴런은 발화하고 신호를 생성해 다른 뉴런으로 전달하며 다른 뉴런은 이 신호에 따라 전위를 증감시킨다. 스파이킹 신경망은 NEURON 등의 시뮬레이터 툴에서도 시행할 수 있으며, python으로 스크래치에서 쓸 수도 있다(예를 들어, 문헌 ‘제로에서 만드는 Spiking Neural Networks’). 단 현시점에서는 뇌의 대규모 신경망에 적용하기에는 계산 리소스적인 어려움 때문에 비교적 소규모의 네트워크 특성을 연구하기에 적합한 모델로 되어 있다.

대규모 신경망 레벨의 연구가 되면, 일반적으로는 막 전위의 시간 특성을 없애고 간소화된 인공 뉴런을 뉴런 모델로 이용한다. 이 인공 뉴런은 심층 신경망에서도 활용되고 있으며, 가장 성공적인 뉴런 모델이다. 인공 뉴런이라는 호칭은 너무 범용적이며, 어의로서 많은 뉴런 모델을 포함하게 되기 때문에 여기서는 편의상 노드라고 부르기로 한다. 노드의 작동은 매우 단순하며, 다른 노드군에서 모은 입력 신호를 활성화 함수에 의해 통합해 출력 신호로 변환되는 기능만을 가지고 있다. 시간은 이산적으로 관리되며, 개별 노드는 자신의 과거 정보를 갖지 못한다. 노드에서는 시간적인 정보가 결여되어 있기 때문에 리커런트 네트워크 등의 재귀적 구조나 트랜스포머를 비롯한 어텐션계 처리 등의 도입, 즉 네트워크 구조로서 시계열 정보를 기억해 두게 된다. 단, 현재의 심층 신경망 한계의 대부분이 이 노드의 특성에서 비롯되고 있을 가능성에는 주의를 기울여야 한다.

최초로 제안된 노드는 형식 뉴런이라고 불리며 1943년에 신경생리학자인 워런 맥컬록(Warren McCulloch)과 논리학자인 월터 피츠(Walter Pitts)에 의해 발표됐으며(이때 아직 전자계산기가 발명되지 않았다!), 활성화 함수로는 활동 전위를 모방한 스텝 함수가 사용되고 있었는데(출력이 0이나 1) 현재는 여러 가지 활성화 함수가 준비되어 수학적으로 범화되어 있다.

3. 학습 규칙

노드의 성질은 활성화 함수로 규정되는데, 노드가 모여 생긴 심층 신경망의 성질을 규정하고 있는 것은 학습 규칙, 아키텍처, 목적함수, 그리고 환경(학습 데이터)의 네 가지 요소이다. 학습 규칙은 현대의 효율 중시 심층 신경망의 대부분에서 역오차전파법이 채용되고 있다. 이것은 출력에서 재귀적으로 기울기를 연쇄적으로 계산하는 것이다. 그 외의 학습 규칙으로는 헵 학습, 예측 부호화, 수상돌기 오류 학습, 주의 게이트 강화학습, 피드백 얼라인먼트 등이 있다. 역오차전파법은 그 압도적인 성능에 비해 비판도 많다. 그것은 대칭적인 정보의 전방 및 후방 전파 등 생물학적으로 있을 수 없는 가정에 의존하고 있는 것에 원인이 있다.

그러나 최근의 연구에서는 세포 내외의 전기생리학, 억제성 미세 회로, 스파이크 타이밍 패턴, 단기 가소성, 피드백 접속 등에 관한 비교적 단순한 가정을 통해 생물학적인 뇌에서도 역오차전파법 학습을 근사할 수 있다는 것을 알았다. 따라서 심층 신경망을 기반으로 한 뇌 모델은 이전에 생각했던 것만큼 비현실적이지 않을 수 있으며, 대부분의 신경생물학적 데이터를 설명할 수 있다고 생각해도 결코 부자연스럽지 않다. 물론 역오차전파법의 옳고 그름 혹은 그 이외의 국소적으로 작용하는 학습 규칙을 추구하는 것을 늦추지 말아야 한다.

4. 아키텍처

아키텍처란 노드가 어떻게 배치되고 심층 신경망 전체가 어떠한 연산을 하는지를 보여주는 설계도이다. 컨볼루션 네트워크에서는 입력의 공간적인 확대에 대해 동일한 수용야가 반복적으로 적용되는 접속 패턴이 부과되며, 공간상에 배치된 데이터 간의 관계성을 링크시키도록 설계되어 있어 이미지 처리에 위력을 발휘한다. 트랜스포머에서는 시퀀스 데이터 입력에 대해 데이터 간의 거리와는 무관계로 데이터 간의 연관성 가중치를 학습해 간다. 오토 엔코더에서는 입력한 데이터 압축을 반복한 과정 후(엔코드), 데이터 해동을 해(디코드) 입력 데이터와 동일한 데이터를 출력하도록 설계되어 있다. 오토 엔코더는 디코드과 엔코드의 중간 지점에 압축된 특징량 맵이 형성된다. 그 성질을 이용해 변분 자동 엔코더에서는 중간층에서 베이즈 추정의 사후 분포를 근사할 수 있다. 순환 신경망에서는 노드 특성에 의해 손실된 시계열 데이터의 정보 처리를 할 수 있도록 과거 신호를 피드백시키는 회로가 추가되어 있다.

우리가 연구 대상으로 중용하고 있는 PredNet은 아키텍처로서 대뇌피질의 유력한 이론 모델로 예측 부호화가 실장되어 있다. 그 구조는 나중에 설명하겠지만, 감각 신호와 예측 신호의 비교에 의해 내부 모델의 학습이 구조화되고 있다. 신경과학자의 관심은 뇌의 회로 레벨 기술에 있는 경우가 많지만, 항간에 개발이 추진되고 있는 심층 신경망 아키텍처는 반드시 그것을 의식한 것은 아니다. 앞에서 다룬 예의 컨볼루션 네트워크 아키텍처는 예외적이며, 대뇌 시각야의 초기 과정에 관한 생리학적인 지식을 바탕으로 고안됐다. 현재도 신경회로 추적과 유전적 계통 결정을 위한 최신 기술 덕분에 뇌 회로 레벨의 기술에 급속한 발전을 볼 수 있으며, 모델 연구에 큰 영향을 미칠 것으로 기대된다. 또한 회로 레벨의 기술을 그대로 실장하는 것이 아니라, PredNet과 같이 기능성을 아키텍처로서 실장시키는 것도 중요한 방법론이다(후술).

5. 목적함수

목적함수는 학습 시스템의 목표를 기술하는 것이다. 심층 신경망의 시냅스 가중치와 그것이 받아들이는 데이터에 의해 기술되는 함수인데, 특정 태스크나 데이터 세트를 언급하지 않고 정의할 수 있다. 예를 들어, 기계학습에서 자주 사용되는 교차 엔트로피 목적함수는 ImageNet 데이터 세트의 개와 고양이 구별에서부터 SNS 게시물 배후에 있는 감정 분류까지 모든 인식 태스크 성능을 계산하는 수단을 규정하고 있다. 대부분의 신경과학자는 학습 규칙과 아키텍처의 중요성을 인식하고 있다.

그러나 학습이나 진화의 과정에서 뇌를 형성해 온 목적 기능을 특정하는 것은 그다지 일반적이지 않다. 아키텍처나 학습 규칙과는 달리 목적 기능은 뇌 안에서 직접 관찰할 수 없다. 그러나 특정 환경이나 태스크를 참조하지 않고 수학적으로 정의하는 것은 가능하다. 예를 들어 예측 부호화 모델에서는 내부 모델의 신경 표현 부호화와 감각 데이터 부호화를 실시해 그 두 부호 간의 차분을 최소화하는 목적함수가 정의되어 있다.

이 외에도 뇌에 관련된 목적함수가 몇 가지 제안되어 있다. 또한 뇌는 여러 개의 목적함수를 최적화하려고 작동하고 있을 가능성도 있다. 오히려 목적함수가 여러 개 있는 편이 더 자연스러울 것이다. 실험적으로 관찰된 신경 활동과 자연적인 상황에서 학습한 인공 신경망의 신경 활동을 비교함으로써 목적함수를 추정하려고 하는 연구도 있다.

6. 환경

마지막으로 잊기 쉬운 것은 환경(학습 데이터)이다. 어떤 동물의 뇌 성질을 결정하기 위해서는 동물의 진화적이고 발생적인 환경을 고려해야 할 것이다. 자연계의 자극을 효율적으로 기술해 관련된 행동을 동정하는 노력은 신경과학에 있어 매우 중요하다. 환경은 뇌를 지탱하는 중요한 고려 사항임에도 불구하고 구성 요소의 하나라고 생각하는 사고도 있는데, 그것은 잘못된 것이라고 말할 수밖에 없다. 개인적인 의견이므로 듣고 흘려버려도 좋지만, 필자는 환경을 포함해 뇌라고 생각한다. 목적함수와 아키텍처, 학습 규칙이 완전히 똑같더라도 심층 신경망의 출발점은 빈 용기에 지나지 않으며, 무엇이 입력되는지에 따라 심층 신경망의 성격이 결정된다. 음성 데이터를 학습한 모델로 이미지 처리는 불가능하다. 일본어권에서 자란 사람은 일본어를 잘하고 영어권에서 자란 사람은 영어를 잘하는 것과 동일하다. 뇌와 심층 신경망은 환경의 거울이라고 해도 과언이 아니다. 실제로 심층 신경망 준비 시간의 대부분은 학습 데이터 준비에 소요된다. 또한 진화 과정을 고려하면, 환경의 성질에 의존해 목적함수나 아키텍처, 학습 규칙이 획득된 것이다. 그렇게 되면 나머지 세 가지 요소를 고안할 때도 환경의 성질은 무시할 수 없다.

목적함수와 아키텍처, 학습 규칙 그리고 환경이라는 네 가지 요소가 심층 신경망의 코어에 있다. 이들을 창의적으로 고안함으로써 제3차 인공지능 붐은 큰 발전을 이루었다. 그리고 뇌 모델로서 심층 신경망의 미래도 같은 맥락에서 풀어가면 이해하기 쉽다.

착시와 심층 신경망

1. 시각

뇌와 심층 신경망의 상관은 주로 시각 정보 처리 연구에서 추진되어 왔다. 컨볼루션 처리를 하는 심층 신경망의 층은 대뇌피질 영역을 의식해 설계되어 있는데, 저차층에서는 대뇌의 초기 시각야에서 발견되는 방위 선택성을 갖는 노드가 발견되고, 고차층에서는 대뇌의 고차 시각야에서 발견되는 복잡한 특징량에 반응하는 노드가 발견된다. 미디어에서 크게 화제가 된 ‘구글 고양이’도 그 중 하나이다. 이러한 상관은 모든 정보 쌍 간의 비유사도를 나타낸 행렬인 Representational Dissimilarity Matrix(RDM)를 작성해 비교함으로써 측정하는 경우가 많은데, 다양한 계층의 데이터 유사가 나타나고 있어 앞으로 이 비교 방법을 발전시킬 필요가 있을 것이다.

최근 대부분의 지식과 견해는 심층 신경망이 뇌에 관한 이론에 도움이 된다는 것을 시사하고 있다. 우선 심층 신경망은 영장류 지각계의 표현 변환을 경우에 따라서는 충실하게 모방할 수 있다고 나타나 있으며, 이에 의해 신경 활동을 조작하기 위해 활용할 수 있다. 두 번째로 그리드 세포, 형상 튜닝, 시간 수용야, 메타 강화학습, 착시 등 많은 잘 알려진 행동·신경생리학적 현상이 심층 신경망에서 출현하는 것으로 나타나 있다.

이상과 같은 비교적 일반적인 심층 신경망의 모델 뇌 연구에 관해서는 많은 총설에서 기술하고 있으므로 관심 있는 분은 그쪽을 참조하길 바라며, 지면 사정도 있어 이하에서는 필자 등이 진행하고 있는 심층 신경망을 뇌 모델로서 활용한 착시 연구에 대해 소개하려고 한다.

2. 착시

착시란 사물이 실제와 다르게 보이는 현상으로, 뇌의 시각 정보 처리가 어떻게 작동하는지를 이해하는 데 도움이 되는 유력한 도구이다. 크기, 형태, 색상이나 움직임 등 다양한 현실의 파라미터가 지각상으로는 다르게 표현된다(그림 1).

그림 1. 잉크 블로트 착시<br>
두 개의 얼룩이 퍼져 나가는 것처럼 보인다(필자의 작품).

착시는 수백 년에 걸친 연구 역사를 지니고 있지만, ICT의 발달과 함께 최근 크게 발전해 온 분야이다. 백번 듣는 것보다 한번 보는 게 나으므로 관심이 있는 분은 기타오카 아키카(北岡明佳) 박사의 홈페이지나 착시착청 콘테스트의 홈페이지를 보시길 바란다(홈페이지의 제목으로 검색). 착시착청 콘테스트에서는 매년 신작 착시착청이 발표되고 있으며, 필자 등의 과거 입상 작품도 볼 수 있다(자랑). 착시는 우리의 시각 시스템이 기대와 바이어스, 패턴 인식에 어떻게 영향받는지를 나타내고 있다. 심층 신경망이 착시를 어떻게 처리하고 그것이 인간의 시각 시스템과 어떻게 비교되는지를 탐색함으로써 모델의 이해와 개선에 공헌한다.

필자 등이 연구 대상으로 삼고 있는 것은 뱀의 회전 착시를 대표로 하는 움직이는 착시이다. 동 실험에서는 심층 신경망의 네 가지 요소, 학습 규칙, 아키텍처, 목적함수, 그리고 환경 중 앞의 세 가지 요소는 삼위일체의 메타 규칙으로 취급되고 있다. 또한 환경은 사람의 경험을 유사화한 동영상 데이터를 고수했다. 학습 규칙, 아키텍처, 목적함수의 세 가지 요소에 대뇌피질의 이론인 예측 부호화를 메타 규칙으로 실장해 뇌 모델을 구축하고, 뇌 모델에 사람과 동일한 환경을 입력해 착시 모양 지각의 재현을 시도하는 것이다.

3. 예측 부호화

예측 부호화에 대해 소개한다. 뇌의 시각 정보 처리의 본질이 예측이라는 기능은 아닐까 하는 추측은 100년 이상 전부터 제안되어 왔다. 이 추측은 시각에만 국한되지 않는다. 평소 생활하고 있다고 의식하는 경우는 드물지만, 우리의 감각기에서 입력되는 정보는 실제 세계에 넘쳐나는 정보의 극히 일부에 지나지 않는다. 그 암흑이라고 할 수 있는 상황 속에서 우리가 실시간으로 몸을 움직이고, 그리고 살아가기 위해서는 뇌가 부족한 정보를 하나하나 예측으로 보충할 수밖에 없다. 뇌는 그 예측을 위해 경험과 학습을 통해 얻은 정보에 의해 실제 세계의 내부 모델을 구축하고, 그 내부 모델을 통해 세계 상태를 예측한다. 이러한 사고는 현대에는 예측 부호화 혹은 자유 에너지 원리라는 명칭으로 불리며, 여러 방면에서 검증이 진행되고 있다.

예측 부호화에서는 뇌의 내부 모델이 감각 입력(보텀업 신호 혹은 피드포워드 신호)을 추정하는 예측 신호(톱다운 신호 혹은 피드백 신호)를 생성하고 있는 것으로 한다. 두 신호의 차분이 내부 모델 혹은 고차층에 대한 입력 신호가 되어 차분 최소화를 목표로 네트워크 학습이 진행되어 간다(목적함수). 대뇌피질이라면 어느 영역에서도 관찰할 수 있는 양방향성 네트워크 구조가 회로상의 근거이다(아키텍처). 예측 부호화에서 정보의 통합은 고차야가 아니라 저차야로 내려오는 피드백, 즉 예측 신호 중에 표현된다. 필자 등은 착시가 생기는 원인을 예측 신호에서 구하고, 착시의 예측설을 제안했다. 착시 예측설은 원래 의식에 올라와 있는 시각 세계란 예측 그 자체가 아닌가 하는 주관 세계에 대한 전제 조건도 포함하고 있으며, 오랜 철학적 명제에 대한 도전이기도 하다.

Lotter 등이 예측 부호화를 심층 신경망에 실장했다. 그들의 의도는 비디오 예측에 응용하는 것이다. 과거의 비디오 프레임으로부터 미래의 비디오 프레임을 정도 좋게 예측할 수 있다면, 예를 들어 자율주행차의 귀중한 정보원이 될 수 있다. PredNet이라고 불리는 네트워크의 아키텍처를 그림 2에 나타냈다. 내부 모델로는 시계열 데이터를 취급할 수 있도록 리커런트 네트워크의 일종인 LSTM이 채용되어 있다. 또한 원래의 LSTM이 잘 못하는 공간 정보 처리를 효율적으로 수행할 수 있도록 전역이 컨볼루션 네트워크로 구성된다. 컨볼루션 네트워크가 채용되어 있는 덕분에 네트워크의 메모리 용량이 작아진다는 장점도 있다. 예측 오차 신호는 이 컨볼루션 LSTM에 입력되는 동시에 상위층의 ‘감각 입력’으로도 이용된다. 컨볼루션 LSTM의 출력은 예측 신호 그 자체로, 이 신호는 하위층의 컨볼루션 LSTM에도 입력되어 동층의 예측 신호의 참조가 되기도 한다. 목적함수는 최하층의 입력 신호와 예측 신호의 최소 제곱 오차이다. 즉, 이 심층 신경망은 학습 규칙, 아키텍처, 목적함수의 세 가지 요소가 예측 부호화로서 삼위일체로 표현되어 있다. 이것이 뇌에 목적함수가 명확하게 발견되기 어려운 이유 중 하나이며, 예측 부호화는 세 가지 요소 규칙을 통합한 메타 규칙이라고 할 수 있다. PredNet은 그 메타 규칙을 잘 실장하고 있다.

4. 착시를 재현하기 위한 환경

이제 나머지는 환경이다. 필자 등은 환경으로서 1인칭 시점의 동영상(촬영지는 플로리다의 디즈니월드)을 채용했다. 1인칭 시점의 동영상이 우리 시각 세계의 입력 자극의 모방이 된다. 1인칭 시점의 동영상 예측을 학습함으로써 1인칭 시점의 세계 모델의 다양한 규칙이 심층 신경망 내에 들어오게 된다. 동영상 시간으로 해서 10시간 이상 학습한 결과, PredNet은 학습에 사용한 적이 없었던 시계열 이미지로부터도 다양한 시공간 특성을 예측할 수 있게 됐다(20장의 시계열 이미지를 입력해 미래의 21장 째 22장 째를 예측). 사실은 이것이 큰 포인트이다. 보통의 심층 신경망에서는 입력되는 환경과 테스트에서도 동일한 종류의 환경이 제시된다. 그러나 동 연구에서는 입력되는 환경과 테스트 환경이 크게 달라 학습하지 않은 이종 환경에 대한 예측이 시험된다. 평소 생활하고 있는 환경에는 없는 착시를 갑자기 본 인간과 같은 상황이다. 연구에 사용된 코드와 데이터는 공개되어 있으므로 누구나 추가 시험할 수 있다.

5. 움직이는 착시를 재현한 심층 신경망 모델

뱀의 회전 착시는 리쓰메이칸 대학의 기타오카(北岡) 교수가 작성한 움직이는 착시의 일종으로, 움직이지 않는 정지 화면임에도 불구하고 본 것에 큰 회전운동 지각을 일으킨다. 동 착시를 20장 연속으로 정지 화면으로서 학습이 끝난 PredNet에 입력하고, 2장의 시계열 예측 이미지에 사람이 지각하는 회전운동과 같은 방향의 옵티컬 플로를 검출했다. 뱀의 회전 착시는 우회전과 좌회전의 운동 지각을 디자인할 수 있는데, 동일한 이미지 중에 우회전과 좌회전의 옵티컬 플로를 재현할 수 있었다(그림 3 : 빨간 선이 AI가 검출한 옵티컬 플로). 뱀의 회전 착시는 동일한 디자인 부품(노란색, 파란색, 검은색, 흰색의 부품)을 사용해 움직이지 않는 디자인으로도 변경할 수 있지만, 이 네거티브 디자인을 학습이 끝난 PredNet에 입력한 결과 예측 이미지에는 회전 운동적인 Optical Flow가 검출되지 않았다.

그림 3. AI가 검출한 뱀의 회전 착시 움직임<br>
빨간 선이 검출된 Optical Flow의 크기와 방향이고, 노란 점이 Flow의 시작점. 검출된 회전 방향은 사람의 지각과 일치한다.

뱀의 회전 착시 이외의 움직이는 착시에 대해서도 같은 해석을 실시했다. 300개의 움직이는 착시(기타오카 교수가 만든 착시 299종+필자가 작성한 착시 1종)에 600종의 그림(사실화 300종과 추상화 300종), 600종의 사진(움직이는 오브젝트가 찍힌 사진 300종과 정물이 찍힌 사진 300종) 등 합계 1500개의 이미지로 구성되는 테스트 데이터 세트를 만들고, 이들 이미지 데이터를 학습이 끝난 PredNet에 입력해 뱀의 회전 착시와 동일하게 예측 이미지로부터 Optical Flow를 계산했다. 그 결과, 다양한 착시 이미지에서 회전운동뿐만 아니라 사람의 지각과 일치하는 병진운동 등 다양한 Optical Flow가 검출됐다.

한편, 그림이나 사진에서는 대부분의 경우 노이즈 레벨의 Optical Flow만이 검출됐다. 그러나 일부 그림과 사진에서는 큰 Optical Flow가 검출됐다. 큰 Optical Flow가 검출된 부분을 잘라내어 착시 모양 디자인을 작성하고 심리 실험을 한 결과, 놀랍게도 이들 디자인은 움직이는 착시로서 기능을 했다. 원래의 사진이나 그림에 내장되어 있을 때는 움직이는 착시로는 기능하지 않았으므로 주위의 글로벌 정보에 의해 억제되어 있던 것을 학습이 끝난 PredNet이 검출한 것으로 추정된다. 이 현상은 어떤 의미에서 PredNet이 준비되어 있지 않은 것으로 생각할 수도 있지만, 시각의 로컬 정보와 글로벌 정보의 상호작용을 생각하는 데 있어 흥미로운 현상이다. 움직이는 착시 이외에도 학습이 끝난 PredNet은 많은 착시의 지각 재현이 이루어지고 있다. 예를 들어, 주관적 윤곽이나 플래시 러그 착시는 PredNet의 개발자인 Lotter 등의 연구그룹에 의해 재현되는 것이 확인됐다. 또한 필자 등은 주관 색상, 애프터 효과 등의 재현을 확인했다(미발표).

그림 4. AI가 만들어낸 움직이는 착시<br>
링이 확대되어 보인다. 링 자체를 보는 것이 아니라 중앙의 흑점을 보거나 이미지 외에 주목하고 있을 때에 지각된다. 반대로 링의 하나에 주목하면 그 링의 확대는 정지한다.

6. 착시 제너레이터

앞의 연구에서는 학습이 끝난 PredNet은 사진과 그림으로부터 착시를 추출했는데, 필자 등은 더 적극적인 시도로 착시를 심층 신경망으로 창출하는 데 성공했다. 패턴 제너레이터에 의해 랜덤한 디자인 패턴을 생성하고, 이 생성한 디자인 패턴에 대해 학습이 끝난 PredNet이 착시 모양의 Optical Flow가 있는지를 판정해 그 판정을 바탕으로 유전적 알고리즘이 디자인 패턴을 진화시키는 착시 제너레이터를 작성했다(그림 4). 이 착시 제너레이터는 새로운 착시를 만들 뿐만 아니라, 새로운 착시 즉 사람이 움직이고 지각할 수 있는 디자인을 만들어냄으로써 학습이 끝난 PredNet의 시각 정보 처리가 사람과 비슷하다는 것을 나타내는 증거가 되기도 한다. 인공지능에 의해 만들어진 착시군은 인터넷상에 공개되어 있으므로 꼭 찾아보길 바란다(EIGen Visual Illusions에서 검색). 이외에도 고메스 등의 그룹이 적대적 생성 네트워크(Generative adversarial networks)를 이용함으로써 밝기의 착시를 만들어내는 구조를 고안했다.

이외에도 통계 모델로 밝기나 색상의 착시를 만드는 시도도 있다. 이들 착시 생성 모델은 단순히 새로운 시각적 착각을 합성해 우리 연구자의 지적 호기심을 충족시키는 데 공헌할 뿐만 아니라, 인공 신경회로의 정보 처리와 인간의 시각 인식 유사점 사이의 차이점을 상세하게 발견하기 위한 새로운 방법론을 제공할 것으로 기대된다.

7. 산업에 대한 응용

사람의 지각을 모방한 심층 신경망을 산업에 응용 연구하는 것이 진행되고 있다. 착시를 재현하는 심층 신경망은 인간의 시각 시뮬레이터로서 기능하며, 인간이 ‘지금 무엇을 보고 있는가’를 가시화할 수 있다. 즉, 자동차 운전자의 관점을 인공적으로 재현함으로써 교통 상황에 따라 운전자를 지원할 수 있게 될 것이다. 연구는 아직 기초 레벨의 검증 실험이지만(기초생물학연구소와 파나소닉의 공동 연구), 심층 신경망의 예측 오차를 주의와 연결시킴으로써 교통사고로 이어질 가능성이 있는 리스크의 검출에 성공했다(그림 5 : 왼쪽 상황에 대해 인공 시각이 해석을 했다. 오른쪽에서는 인공 시각이 주의를 보행자에 대해 초점을 맞추고 있다(빨간 마커). 그러나 정말 위험한 것은 오른쪽에서 튀어나오는 자동차이다. 앞으로 시각 시뮬레이터는 교통 분야뿐만 아니라 다양한 분야로 전개될 가능성을 가지고 있다.

과제와 해결의 길

심층 신경망을 뇌의 모델로서 활용하기 위해서는 수많은 과제가 있지만, 여기서는 계산 리소스와 블랙박스 문제를 다루기로 한다.

1. 계산 리소스

우선은 계산 리소스이다. 일반적으로 심층 신경망은 엄청난 계산 리소스를 필요로 한다. 뇌의 소비전력은 겨우 20W로, 소규모의 GPU 계산기에서도 수백 W의 소비전력인 것을 생각하면, 심층 신경망은 에너지적으로 비효율적인 시스템으로 되어 있다. 앞으로 뇌의 모델링을 추진하는 데 있어 이 계산 리소스의 절감은 피할 수 없다. 뉴로모픽 엔지니어링(Neuromorphic Engineering)은 그 시도 중에서도 가장 야심적인 것으로, 생물의 뇌신경 시스템을 하드웨어로 실장하는 것을 목표로 하는 공학의 한 분야이다. 그 목표는 생물의 뇌 구조와 기능을 반도체 등으로 실현하는 것으로, 보다 효율적이고 보다 강력한 계산 시스템을 설계하는 데 있다. 심층 신경망 비효율성의 근본이 되는 노드가 독립적인 병렬 계산을 할 수 없다는 점도 손볼 수 있다. 뉴로모픽 엔지니어링은 1980년대에 캘리포니아 공과대학의 카버 미드(Carver Mead)에 의해 제창되어 여전히 발전 도상에 있는 분야로 미래가 기대된다.

2. 블랙박스 문제

다음으로 블랙박스 문제이다. 이것은 심층 신경망이 제시한 답이 어떠한 프로세스를 거쳤는지 알 수 없다는 문제이다. 심층 신경망이 보유하고 있는 파라미터가 너무 방대해서 답을 도출하기 위한 길을 추적할 수 없다. 이 문제는 뇌를 이해하기 위해서뿐만 아니라 산업 응용을 할 때도 문제가 된다. 블랙박스 문제는 인간의 심리에 그림자를 드리운다. 예를 들어 자율주행에서는 인과관계가 불분명한 블랙박스에 사람의 생명을 맡기는 것에 거부감이 생긴다. 그 때문에 ‘설명 가능한 AI(Explainable AI : XAI)’라고 불리는 AI가 내린 판단의 근거를 찾는 기술의 개발이 추진되고 있다. 대표적인 것은 Grad-CAM으로 대표되는 근거의 시각화 기술이다. 적어도 무엇을 근거로 판단했는지가 밝혀지면 안심 재료는 된다. 단, 낙관하는 것은 금물이다. 입출력에 가까운 부근에서 블랙박스의 내부 설명을 구하는 기법이 발달할지도 모른다. 그러나 여전히 중심의 블랙박스는 블랙박스 그대로이다.

오해를 두려워하지 않고 말하면, 심층 신경망이라는 존재는 어쩌면 새로운 과학의 형태를 암시하는 것일지도 모른다. 사람은 세상을 이해하기 위해 세계의 규칙을 단순한 함수로 대체해 왔다. 뉴턴 법칙 등은 그 전형적인 예이다. 과연 뇌와 같은 복잡한 시스템을 이해할 때도 같은 방법이 통할까? 복잡한 시스템을 복잡한 그대로 이해하는 새로운 과학으로 전환하는 것이 요구되고 있을지도 모른다.

맺음말

필자는 기초생물학연구소에 소속된 생물학자이다. 생물학자의 관점에서 한마디 하고 이 글을 마무리하려고 한다. 현재의 생물학에서는 발생과 생리, 행동과 생태, 그리고 진화에 이르기까지 모든 생물 현상을 유전자로 설명하려고 한다. ATGC라는 네 글자 기호로 생물을 말하고 싶은 것이다. DNA에서 RNA 그리고 단백질까지는 일대일 관계로 설명할 수 있고, 그 구조를 이해하기가 쉽다. 그러나 그 다음은 다대다, 즉 네트워크 문제가 되어 구조의 이해가 매우 어렵다. 이 상황은 앞에서 말한 뇌의 문제와 마찬가지로, 사실은 사람이 실패하고 있는 많은 문제의 중심에는 네트워크라는 괴물이 살고 있다. 그래서 구성론적 접근법이 나올 차례이다. 네트워크를 구축하기 위한 요소, 특히 예측 부호화나 자유 에너지 원리와 같은 메타 규칙을 찾아내 그것을 모델에 실장하고 실행해 네트워크의 본질을 이해해 간다. 이러한 기법이 모든 과학 분야의 이정표가 될 것으로 생각된다.