o0y0o

[논문번역] High-performance brain-to-text communication via imagined handwriting (1) 본문

BCI/논문

[논문번역] High-performance brain-to-text communication via imagined handwriting (1)

_\oyo/_ 2023. 7. 17. 11:30

원본 파일의 222줄까지 1차 번역 진행
doi: 10.1038/s41586-021-03506-2

full_고성능 필기 BCI.pdf
1.75MB


요약

더보기

1. 연구에서는 편마비로 인해 손글씨를 쓰는 행위의 신경 표상이 여전히 유지되는지 확인하고자 했다. T5라는 참가자로부터 기록된 신경 활동을 분석한 결과, 신경 활동 패턴이 각 문자에 대해 일관성 있게 나타나고, 손글씨의 모양을 재구성할 수 있는 것으로 나타났다.

2. 신경 활동을 RNN 알고리즘을 통해 문자의 확률로 변환하여 실시간으로 해독할 수 있는 시스템을 개발하였다. 이를 통해 T5는 손글씨를 쓰며 의도한 메시지를 전달할 수 있었고, 매우 높은 입력 속도와 낮은 오류율을 보였다.

3. 자유롭게 문장을 작성하는 실험에서도 높은 성능을 확인하였으며, 이는 기존 연구에서 보고된 속도를 능가하는 결과였다.

4. 연구 결과에서는 손글씨의 시간적 복잡성이 운동을 해독하기 쉬워지는 요인임을 밝혀내었다. 이는 신경 활동 패턴의 다양성과 구분력이 직선 운동보다 큰 영향을 미치는 것으로 나타났다.

5. 이러한 결과는 손글씨 기반 BCI의 잠재력을 보여주며, 향후 임상 응용을 위해 더 발전시킬 필요가 있다고 언급되었다.

6. 최종적으로, 연구팀은 고성능의 손글씨 BCI 시스템을 개발하였으며, 손글씨와 포인트-앤-클릭 방식을 결합하여 높은 속도와 일반적인 용도의 컴퓨터 응용 프로그램 사용이 가능하도록 하는 것을 제안하였다. 또한, 시각 장애인을 위한 시스템 개발도 가능하다고 언급되었다.


<< 논문 >>

< 요약 >
- BCI
는 의사소통이 어려운 사람의 의사소통을 복원할 수 있다.
-
현재(2020)까지 BCI연구의 주요 초점은 손 뻗어 잡기, 2D 컴퓨터를 활용한 커서 움직이기, 타이핑과 같은  종합적 운동 능력 회복
-
손글씨나 터치 타이핑과 같은 섬세한 동작의 빠른 시퀀스는 빠른 통신 속도를 가능케 한다.
-
여기서는 새로운 반복 신경망 디코딩 접근법을 사용해 운동 피질의 신경 활동에서 상상된 필기 동작을 디코딩하고 실시간으로 텍스트로 변환할 수 있는 피질 내 BCI를 선보인다.
-
손이 마비된 참여자가 99%이상의 정확도로 분당 90자를 입력했다.
-
이는 비장애인의 스마트폰 타이핑 속도인 분당 115자와 비슷한 수준이다.
-
새로운 이론적 고려 사항으로, 손글씨와 같이 시간적으로 복잡한 움직임이 점과 점 사이의 움직임보다 근본적으로 해독하기 쉬운 이유를 설명한다.
-
이번 연구 결과는 BCI의 새로운 접근 방식을 제시하고 마비 후 수 년이 지나도 빠르고 민첩한 움직임을 정확히 해독할 수 있는 가능성을 보여준다.



<
결과 >
-
선행연구에 따르면 종합적 운동 기술에 의한 운동 의도는 마비 후에도 운동 피질에 신경 부호화 되어 있다.
-
그러나 손글씨와 같이 고도로 빠르고 섬세한 운동 기술에 대한 신경 표현도 남아 있는지는 알려지지 않았다.
-
연구 참가자인 T5가 각 문자와 기호를 필기하려 시도하는 동안 중심전회의 knob영역에 삽입해 둔 두 개의 미세 전극 어레이에서 신경 활동을 기록하고 이것을 테스트 했다. (그림 1A)
- T5
척수 손상으로 목 아래가 마비되었고, 종이 위에 펜을 들고 있다 상상하면서 글씨를 쓰는 걸 시도하도록 지시했다.

-
기록된 신경 활동(다중 단위 임계값 교차율)을 주성분 분석을 사용해 가장 많은 분산을 포함하는 3차원으로 줄였다. (그림 1B)
-
신경 활동은 강하고 반복되는 것처럼 보였지만, 피크P벨리N의 타이밍은 실험마다 달랐다. (필기 속도의 변동으로 인한 것일 수 있음)
-
시간 정렬 기법을 사용하여 필기 시간에 의한 차이를 제거한 결과, 각 문자에 대해 고유한 신경 활동의 기본 패턴이 놀라울 정도로 일관되게 나타났다. (그림 1C)
-
신경 활동이 각 문자를 쓰는데 필요한 펜의 움직임을 인코딩하는지 확인하기 위해 신경 활동에서 펜촉 속도를 선형적으로 디코딩하여 각 문자를 재구성하려고 시도했다. (그림 1D)
-
결과가 알아보기 쉬운 것을 보아 펜촉 속도가 견고하게 인코딩되었음을 확인할 수 있었다.
-
비선형 차원 축소 방법(t-SNE)을 사용해 “Go” 신호가 주어진 후 기록된 각 실험의 신경 활동을 2차원 시각화로 생성했다. (그림 1E)
-  t-SNE
시각화를 통해 각 문자에 대한 신경 활동의 밀집된 클러스터와, 비슷하게 쓴 글자가 밀집해 있는 것을 통해 모터 인코딩을 확인할 수 있었다.
-
신경 활동에 K-최근접 이웃 분류 알고리즘을 적용한 결과, 94.1%의 정확도로 문자를 분류할 수 있었다. (확률 수준 = 3.2%)
-
결과적으로 마비 후 수년이 지나도 운동 피질에서 필기의 신경 표현이 BCI에 유용할 만큼 충분히 강하다는 것을 알 수 있다.

 

< 그림 1 > 필기 시도의 강력한 인코딩

A) T5는 컴퓨터 화면에 표시된 지시에 따라 한 번에 한 글자씩 필기를 시도했다.

B) 상위 세 개의 주성분(PC)의 신경 활동은 세 가지 예시 문자(d, e, m)와 각 문자 trails의 27회 반복에 대해 표시된다.

C) 신경 활동을 시간 왜곡하여 쓰기 시도의 속도 간 변화를 제거하면 각 글자에 고유한 일관된 행동 패턴이 드러난다. M의 예시에서 타임 워핑 함수는 비교적 동일선에 가깝게 배치된다.

D) 소문자 26개와 기호들(, ‘ ? ~), 대문자(>) 총 31개의 테스트 된 문자에 대해 디코딩된 펜 궤적이다. 의도된 2D 펜촉 속도는 교차 검증을 통해 신경 활동에서 각 문자는 유지한 채 선형적으로 디코딩되었다. 그런 다음 디코딩된 속도를 여러 번의 시도에서 평균을 내고 통합하여 펜 궤적을 계산했다. 그림 에서 주황색 원은 궤적의시작을 나타낸다.

E) t-SNE를 사용하여 만든 신경 활동의 2차원 시각화이다. 각 원은 단일 시도이며, 31자 각각에 대해 27번의 시도를 했다.

 

- 손글씨를 실시간으로 완벽히 디코딩 할 수 있는지 테스트해서 마비 환자가 자신의 의사를 손글씨로 전해 의사소통할 수 있도록 하였다.
- 신경 활동을 각 시점에서 각 문자가 쓰여질 가능성을 설명하는 확률로 변환하기 위해 RNN을 훈련시키는 특수한 메소드를 개발했다. (그림2A, SFig. 1)
- 이 확률은 실시간 디코딩 (그림 2A“Raw output”)을 위해 수행한 것처럼 간단한 방식으로 임계값을 설정해 각 문자를 출력하거나, 언어 모델에 의해 보다 광범위하게 처리되어 후향적으로 자동 수정 기능을 시뮬레이션 할 수 있다. (그림2A“Retrospective Output from a Language Model”)
- 그림 1D에 표시된 것처럼 알파벳 소문자 26, 쉼표, 아포스트로피, 물음표, 마침표(T5~로 작성), 공백(T5> 작성)으로 구성된 31개의 제한된 문자 집합을 사용했다.

 

 

< 그림 2 > 실시간 손글씨에 대한 신경 디코딩

 

A) 디코딩 알고리즘의 다이어그램이다. 먼저 신경 활동(다중 단위 임계값 교차)을 시간적으로 구간화(20ms 구간)하고 각 전극에서 평활화 한다. 그런 다음 RNN이 신경 활동의 연속적인 시계열(xt)을 각 문자가 쓰여질 가능성과 새로운 문자가 시작될 확률을 뜻하는 확률 시계열(pt-d)로 변환한다. RNN은 1초의 출력 딜레이(d)를 가지므로 문자를 판단하기 전에 전체적인 문자를 관찰할 시간을 확보할 수 있다. 마지막으로 실시간 출력을 위해 문자 확률을 임계값으로 설정하여 “Raw Output”을 생성했다.(시간 t 시점에 “새 문자“ 확률이 임계값을 넘으면 t+0.3 시점에서 가장 입력 가능성이 높은 문자가 출력됨) 오프라인 후향 분석에서는 문자 확률을 대규모 어휘 언어 모델과 결합하여 참가자가 텍스트를 기반으로 가장 가능성이 높은 텍스트로 해독한다. (사용자 정의 50,000단어 빅그램 모델 사용)

B) 두 가지 실시간 예시 테스트가 나와 있다. RNN이 훈련된 적 없는 문장에서도 쉽게 이해할 수 있는 텍스트를 해독하는 능력을 보여준다. 오류는 빨간색으로 강조되고, 공백은 “>”로 표시된다.

C) 에러율(편집 거리)과 타이핑 속도가 5일에 대하여 표시되어 있고, 각각 7-10개의 문장으로 구성된 4개의 블록으로 구성된다. (각 블록은 하나의 원으로 표시됨) 이 속도는 다음으로 빠른 대뇌피질 내 BCI보다 두 배 이상 빠르다.

 

-RNN을 훈련시키기 위해 T5가 자신의 속도에 맞춰 완전한 문장을 필기하려 시도하는 동안 신경 활동을 기록했다.
-컴퓨터 모니터를 통해 어떤 문장을 언제 필기해야 하는지 지시했다.
-여기에 설명된 실시간 사용 첫 날 이전에, 우리는 3일 동안 총 242개의 문장을 수집하여 RNN을 훈련시켰다. (문장은  British National Corpus에서 선택했다.)
-매일 각각의 디코더 평가가 끝난 후, 그날의 데이터를 다음 날의 훈련 데이터 세트에 누적시켰다. (마지막 날까지 572개의 문장을 생성함)
-RNN을 훈련시키기 위해 자동 음성 인식에서 사용되는 신경망 기법을 적용하여 두 가지 주요 과제를 극복했다.
-(1) 훈련 데이터에서 각 문자가 쓰여진 시간을 알 수 없어(T5의 손이 움직이지 않으므로) 지도 학습 기법을 적용하기 어려웠고, (2) 데이터 세트가 일반적인 RNN 데이터 세트에 비해 크기가 제한되어 훈련 데이터에 과적합을 방지하기 어려웠다. (방법, 보충 방법은 Sfig. 2-3 참조)
 
- 5일 동안 매일 7~10개의 문장으로 구성된 4개의 평가 블록으로 이루어진 평가에서 RNN의 성능을 펴아했다. (따라서 RNN이 해당 문장에 과적합되지 않도록 보장했다.)
- T5는 화면에 표시된 문장을 그대로 한 글자씩 필기하려 시도했으며, 디코딩된 문자는 RNN에 의해 감지되는 대로 실시간으로 화면에 나타났다. (Svideo 1, S2)
- 문자는 T5가 필기를 마친 후 짧은 지연 (0.4~0.7초 사이로 추정, 방법 참조)을 거쳐 출력되었다.
- 디코딩된 문장은 상당히 읽기 쉬웠다.(그림 2B, “Raw Output“)
- 중요한 것은 타이핑 속도가 높았으며, 5.4%의 글자 오류율로 90/분까지 안정화되었다. (Fig. 2C, 빨간 원들의 평균)
- 오류를 자동으로 교정하기 위해 언어 모델을 사용하면 오류율이 상당히 감소했다. (Fig. 2C, 채워지지 않은 사각형; Table 1)
- 단어 오류율은 하루 평균 3.4%로 떨어졌는데, 이는 최신 음성 인식 시스템(4~5%)과 비슷한 수준으로, 실용성 범위 내에 있는 수준이다.
- 마지막으로, 가능한 디코딩 성능의 한계를 조사하기 위해 사용 가능한 모든 문장을 사용하여 비인과적 방식으로 전체 문장을 처리하는 새로운 RNN을 후향적으로 훈련했다.
- 이 경우에 정확도가 매우 높았으며(전체 문장 평균 0.17%의 문자 오류율), 이는 높은 성능의 가능성을 나타낸다.

 

<Table I>. 5일에 걸친 필기 BCI의 평균 문자 및 단어 오류율

“Raw Online Output”은 온라인에서 실시간으로 디코딩 된 것이다. “Online Output + Language Model”은 온라인에서 디코딩된 내용에 언어 모델은 적용한 것이다. 마지막은 언어 모델을 적용하는 것 외에도 사용 가능한 모든 데이터를 사용하여 오프라인에서 양방향(인과적) 디코더를 재훈련한 것이다. 신뢰구간(CI)은 부트스트랩 백분위 방법으로 계산되었다. (시행 10,000번을 통해 재표본화)

 

- 다음으로, 제한이 덜한 상황에서의 성능을 평가하기 위해, T5BCI를 사용하여 개방형 질문에 자유롭게 타이핑한 데이터를 2일 동안 수집했다. (Svideo 2, Table S3)
- 결과는 사용자가 모니터에 표시된 문장을 따라 입력하는 대신 자주적으로 문장을 작성할 때도 높은 성능을 달성할 수 있다는 것을 확인했다. (실시간으로 73.8/분의 타이핑 속도와 8.54%의 글자 오류율, 언어 모델을 사용할 경우 2.25%)
- 대뇌피질 내 BCI에서 자주적으로 자유롭게 타이핑하는 것에 대한 이전의 최고 성능은 정확한 문자 기준 24.4/분으로 보고되었다.
 
- 우리가 알기로 90/분은 어떤 종류의 BCI에서도 보고된 적 없는 가장 빠른 타이핑 속도이다.
- 대뇌피질 내 BCI의 경우, 가장 성능이 우수한 방법은 2차원 컴퓨터 커서를 이용한 지점 및 클릭 타이핑으로, 최대 40/분으로 기록되었다.
- 손글씨 필기 BCI가 비슷한 정확도 수준에서 두 배 이상 빠르게 해독할 수 있는 것일까?
- 우리는 손으로 필기하는 한 글자와 달리 어떤 지점 간 운동은 서로 구별하기가 더 어려울 수 있다고 이론화했다.
- 왜냐하면 필기는 일련의 운동의 시공간 패턴에서 더 많은 다양성을 가지기 때문이다.
- 이 이론을 검증하기 위해 우리는 T5가 수행한 16개의 직선 운동과 펜을 종이에서 들어올리지 않고 쓰는 16개의 문자와 관련된 시공간 신경 활동 패턴을 분석했다. (그림 3A-B)

 

< 그림 3 >. 시간 복잡성이 증가하면 해독이 쉬워질 수 있다.


(A) 16개의 필기 문자(1초 길이)와 16개의 직선 운동(0.6초 길이)에 해당하는 신경 활동의 시공간 패턴을 분석했다.

(B) 시공간 신경 패턴은 해당 운동에 대한 모든 시행의 평균으로 찾았으며(시간을 정렬한 후), 각 움직임의 지속 시간을 동일하게 맞추기 위해 신경 활동이 다시 샘플링되었다. (그렇지 않으면 직선 운동은 지속 시간이 더 짧아질 것) 이로 인해 각 움직임마다 192x100 행렬(192개의 전극과 100개의 시간 단계)이 생성되었다.

(C) 각 집합에 대해 신경 패턴 간의 쌍방향 유클리드 거리를 계산하였으며, 문자의 경우 최근접 이웃 거리(평균 거리는 아님)가 더 크게 나타났다. 각 원은 하나의 움직임을 나타내며, 막대 높이는 평균을 나타낸다.

(D) 최근접 이웃 거리가 클수록 문자를 직선보다 더 쉽게 분류할 수 있다. 노이즈는 표준 편차 단위이며, C의 거리 척도와 일치한다.

(E) 공간적 차원은 문자와 직선에 대해 유사하지만, 시간적 차원은 문자의 경우 두 배 이상 크게 나타났으며, 이는 증가한 최근접 이웃 거리와 더 나은 분류 성능에 기반한 더 복잡한 시간적 패턴이 존재한다는 것을 시사한다. 오차 막대는 95% CI(부트스트랩 백분위수 방법)를 나타낸다. 차원은 분산의 80%를 설명하는 데 필요한 차원 수와 거의 동일하다. (F, G, H) 장난감 예시를 통해 시간적 차원성이 증가함에 따라 신경 궤적이 더 분리되는 모습을 직관적으로 이해할 수 있다. 네 개의 신경 궤적이 그려져 있으며 (N1과 N2는 활동이 단일 공간 차원에 제약 조건이 있는 가상 뉴런) 궤적에 한 개의 굴곡을 추가하여 시간에 따라 궤적이 달라지도록 허용하면 (시간 차원을 1에서 2로 증가 최근접 이웃거리(G)가 커지고 분류(H)가 향상된다.

 

- 우리는 우선 각 신경 활동 패턴 간의 쌍별 유클리드 거리를 분석했다.
- 문자의 경우 각 움직임의 최근접 이웃 거리는 직선과 비교하여 72% 더 크기에 디코더가 두 개의 인접한 문자를 혼동할 가능성이 줄어든다. (그림3C)
- 이를 확인하기 위해 각 움직임 세트에 대한 신경 잡음의 분류 정확도를 모의로 시뮬레이션 했고, 이로써 문자가 직선부다 분류하기 쉬운 것을 확인할 수 있었다. (그림3D)
- 분류 정확도는 잡음의 표준 편차가 최근접 이웃 거리의 약 1/4 정도인 경우에 유의미하게 감소하기 시작한다. (이 경우 각 점 주위의 잡음 클러스터가 교차하여 디코딩 오류가 발생)
 
- 문자의 최근접 이웃 거리의 상대적인 증가를 촉진하는 요인을 밝히기 위해 신경 패턴의 공간적 및 시간적 차원을 조사했다.
- 공간 및 시간적 차원은 신경 활동 패턴의 분산의 80%를 설명하기 위해 필요한 대략적인 공간 또는 시간 축의 수를 측정하는 participation ratio(PR)를 사용하여 측정했다.
- 직선과 문자의 공간적 차원이 유사하다는 것을 발견했지만, 문자의 시간적 차원이 직선보다 두 배 이상 크다는 것을 발견했다.
- 이는 문자 작성의 시간적 패턴의 증가한 다양성이 각 움직임의 구분도 증가시킨다는 것을 시사한다.
- 시간적 차원이 증가했을 대 움직임을 더욱 잘 구별할 수 있다는 것을 보여주기 위해, 우리는 4개의 움직임과 2개의 뉴런을 가진 장난감 모델을 구성했다.
- 이 모델에서의 뉴런 활동은 단일 차원을 따라 제한된 것으로 가정했다. (그림3F-G)
- 뉴런 궤적 간의 최근접 이웃 거리를 증가시킬 수 있으며, 잡음 수준이 충분히 큰 경우 분류 정확도가 증가한다. (그림3H)
 
- 이러한 결과는 필기처럼 시간에 따라 변화하는 운동 패턴은 지점 간 운동과 비교하여 더 해독하기 쉽다는 것을 시사하며, 따라서 의사소통 속도를 더 빠르게 할 수 있다.
- 이 개념은 간단한 움직임이 아닌 시간에 따라 변화하는 동작과 옵션 집합 사이의 이산적 선택을 가능하게 하는 어떤 BCI든지 개선하는 데 일반적으로 적용될 수 있다. (옵션을 시간에 따라 변화하는 제스처와 연관시키는 것을 통하여)
 
- 운동 간의 최근접 이웃 거리를 최대화하는 원칙을 적용하여 분류의 용이성을 최적화하는 것이 가능하며(이전에 목표 위치를 최적화하는 데 사용된 바 있음), 이와 관련된 알파벳을 설계하는 것이 이론적으로 라틴 문자보다 신경 해독 관점에서 더욱 용이하다는 것을 밝혔다. (SFig. 4)
- 우리의 결과는 라틴 문자의 신경 해독 관점에서의 단점 중 하나가 유사하게 작성된 대형 문자 군집이 있음을 시사한다. (대부분의 문자가 아래쪽으로 시작하거나 반시계 방향으로 시작.)

 

 
 
 
 
 

*직접 번역 및 번역기(파파고, DeepL) 참고