일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 분산표현
- spoken speech
- 표현학습
- 의료윤리
- gt voice
- 뇌와 세계
- common spatial pattern
- BCI
- 잠재변수
- latent variable
- neurotalk
- imagined speech
- 기준음성
- brain-to-speech
- 발화의도
- 신경과학
- neural representation learning
- speech reconstruction
- 헬싱키 선언
- csp 알고리즘
- matlab
- 미겔
- 책
- AI윤리
- AI
- 뇌과학
- HPC
- 블록체인
- Distributed Representation
- csp알고리즘
- Today
- Total
o0y0o
[논문번역] High-performance brain-to-text communication via imagined handwriting (1) 본문
[논문번역] High-performance brain-to-text communication via imagined handwriting (1)
_\oyo/_ 2023. 7. 17. 11:30원본 파일의 222줄까지 1차 번역 진행
doi: 10.1038/s41586-021-03506-2
요약
1. 연구에서는 편마비로 인해 손글씨를 쓰는 행위의 신경 표상이 여전히 유지되는지 확인하고자 했다. T5라는 참가자로부터 기록된 신경 활동을 분석한 결과, 신경 활동 패턴이 각 문자에 대해 일관성 있게 나타나고, 손글씨의 모양을 재구성할 수 있는 것으로 나타났다.
2. 신경 활동을 RNN 알고리즘을 통해 문자의 확률로 변환하여 실시간으로 해독할 수 있는 시스템을 개발하였다. 이를 통해 T5는 손글씨를 쓰며 의도한 메시지를 전달할 수 있었고, 매우 높은 입력 속도와 낮은 오류율을 보였다.
3. 자유롭게 문장을 작성하는 실험에서도 높은 성능을 확인하였으며, 이는 기존 연구에서 보고된 속도를 능가하는 결과였다.
4. 연구 결과에서는 손글씨의 시간적 복잡성이 운동을 해독하기 쉬워지는 요인임을 밝혀내었다. 이는 신경 활동 패턴의 다양성과 구분력이 직선 운동보다 큰 영향을 미치는 것으로 나타났다.
5. 이러한 결과는 손글씨 기반 BCI의 잠재력을 보여주며, 향후 임상 응용을 위해 더 발전시킬 필요가 있다고 언급되었다.
6. 최종적으로, 연구팀은 고성능의 손글씨 BCI 시스템을 개발하였으며, 손글씨와 포인트-앤-클릭 방식을 결합하여 높은 속도와 일반적인 용도의 컴퓨터 응용 프로그램 사용이 가능하도록 하는 것을 제안하였다. 또한, 시각 장애인을 위한 시스템 개발도 가능하다고 언급되었다.
<< 논문 >>
< 요약 >
- BCI는 의사소통이 어려운 사람의 의사소통을 복원할 수 있다.
- 현재(2020)까지 BCI연구의 주요 초점은 손 뻗어 잡기, 2D 컴퓨터를 활용한 커서 움직이기, 타이핑과 같은 종합적 운동 능력 회복
- 손글씨나 터치 타이핑과 같은 섬세한 동작의 빠른 시퀀스는 빠른 통신 속도를 가능케 한다.
- 여기서는 새로운 반복 신경망 디코딩 접근법을 사용해 운동 피질의 신경 활동에서 상상된 필기 동작을 디코딩하고 실시간으로 텍스트로 변환할 수 있는 피질 내 BCI를 선보인다.
- 손이 마비된 참여자가 99%이상의 정확도로 분당 90자를 입력했다.
- 이는 비장애인의 스마트폰 타이핑 속도인 분당 115자와 비슷한 수준이다.
- 새로운 이론적 고려 사항으로, 손글씨와 같이 시간적으로 복잡한 움직임이 점과 점 사이의 움직임보다 근본적으로 해독하기 쉬운 이유를 설명한다.
- 이번 연구 결과는 BCI의 새로운 접근 방식을 제시하고 마비 후 수 년이 지나도 빠르고 민첩한 움직임을 정확히 해독할 수 있는 가능성을 보여준다.
< 결과 >
- 선행연구에 따르면 종합적 운동 기술에 의한 운동 의도는 마비 후에도 운동 피질에 신경 부호화 되어 있다.
- 그러나 손글씨와 같이 고도로 빠르고 섬세한 운동 기술에 대한 신경 표현도 남아 있는지는 알려지지 않았다.
- 연구 참가자인 T5가 각 문자와 기호를 필기하려 시도하는 동안 중심전회의 knob영역에 삽입해 둔 두 개의 미세 전극 어레이에서 신경 활동을 기록하고 이것을 테스트 했다. (그림 1A)
- T5는 척수 손상으로 목 아래가 마비되었고, 종이 위에 펜을 들고 있다 상상하면서 글씨를 쓰는 걸 시도하도록 지시했다.
- 기록된 신경 활동(다중 단위 임계값 교차율)을 주성분 분석을 사용해 가장 많은 분산을 포함하는 3차원으로 줄였다. (그림 1B)
- 신경 활동은 강하고 반복되는 것처럼 보였지만, 피크P와 벨리N의 타이밍은 실험마다 달랐다. (필기 속도의 변동으로 인한 것일 수 있음)
- 시간 정렬 기법을 사용하여 필기 시간에 의한 차이를 제거한 결과, 각 문자에 대해 고유한 신경 활동의 기본 패턴이 놀라울 정도로 일관되게 나타났다. (그림 1C)
- 신경 활동이 각 문자를 쓰는데 필요한 펜의 움직임을 인코딩하는지 확인하기 위해 신경 활동에서 펜촉 속도를 선형적으로 디코딩하여 각 문자를 재구성하려고 시도했다. (그림 1D)
- 결과가 알아보기 쉬운 것을 보아 펜촉 속도가 견고하게 인코딩되었음을 확인할 수 있었다.
- 비선형 차원 축소 방법(t-SNE)을 사용해 “Go” 신호가 주어진 후 기록된 각 실험의 신경 활동을 2차원 시각화로 생성했다. (그림 1E)
- t-SNE 시각화를 통해 각 문자에 대한 신경 활동의 밀집된 클러스터와, 비슷하게 쓴 글자가 밀집해 있는 것을 통해 모터 인코딩을 확인할 수 있었다.
- 신경 활동에 K-최근접 이웃 분류 알고리즘을 적용한 결과, 94.1%의 정확도로 문자를 분류할 수 있었다. (확률 수준 = 3.2%)
- 결과적으로 마비 후 수년이 지나도 운동 피질에서 필기의 신경 표현이 BCI에 유용할 만큼 충분히 강하다는 것을 알 수 있다.
A) T5는 컴퓨터 화면에 표시된 지시에 따라 한 번에 한 글자씩 필기를 시도했다.
B) 상위 세 개의 주성분(PC)의 신경 활동은 세 가지 예시 문자(d, e, m)와 각 문자 trails의 27회 반복에 대해 표시된다.
C) 신경 활동을 시간 왜곡하여 쓰기 시도의 속도 간 변화를 제거하면 각 글자에 고유한 일관된 행동 패턴이 드러난다. M의 예시에서 타임 워핑 함수는 비교적 동일선에 가깝게 배치된다.
D) 소문자 26개와 기호들(, ‘ ? ~), 대문자(>) 총 31개의 테스트 된 문자에 대해 디코딩된 펜 궤적이다. 의도된 2D 펜촉 속도는 교차 검증을 통해 신경 활동에서 각 문자는 유지한 채 선형적으로 디코딩되었다. 그런 다음 디코딩된 속도를 여러 번의 시도에서 평균을 내고 통합하여 펜 궤적을 계산했다. 그림 에서 주황색 원은 궤적의시작을 나타낸다.
E) t-SNE를 사용하여 만든 신경 활동의 2차원 시각화이다. 각 원은 단일 시도이며, 31자 각각에 대해 27번의 시도를 했다.
A) 디코딩 알고리즘의 다이어그램이다. 먼저 신경 활동(다중 단위 임계값 교차)을 시간적으로 구간화(20ms 구간)하고 각 전극에서 평활화 한다. 그런 다음 RNN이 신경 활동의 연속적인 시계열(xt)을 각 문자가 쓰여질 가능성과 새로운 문자가 시작될 확률을 뜻하는 확률 시계열(pt-d)로 변환한다. RNN은 1초의 출력 딜레이(d)를 가지므로 문자를 판단하기 전에 전체적인 문자를 관찰할 시간을 확보할 수 있다. 마지막으로 실시간 출력을 위해 문자 확률을 임계값으로 설정하여 “Raw Output”을 생성했다.(시간 t 시점에 “새 문자“ 확률이 임계값을 넘으면 t+0.3 시점에서 가장 입력 가능성이 높은 문자가 출력됨) 오프라인 후향 분석에서는 문자 확률을 대규모 어휘 언어 모델과 결합하여 참가자가 텍스트를 기반으로 가장 가능성이 높은 텍스트로 해독한다. (사용자 정의 50,000단어 빅그램 모델 사용)
B) 두 가지 실시간 예시 테스트가 나와 있다. RNN이 훈련된 적 없는 문장에서도 쉽게 이해할 수 있는 텍스트를 해독하는 능력을 보여준다. 오류는 빨간색으로 강조되고, 공백은 “>”로 표시된다.
C) 에러율(편집 거리)과 타이핑 속도가 5일에 대하여 표시되어 있고, 각각 7-10개의 문장으로 구성된 4개의 블록으로 구성된다. (각 블록은 하나의 원으로 표시됨) 이 속도는 다음으로 빠른 대뇌피질 내 BCI보다 두 배 이상 빠르다.
“Raw Online Output”은 온라인에서 실시간으로 디코딩 된 것이다. “Online Output + Language Model”은 온라인에서 디코딩된 내용에 언어 모델은 적용한 것이다. 마지막은 언어 모델을 적용하는 것 외에도 사용 가능한 모든 데이터를 사용하여 오프라인에서 양방향(인과적) 디코더를 재훈련한 것이다. 신뢰구간(CI)은 부트스트랩 백분위 방법으로 계산되었다. (시행 10,000번을 통해 재표본화)
(A) 16개의 필기 문자(1초 길이)와 16개의 직선 운동(0.6초 길이)에 해당하는 신경 활동의 시공간 패턴을 분석했다.
(B) 시공간 신경 패턴은 해당 운동에 대한 모든 시행의 평균으로 찾았으며(시간을 정렬한 후), 각 움직임의 지속 시간을 동일하게 맞추기 위해 신경 활동이 다시 샘플링되었다. (그렇지 않으면 직선 운동은 지속 시간이 더 짧아질 것) 이로 인해 각 움직임마다 192x100 행렬(192개의 전극과 100개의 시간 단계)이 생성되었다.
(C) 각 집합에 대해 신경 패턴 간의 쌍방향 유클리드 거리를 계산하였으며, 문자의 경우 최근접 이웃 거리(평균 거리는 아님)가 더 크게 나타났다. 각 원은 하나의 움직임을 나타내며, 막대 높이는 평균을 나타낸다.
(D) 최근접 이웃 거리가 클수록 문자를 직선보다 더 쉽게 분류할 수 있다. 노이즈는 표준 편차 단위이며, C의 거리 척도와 일치한다.
(E) 공간적 차원은 문자와 직선에 대해 유사하지만, 시간적 차원은 문자의 경우 두 배 이상 크게 나타났으며, 이는 증가한 최근접 이웃 거리와 더 나은 분류 성능에 기반한 더 복잡한 시간적 패턴이 존재한다는 것을 시사한다. 오차 막대는 95% CI(부트스트랩 백분위수 방법)를 나타낸다. 차원은 분산의 80%를 설명하는 데 필요한 차원 수와 거의 동일하다. (F, G, H) 장난감 예시를 통해 시간적 차원성이 증가함에 따라 신경 궤적이 더 분리되는 모습을 직관적으로 이해할 수 있다. 네 개의 신경 궤적이 그려져 있으며 (N1과 N2는 활동이 단일 공간 차원에 제약 조건이 있는 가상 뉴런) 궤적에 한 개의 굴곡을 추가하여 시간에 따라 궤적이 달라지도록 허용하면 (시간 차원을 1에서 2로 증가 최근접 이웃거리(G)가 커지고 분류(H)가 향상된다.
*직접 번역 및 번역기(파파고, DeepL) 참고