일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- brain-to-speech
- common spatial pattern
- BCI
- latent variable
- speech reconstruction
- 기준음성
- neurotalk
- matlab
- 블록체인
- csp 알고리즘
- 신경과학
- 뇌과학
- imagined speech
- 표현학습
- 뇌와 세계
- gt voice
- csp알고리즘
- AI
- 미겔
- spoken speech
- AI윤리
- 책
- Distributed Representation
- HPC
- 의료윤리
- 발화의도
- 잠재변수
- neural representation learning
- 분산표현
- 헬싱키 선언
- Today
- Total
o0y0o
[논문번역] Towards Voice Reconstruction from EEG during Imagined Speech (1/2) 본문
[논문번역] Towards Voice Reconstruction from EEG during Imagined Speech (1/2)
_\oyo/_ 2024. 9. 15. 21:52작년에 약식으로 진행하였던, "특정 음운에 대한 음성 데이터, 뇌파 데이터 사이의 유의미한 상관관계가 존재하는가 알아보는 탐구"를 제대로 진행하기 위해 선행연구를 조사하다 해당 논문을 발견하게 되었습니다.
이 논문은 2024년 1월, 고려대학교 뇌인지공학과 및 인공지능학과에서 Nature Biomedical Engineering 저널에 발표한 논문으로, non-invasive한 방법으로 측정한 imagined speech EEG로부터 speech reconstruction하는 시스템을 소개합니다.
스스로 이해가 안 되었던 부분은 풀어서 적었기에 의/오역이 존재할 수 있으며, 저의 추가적인 설명은 회색으로 작성해 두었으니 참고 부탁드립니다.
■ Abstract
brain activity에서 말을 재구성하려고 하는 시도, Brain-to-speech (BTS)는 말하는 동안의 brain signals를 invasive하게 측정하고 분석함으로써 잠재력을 확인할 수 있었습니다.
그러나 사람이 실제로 말하지 않고 마음속으로만 상상하는 음성, 즉 상상된 음성을 speech reconstruction하는 데는 여전히 한계가 있었습니다.
상상된 음성은 외부로 드러나는 GT voice가 없기에 이를 정확하게 reconstruction하기 위해서는 brain signals만을 사용하여 그 내용을 추론해야 하고, 이는 기술적으로 어렵고 복잡한 과제입니다. GT voice는 음성 합성 또는 음성 재구성과 관련된 연구에서 모델이나 시스템의 출력을 평가하는 데 사용되는 실제 음성 데이터를 뜻합니다.
이 논문에서는 상상된 음성의 non-invasive한 EEG signals를 사용자의 목소리로 변환하는 "NeuroTalk"이라는 시스템을 제안합니다.
NeuroTalk는 실제로 말할 때의 EEG로 훈련되었으며, 이 데이터를 통해 모델은 말하는 음성의 특성을 학습할 수 있었습니다.
이후 이 모델을 상상된 음성에 적용하기 위해 일반화 과정을 거쳤고, 이는 실제로 발화되지 않은 상상된 음성과 그에 해당하는 brain signals 사이의 자연스러운 대응을 가능하게 했습니다.
NeuroTalk의 framework에서 ASR 디코더를 사용하여 생성된 음성의 phonemes를 분해함으로써 보이지 않는 단어에서의 speech reconstruction 가능성을 보여주었습니다. 예를 들어, 모델이 'apple'과 'banana'를 학습했다면, 'pan'이라는 새로운 단어도 재구성할 수 있게 됩니다.
이 연구의 결과는 실제 말할 때의 brain signals 뿐만 아니라 상상할 때의 EEG signals를 사용하여 실제 음성을 합성할 수 있는 잠재력을 보여줍니다. 즉, 이 논문의 핵심은 non-invasive한 방법으로, 음성을 "상상"할 때의 뇌파를 측정했다는 것으로 보입니다.
■ Introduction
인간의 뇌 활동에서 음성을 직접적으로 합성하는 기술은 특히, 마비 환자나 의사소통 장애를 가진 사람들을 위한 새로운 커뮤니케이션 수단으로서의 잠재력을 지니고 있습니다.
기존의 BCI 연구에서 BTS는 주로 invasive한 방법에 초점을 맞추었으나(Anumanchipalli, Chartier, and Chang 2019; Angrick et al. 2019; Herff et al. 2019), 이 논문에서는 non-invasive한 방법으로 상상된 음성의 EEG를 실제 음성으로 변환하는 새로운 시스템을 제안합니다.
발화 시의 brain signals로부터 언어를 재구성하는 것의 잠재력이 밝혀진 이후로, 우리는 뇌파를 통해 speech reconstruction하는 과정에서 특정 뇌 부위의 활동이 음성의 중요한 특징을 인코딩할 수 있을 것이라 예상합니다. 즉, 말할 때 활성화되는 뇌 부위와 유사한 방식으로 상상할 때도 뇌의 특정 부위가 활성화되고, 이러한 활성화된 신호를 분석하여 상상된 음성의 특징을 추출할 수 있을 것이라는 예상입니다.
상상된 음성은 주로 배측 감각운동 피질(ventral sensorimotor cortex, vSMC)에 위치하는 말하는 음성의 신경 활성화 경로와 유사한 것으로 알려져 있습니다(Watanabe et al. 2020; Si et al. 2021; Cooney, Folli, and Coyle 2018; Lee, Lee, and Lee 2019).
만약 상상된 음성이 말하는 음성과 유사한 특징을 가지고 있다면, 말하는 음성의 뇌 신호, 말하는 음성 오디오, 그리고 상상된 음성의 뇌 신호를 연결할 수 있을 것입니다.
더 나아가, 만약 우리가 상상된 음성에서 phonemes를 학습하고 추론할 수 있다면, 이미 학습된 phonemes로 구성된 여러 보이지 않는 단어들도 학습된 단어 세트에서 재구성할 수 있을 것입니다.
이 논문의 목표는 상상된 음성과 관련된 brain activity를 non-invasive한 방법으로 정확하게 수집하고, 이를 사용해 실제 사용자의 목소리로 재구성하는 기술을 개발하는 것입니다. 이를 통해, 사용자가 실제로 말하지 않고도 자신의 의도를 명확한 음성으로 전달할 수 있도록 하려고 합니다.
이 논문의 주요 기여는 다음과 같습니다.
- non-invasive한 EEG signals로부터 음성을 생성하기 위해, frequency characteristics(주파수 특성, ex. 델타파, 세타파, 알파파)과 sequential information(순차적 정보, 뇌 신호에서 시간에 따른 변화를 분석하는 것을 의미)을 추출할 수 있는 multi-receptive residual modules를 기반으로 한 recurrent neural networks (RNN)을 사용하는 generative model을 제안합니다.
- ground truth voice가 없다는 상상된 음성 기반 Brain-to-Speech (BTS) 시스템의 근본적인 제약을 상상된 음성 EEG, 말하는 음성 EEG, 그리고 말하는 음성 오디오를 연결하는 domain adaptation 방법을 사용하여 해결하였습니다.
- 미리 훈련된 모델에서 보이지 않는 단어들을 character-level loss를 사용하여 다양한 phonemes를 적응시켜 재구성할 수 있었습니다. 이는 모델이 뇌 신호로부터 phoneme level information을 학습할 수 있음을 의미하며, 몇 개의 단어나 구절만을 훈련하여 강력한 음성 생성의 가능성을 보여줍니다.
■ Background
▷ Speech-related Paradigms
BTS 연구에 주로 사용되는 Speech-related Paradigms은 spoken speech, mimed speech, imagined speech의 세 가지 범주로 나눌 수 있습니다(Schultz et al. 2017).
- spoken speech는 사람이 실제로 소리를 내어 말하는 자연스러운 말로, 발성과 발음기관의 움직임을 포함합니다.
- mimed speech는 실제로 소리를 내어 말하지는 않지만, 큰 소리로 말하는 것처럼 입과 혀의 움직임을 포함합니다.
- imagined speech는 내부적으로만 음성을 상상할 뿐, 실제 움직임이나 소리는 동반되지 않습니다.
▷ Invasive Approach
Invasive한 측정은 두개골 내부에서의 직접적인 brain activity를 측정하기 위한 수술 과정이 포함됩니다. 이는 높은 신호 대 잡음비(SNR)를 제공하지만, 의료적 위험과 수술에 따른 문제가 발생할 수 있습니다.
뇌피질전도(Electrocorticography, ECoG)을 사용한 연구들(Akbari et al. 2019; Anumanchipalli, Chartier, and Chang 2019; Angrick et al. 2019; Herff et al. 2019)과, 입체뇌전도 (Stereotactic Electroencephalography, SEEG) 깊이 전극을 사용하여 더 깊은 뇌 구조에서 음성을 해독하려는 시도들(Angrick et al. 2021a, 2022, b; Herff, Krusienski, and Kubben 2020)은 말하는 음성 데이터를 사용한 speech reconstruction의 가능성을 보여주었습니다.
ECoG는 두개골을 열고 전극을 대뇌 피질 바로 위에 두어 뇌의 전기신호를 측정하는 방법, SEEG는 대뇌에 전극을 삽입하여 깊이에 따른 뇌전도를 측정할 수 있는 방법입니다.
▷ Non-invasive Approach
뇌전도 (Electroencephalography, EEG)
EEG는 수술 과정을 필요로 하지 않으며 접근성이 좋기 때문에 실용적으로 가장 널리 사용되는 non-invasive한 방법입니다(Krishna et al. 2020).
하지만 invasive한 방법에 비해 상대적으로 SNR이 낮고 artifact 문제가 있어 brain signals로부터 사용자의 의도를 추출하는 데 어려움이 존재합니다(Graimann, Allison, and Pfurtscheller 2009).
Spoken speech based BTS
Spoken speech 혹은 mimed speech의 brain signals, kinematic/EMG data로부터 speech reconstruction 하는 방법의 잠재력이 발견되었습니다(Gaddy and Klein 2020, 2021; Gonzalez et al. 2017).
그러나 spoken speech-based BTS는 BCI의 본질적인 목표에 대한 최종 솔루션이 될 수 없습니다. 왜냐하면 그건 무언無言의 의사소통이 아니기 때문입니다. (사용자가 말할 수 있다면 뇌 신호로부터 음성을 재구성할 필요가 없습니다.)
Decoding imagined speech
현재 EEG에서 imagined speech을 디코딩하는 기술은 classification 문제에서 유망한 결과를 보여주고 있습니다(Nguyen, Karavas, and Artemiadis 2017; Saha, Abdul-Mageed, and Fels 2019; Wang et al. 2013; Lee, Lee, and Lee 2020; Krishna et al. 2020).
이전의 연구는 주로 classification 작업이나 EEG 신호에서 텍스트 디코딩을 목표로 했습니다(Makin, Moses, and Chang 2020).
그러나, 분류 작업에서 class를 확장하는 것은 어려운 일이며(Lee, Lee, and Lee 2020), brain signals로부터 음성을 생성하는 직관적인 시스템을 제공하기 위해서는 imagined speech로부터 speech reconstruction하는 것이 중요합니다.
Imagined speech based BTS
imagined speech의 EEG에서 speech reconstruction의 근본적인 제약은 낮은 SNR과 brain signals에 해당하는 vocal ground truth(GT)의 부재입니다.
따라서 지금까지 non-invasive한 방법으로 imagined speech에서의 speech synthesis는 설득력 있는 결과를 가져오지 않았습니다.
Whispered speech와 imagined speech 동안 invasive data에서 음성을 재구성하려는 시도가 있었지만, invasive한 방법에서도 상대적으로 불충분한 성능이 보고되었습니다(Angrick et al. 2021b). 즉, 이는 invasive한 방법으로도 imagined speech의 speech reconstruction이 어려운 과제임을 의미합니다.
Imagined speech에서의 speech synthesis는 현재의 voice 또는 text 기반 communication에서 brain-based communication으로 human communication의 새로운 시대를 열 수 있는 열쇠가 될 수 있습니다. 또한 이는 말을 할 수 없는 환자나 앞으로 목소리를 잃을 수 있는 환자를 도울 수 있는 기술이 될 수 있습니다.
■ Method
이 연구에서의 전체 framework입니다. Imagined speech EEG가 입력으로 주어져, 상상된 단어나 구절의 해당 오디오가 사용자의 목소리로 재구성됩니다.
Spoken EEG와 Imagined EEG는 도메인 적응(domain adaptation)을 통해 서로 조정되어, Imagined EEG가 Spoken EEG 와 유사한 형태로 변환됩니다.
Feature Embedding & Generator (G) 단계에서는 EEG data를 Feature embedding vector로 변환하고, 이를 사용하여 음성의 mel-spectrogram을 생성합니다.
'G'는 생성기를 의미하며, embedding vector에서 mel-spectrogram을 생성합니다. mel-spectrogram은 실제 음성의 주파수 특성을 나타내는 이미지입니다.
'D'는 입력의 유효성을 판별하는 판별기를 의미합니다. 아래쪽 부분에서는 두 모델, 사전 훈련된 vocoder 'V'와 ASR 모델 'A"가 mel-spectrogram에서 text를 생성합니다.
L_ctc(G)는 Generator가 생성한 텍스트와 실제 텍스트 간의 차이를 최소화하는 데 사용되는 손실 함수이며, L_adv(G, D)는 Generator와 Discriminator 간의 adversarial training을 통해 진짜 같은 음성을 생성하기 위한 손실 함수입니다.
이 섹션에서는 Figure 1에 나타는 것처럼 생성기, 판별기, vocoder, ASR 모델을 포함한 이 논문에서 사용된 모델 framework와 reconstruction loss, generative adversarial network (GAN) loss, connectionist temporal classification(CTC) loss에 대해 설명합니다. 여기서 설명하는 각 모델과 손실 함수는 speech reconstruction 과정에서 특정 역할을 수행하며, 상호작용을 통해 더 정확한 speech reconstruction 결과를 만들어 냅니다.
수집된 spoken speech와 imagine speech의 brain signals는 최적의 feature를 추출하기 위해 feature Embedding으로 표현됩니다. feature embedding은 brain signals의 중요한 정보를 수치화하고 압축하여, 후속 모델들이 이를 더욱 효과적으로 처리할 수 있도록 합니다.
GAN을 적용한 generator(Goodfellow et al. 2014)는 spoken speech 동안 목표 음성과 일치하도록 mel-spectrogram을 재구성합니다. GAN의 generator는 입력된 데이터로부터 음성의 mel-spectrogram을 생성하며, 이는 실제 음성과 유사해야 합니다. 이 과정은 말하는 음성의 질을 향상시키는 데 중요합니다.
generator에 대한 reconstruction loss는 EEG 신호에서 재구성된 mel-spectrogram과 말하는 음성 동안의 ground truth mel-spectrogram 사이의 차이로 결정됩니다. reconstruction loss는 생성된 결과와 실제 데이터 사이의 일치도를 측정하는 지표로 사용되며, 이를 최소화하는 것이 목표입니다. 이는 모델의 성능을 평가하고 향상시키는 데 기여합니다.
discriminator는 mel-spectrogram의 입력 샘플이 real 또는 fake인지를 분류하고, generator와 discriminator에 대한 adversarial loss를 계산합니다. discriminator의 역할은 생성된 데이터가 진짜와 구분할 수 없을 정도로 진짜와 유사한지를 판단하는 것이며, 이 과정에서 adversarial loss를 통해 generator의 성능을 지속적으로 개선하려고 합니다.
ASR model(음성 데이터를 텍스트로 변환하여, 음성 정보를 문자 정보로 바꾸는 데 사용됩니다.)은 연속된 discrete units의 contextual sequence로 음성을 표현할 수 있는 speech-to-text 모델입니다.
사전 훈련된 vocoder는 mel-spectrogram을 reconstructed voice로 변환하며, 이는 사전 훈련된 ASR model에 의해 characters로 변환됩니다.
사전 훈련된 ASR model은 voice를 text로 변환하고, generator에 대한 CTC loss를 계산합니다. CTC loss는 sequence 학습에서 출력 sequence와 타겟 sequence 간의 차이를 측정하여, ASR 모델의 정확도를 높입니다.
Imagined speech 동안 voice가 녹음되지 않았기 때문에, spoken speech 동안의 voice가 ground truth로 사용되었습니다.
EEG와 spoken speech의 voice 사이에서 mel-spectrogram을 맞추기 위해 EEG에서 재구성된 mel-spectrogram과 spoken speech 동안의 mel-spectrogram 사이에 dynamic time warping (DTW)이 적용되었습니다.
또한, spoken speech의 architecture를 imagined speech의 architecture로 전달하기 위해 domain adaptation (DA)이 수행되었습니다.
▷ Architectures
Embedding vector
Spatial, temporal, spectral 정보는 모두 speech-related brain signals에 중요하며, 이 특성들은 vector-based brain embedding features을 통해 brain signals에서 맥락적 의미를 나타낼 수 있습니다 (Goldstein et al. 2022; Lee, Lee, and Lee 2020).
Embedding vector는 spatial patterns를 극대화하고 temporal oscillation patterns을 추출하기 위해 common spatial pattern (CSP)을 사용하여 생성되었습니다.
CSP는 covariance matrices를 사용하여 최적의 spatial filters를 찾으며(Devlaminck et al. 2011), speech-related brain signals를 해석하는 데 도움을 줍니다(Lee, Lee, and Lee 2020; Nguyen, Karavas, and Artemiadis 2017).
spoken EEG와 imagined EEG의 data distribution 차이를 줄이기 위해, CSP filters는 두 EEG signals과 공유되었습니다. CSP filters는 noise가 포함될 수 있는 spoken EEG보다는 순수한 brain signals만 포함된 imagined EEG와 함께 훈련되었습니다. CSP filters를 공유함으로써, spoken EEG domain은 imagined EEG의 부분 공간에 적응되었습니다.
이는 두 유형의 EEG 신호 간의 차이를 줄이기 위해 동일한 CSP 필터를 사용함으로써, spoken speech EEG가 imagined speech EEG와 유사한 특성을 갖도록 조정하는 과정입니다. 이는 두 데이터 유형 간의 일관성을 향상시키는 데 도움을 줍니다.
CSP Common Spatial Pattern filters는 training dataset을 사용하여 8개의 CSP features와 중첩 없이 16개의 segments로 훈련되었습니다. 8개의 CSP features는 특정 조건의 뇌 신호를 가장 잘 구별할 수 있는 8쌍의 주요 방향 벡터를 의미하며, 16개의 segments는 brain signals를 시간 축을 따라 16개의 동등한 시간 구간으로 나누어 분석한다는 것을 의미합니다. 이로써 brain signals를 공간적으로도, 시간적으로도 세밀하게 분석할 수 있게 됩니다.
각 EEG signals의 시험은 time points × channels (5000 × 64)의 크기를 가집니다. 이를 통해 해당 연구에서 64 channels EEG를 사용했으며, 1 Trial이 5000ms라는 것을 추정해 볼 수 있습니다.
CSP 적용 후, EEG signals에서 변환된 embedding vector는 104 features × 16 time segments를 가지며, 여기서 features는 13 classes × 8 CSP features로 구성됩니다. 13 Classes × 8 CSP Features = 104 Features. 각 class마다 8개의 CSP features가 존재하고, 총 104개의 다른 데이터 포인트가 각 segments에서 생성됩니다.
Generator
제안된 generator의 주요 구조는 sequence 정보를 포착하기 위한 gated recurrent unit (GRU)(Cho et al. 2014)와, vanishing gradient 문제를 방지하면서 temporal 및 spatial 정보를 포착하기 위한 여러 residual blocks로 구성되어 있습니다.
Figure 2a는 generator를 자세히 설명합니다. generator의 입력은 EEG signals의 embedding vector로 주어지며, 출력은 mel-spectrogram으로 생성됩니다.
embedding vector는 1d convolution을 포함하는 pre-convolution layer를 통과하고, bi-directional GRU에서 추출한 sequence features를 통합합니다. mel-spectrogram의 출력 크기와 일치하도록 1d convolution layer가 적용되었습니다.
그 후에, generator는 stride가 두 개 또는 세 개인 transposed convolution을 사용하여 upsample하였고, 다양한 kernel size를 가진 여러 residual blocks의 출력의 합인 multi-receptive field fusion (MRF) module이 따릅니다.
(a) 생성기, (b) 판별기, (c) MRF 모듈의 구조 세부 사항입니다. 생성기와 판별기 모두에서 MRF 모듈이 실험에서 세 번 반복되었습니다. k_r은 잔차 블록의 커널 크기를 나타내며, D_은 잔차 블록의 팽창률을 나타냅니다.
Discriminator
discriminator는 Figure 2b에서 설명된 것과 같이 generator의 반대 방향으로 구성되어 있습니다. discriminator는 generator가 생성한 데이터를 평가하는 역할을 합니다. 즉, generator가 데이터를 생성하는 과정을 역으로 진행하여, 생성된 데이터의 진위를 판별합니다.
discriminator의 입력은 mel-spectrogram이고, 출력은 입력된 mel-spectrogram이 'real'인지 'fake'인지를 결정하는 신호입니다.
또한, discriminator는 voice에서 얻은 mel-spectrogram만을 사용하여 그들의 class에 대해서만 훈련되었습니다. 이는 discriminator가 실제 음성에서 얻은 mel-spectrogram 데이터를 기반으로만 훈련되었다는 것을 의미합니다. 즉, 실제 음성 데이터에서 추출된 mel-spectrogram을 사용하여 real과 fake를 구분하는 능력을 학습하였습니다.
입력된 mel-spectrogram은 먼저 1d convolution을 포함하는 pre-convolution layer를 통과합니다.
그러고 나서, transposed convolution과 MRF module을 사용하는 upsampling layer가 수행됩니다.
이후에 bi-directional GRU는 sequence features를 추출하고, classifier를 통해 입력된 mel-spectrogram이 실제인지 가짜인지에 대한 유효성이 평가됩니다.
Vocoder and ASR
Vocoder와 ASR model은 brain signals에서 재구성된 음성을 텍스트로 변환함으로써 명확하게 해석합니다. Vocoder는 음성 신호를 처리하여 사람이 들을 수 있는 형태로 만드는 도구이고, ASR(Automatic Speech Recognition) model은 이 음성을 텍스트로 변환합니다. 이러한 과정을 통해 뇌 신호에서 추출한 음성 데이터를 보다 이해하기 쉬운 텍스트 정보로 전환하여 사용자에게 제공합니다.
실시간 BTS 시스템에 맞게 우리의 프레임워크를 조정하기 위해, 빠른 추론 속도를 가진 고품질의 vocoder인 사전 훈련된 HiFi-GAN(Kong, Kim, and Bae 2020)을 적용했습니다.
사전 훈련된 모델 ‘Universal ver.1’과 동일한 구조와 하이퍼파라미터가 적용되었으며, 이는 Universal dataset과 함께 훈련되었습니다. (‘Universal ver.1’은 다양한 음성 데이터에 적합하도록 설계된 범용 vocoder 모델입니다.)
ASR은 사전 훈련된 HuBERT(Hsu et al. 2021)로 구성되어 있으며, 이는 Libri-Light dataset으로 훈련된 후 LibriSpeech dataset으로 미세 조정된, 대형 구성의 자기 감독 학습 모델입니다.
▷ Training Loss Term
(중략하겠습니다)
Reconstruction loss
GAN loss
CTC loss
▷ Domain Adaptation
이 연구에서는 Imagined speech에서 speech reconstruction의 근본적인 제약을 해결하기 위해 domain adaptation (DA)를사용했습니다. DA는 한 도메인(ex. Imagined speech)에서 얻은 데이터를 다른 도메인(ex. Spoken speech)에 적용할 수 있도록 조정하는 과정입니다.
Imagined speech는 발음기관의 움직임을 동반하지 않기 때문에, 입 움직임과 진동에 동반된 movement artifacts 측면에서 상대적으로 신뢰성이 있습니다. Imagined speech는 실제로 입이 움직이거나 소리를 내지 않기 때문에, 말하는 동안 발생할 수 있는 움직임 관련 아티팩트(movement artifacts)의 영향을 받지 않습니다. 이는 Imagined speech 데이터가 다른 형태의 데이터보다 오류나 외부 간섭에 의한 영향을 덜 받는다는 것을 의미합니다.
그러나 Imagined speech에 대한 ground truth audio가 존재하지 않기 때문에, Imagined speech EEG와 spoken speech의 voice의 자연스러운 대응을 활용하기 위해 spoken speech의 도메인에서 Imagined speech의 도메인으로 적응하는 framework를 설계했습니다.
DA 과정은 두 단계로 수행되었습니다; 1) Imagined speech의 CSP filter를 적용하여 Imagined speech EEG와 spoken EEG 간의 covariance matrix를 공유하고 2) spoken EEG의 훈련된 모델에서 generator와 discriminator에 transfer learning을 적용합니다.
Sharing subspace
Imagined speech EEG의 training set (60%)로 훈련된 CSP weights는 embedding vectors를 생성하기 위해 공유되었습니다.
Imagined speech EEG에서 계산된 CSP filters를 공유함으로써 spoken EEG의 latent space가 Imagined speech EEG의 comparable feature space로 이동될 수 있습니다.
대부분의 transfer learning 접근법이 잘 훈련된 classifier에 weak domain을 적용하는 것과 달리, 우리는 그 반대를 선택하여 spoken speech의 feature space를 Imagined speech의 그것으로 가져왔습니다. 일반적으로 transfer learning은 덜 개발된 분야(weak domain)에서 잘 개발된 분야(classifier가 잘 훈련된)로 정보를 전달합니다. 하지만 이 연구에서는 그 반대로, spoken EEG의 잘 발달된 특징 공간을 Imagined speech으로 전달하였습니다.
그 경우, 우리는 movement artifacts나 vibration artifacts보다는 speech signal의 brain signal에서 더 명확한 패턴을 얻을 수 있었습니다.
Transfer learning
모델은 spoken EEG의 training set로 훈련되었으며, 그 후 Imagined speech EEG의 training set로 spoken EEG의 경우보다 작은 learning rate로 fine-tuned되었습니다.
이는 spoken speech의 voice recordings과 연결되며, 이는 Imagined speech의 ground truth로 작용합니다.
spoken EEG에서 훈련된 모델은 정보가 부족한 Imagined speech EEG의 모델 훈련을 도울 수 있으므로, spoken EEG는 Imagined speech EEG의 weak features에서 학습을 안내할 수 있습니다.