天橋腦科學(xué)研究院資助的首個中文腦電圖數(shù)據(jù)集研究項(xiàng)目登上《自然》子刊|鈦快訊
(圖片來源:unsplash)
鈦媒體App 6月7日消息,南方科技大學(xué)劉泉影教授、澳門大學(xué)伍海燕教授聯(lián)合課題組日前在英國自然子刊《Scientific Data》上發(fā)表了一項(xiàng)突破性研究成果——首個專門針對中文語言的腦電圖數(shù)據(jù)集“ChineseEEG”。
研究團(tuán)隊(duì)表示,ChineseEEG數(shù)據(jù)集不僅對神經(jīng)科學(xué)、語言學(xué)及相關(guān)領(lǐng)域有著深遠(yuǎn)的意義,還將在腦機(jī)接口、語義解碼等領(lǐng)域帶來廣泛的應(yīng)用前景。例如,可以利用基于腦信號的文字轉(zhuǎn)換技術(shù),幫助殘障人士通過大腦活動直接控制計算機(jī)或其他設(shè)備,為他們提供更便捷的交流和生活方式。
這項(xiàng)研究是天橋腦科學(xué)研究院(TianQiao & Chrissy Chen Institute, TCCI)資助的首個中文腦電圖數(shù)據(jù)集研究項(xiàng)目,同時也是TCCI發(fā)起的MindD數(shù)據(jù)支持計劃的第一個資助項(xiàng)目,并且還是《Nature》子刊上首個用于語義對齊和神經(jīng)解碼的中文語言的腦電圖數(shù)據(jù)集。
實(shí)際上,語言是人類交流的核心,無論是使用母語還是學(xué)習(xí)新語言,大腦都能迅速理解和表達(dá)。這種能力源于大腦對語言的復(fù)雜處理機(jī)制。當(dāng)接收語言信息時,大腦會啟動一系列神經(jīng)活動來解析這些數(shù)據(jù)。通過研究這些神經(jīng)活動,科學(xué)家們可以揭示大腦如何處理和理解語言。
近年來,腦電圖(EEG)、功能磁共振成像(fMRI)和皮層腦電圖(ECoG)等技術(shù)在研究大腦語言處理機(jī)制方面發(fā)揮了關(guān)鍵作用。然而,大量神經(jīng)信號數(shù)據(jù)的獲取依然困難,尤其是針對中文的腦電圖數(shù)據(jù)集相對稀缺。不同語言的結(jié)構(gòu)差異意味著大腦處理這些語言的方式也不盡相同,因此創(chuàng)建基于非英語刺激的腦電圖數(shù)據(jù)集顯得尤為重要。
為了填補(bǔ)這一空白,劉泉影教授和伍海燕教授的研究團(tuán)隊(duì)通過使用兩部經(jīng)典中文小說《小王子》和《狼王夢》作為實(shí)驗(yàn)材料。這些文本不僅包含了豐富的常用漢字和表達(dá)方式,而且為實(shí)驗(yàn)提供了多樣化的語言刺激。每位參與者默讀了長達(dá)12小時的中文文本。期間,研究團(tuán)隊(duì)記錄了他們的腦電圖等數(shù)據(jù)。實(shí)驗(yàn)包括了一個練習(xí)閱讀階段和兩個正式的閱讀階段,每個階段均由數(shù)個實(shí)驗(yàn)運(yùn)行組成。
實(shí)驗(yàn)設(shè)備和相關(guān)數(shù)據(jù)模態(tài)
ChineseEEG數(shù)據(jù)集的優(yōu)勢在于,除了提供多種預(yù)處理后的腦電圖傳感器級數(shù)據(jù)外,還提供了由BERT-base-chinese模型生成的中文文本嵌入,為研究自然語言處理模型中的文本表示與大腦神經(jīng)活動之間的關(guān)系提供了新的視角。研究人員可以利用這些數(shù)據(jù)集深入分析大腦如何處理中文,推動跨語言神經(jīng)科學(xué)研究的發(fā)展。
那么,ChineseEEG可以具體用來做什么呢?
- 首先,由于參與者接受了長達(dá)12小時的中文語言刺激,涵蓋了豐富的詞匯和語義,這對于研究大腦長期處理語言的變化十分有益;
- 其次,利用128個通道的高密度腦電圖數(shù)據(jù)和每秒1000次的采樣率,研究人員能夠精確追蹤大腦在閱讀中文時的微妙變化;
- 最后,更為重要的是,研究者提供了經(jīng)過處理的腦電圖數(shù)據(jù)和文本嵌入,使得不具備神經(jīng)科學(xué)或計算機(jī)科學(xué)背景的人也能夠直接使用這些數(shù)據(jù)進(jìn)行研究。
舉例來說,這些數(shù)據(jù)可用于:1、腦電圖的時頻分析,幫助提取神經(jīng)振蕩的不同頻段;2、腦電圖源重建,揭示大腦活動的源頭;3、文本嵌入,利用預(yù)先訓(xùn)練好的技術(shù)計算小說的嵌入,探索腦電圖與文本之間的關(guān)系;4、數(shù)據(jù)對齊,幫助研究者更好地理解他們收集到的數(shù)據(jù),將腦電圖數(shù)據(jù)與文本內(nèi)容和眼動追蹤數(shù)據(jù)對齊。
伍海燕教授表示:“海量腦科學(xué)數(shù)據(jù)的采集、管理和分析是公認(rèn)的難題,這也極大地制約了以大模型為代表的新一代AI在相關(guān)領(lǐng)域的應(yīng)用。天橋腦科學(xué)研究院推出的MindD數(shù)據(jù)支持計劃及時滿足了科學(xué)家和臨床醫(yī)生群體的需求。”
MindD數(shù)據(jù)支持計劃面向中國神經(jīng)科學(xué)家、認(rèn)知科學(xué)家、心理學(xué)家,以及神經(jīng)和精神疾病醫(yī)生開放,在安全合規(guī)的前提下,資助人類大腦及相關(guān)全身和行為數(shù)據(jù)的采集、分析和訓(xùn)練。該計劃首期計劃提供1億元經(jīng)費(fèi)資助,同時免費(fèi)提供存儲服務(wù)器、算力等基礎(chǔ)設(shè)施,創(chuàng)新數(shù)據(jù)采集技術(shù),以及AI和數(shù)據(jù)專業(yè)人才資源。天橋腦科學(xué)研究院與澳門大學(xué)伍海燕、南方科技大學(xué)劉泉影聯(lián)合課題組達(dá)成的資助正是該計劃的首批項(xiàng)目之一。
天橋腦科學(xué)研究院(TCCI)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的全球最大私人腦科學(xué)研究機(jī)構(gòu)之一,主要推動三大領(lǐng)域的關(guān)鍵性大腦研究:大腦的探知,大腦相關(guān)疾病治療以及大腦功能的開發(fā)。TCCI與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了TCCI加州理工神經(jīng)科學(xué)研究院。TCCI建成了支持腦科學(xué)研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括學(xué)術(shù)會議和交流、夏校培訓(xùn)、AI加速科學(xué)大獎、科研型臨床醫(yī)生獎勵計劃、特殊病例社區(qū)、中文媒體追問等。
展望未來,團(tuán)隊(duì)表示,隨著技術(shù)的進(jìn)一步成熟和數(shù)據(jù)集的不斷豐富,預(yù)計將有更多創(chuàng)新研究成果涌現(xiàn),深化人類對大腦如何處理語言和其他復(fù)雜任務(wù)的理解。MindD計劃也將繼續(xù)幫助相關(guān)研究領(lǐng)域突破數(shù)據(jù)瓶頸,為“AI 腦科學(xué)”的發(fā)展奠定良好基礎(chǔ),同時吸引更多國際合作和跨學(xué)科研究,加速AI技術(shù)在醫(yī)療和健康領(lǐng)域的實(shí)際應(yīng)用。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)