主題:適用于復雜結構表型的全基因組關聯分析算法
主講人:北京大學基礎醫學院 畢文健教授
主持人:統計與數據科學學院 林華珍教授
時間:5月22日16:00-17:00
地點:柳林校區弘遠樓408會議室
主辦單位:統計與數據科學學院 科研處
主講人簡介:
畢文健,北京大學基礎醫學院醫學遺傳學系課題組長,研究員,北京大學博雅青年學者,國家級人才計劃入選者。主要工作涉及統計遺傳學、生物統計與系統生物學、生物信息學等,針對基因-環境交互作用、生存數據和多分類表型數據設計了多種快速、準確的分析算法,并應用于UK Biobank等大型生物樣本庫的實際數據中。以第一/通訊作者身份發表于Nature Genetics (2022)、American Journal of Human Genetics (2019, 2020, 2021, 2023)、Nature Communications (2025a, 2025b, 2025c)、PLOS Genetics (2024)、Cell Reports Medicine (2025)、Genetics、Biostatistics等學術雜志。主持國家自然科學基金專項項目、面上項目、國際合作和交流項目,北京市自然科學基金非共識創新項目等。
內容提要:
隨著全球大型生物樣本庫(biobank)數據的興起,人們開始在大規模全基因組關聯研究(GWAS)中關注結構更為復雜的性狀。例如,生存時間(time-to-event)和縱向(longitudinal)數據能夠更全面刻畫個體健康狀況的演變過程,相比于傳統的定量或二元性狀蘊含更多信息。回顧性關聯方法(retrospective association methods)以表型為條件、將基因型視為隨機變量,從而為大規模遺傳關聯研究提供了可擴展、精準且通用的分析框架。基于這類分析框架,我們提出了多種適用于復雜表型的大規模 GWAS 通用方法。SPAmix:通過利用原始基因型數據及 SNP 派生的主成分(PCs),為每個變異估計個體層面的等位基因頻率,從而處理群體混合(population admixture)問題。SPAGRM:借助稀疏遺傳關系矩陣(sparse GRM)和同源片段(IBD)信息,校正得分統計中的隱含遺傳相關性,以調整樣本親緣關系的影響。SPAGxE:利用矩陣投影方法去除基因-環境交互作用分析中的遺傳邊際效應。我們在模擬研究和英國生物樣本庫(UK Biobank)真實數據分析中驗證了 各類方法 的性能。結果表明,這兩種方法在保持較高統計功效的同時,能夠嚴格控制第一類錯誤率,這些特點有助于實際數據分析找到更多的致病遺傳位點。