CÁC CUỘC ĐIỀU TRA ĐỊA LÝ VÀ BỘ GEN CỦA NGƯỜI VIỆT NAM CHO THẤY SỰ BIẾN ĐỘNG NHÂN KHẨU HỌC LỊCH SỬ PHỨC TẠP



                                                       SCIENTIFIC REPORT

Scientific Reports volume 7, Article number: 12630(2017)
Published online 03 October 2017

I.TÓM LƯỢC
Lãnh thổ của Việt Nam ngày nay là cái nôi của một trong những nền văn minh đầu tiên trên thế giới, và là một trong những vùng đầu tiên trên thế giới phát triển nông nghiệp. Chúng tôi đã phân tích khu vực kiểm soát hoàn toàn DNA (mtDNA) của ty thể sáu nhóm dân tộc thiểu số và các mitogenome từ Việt Nam trong Dự án 1000 Genomes (1000G). Dữ liệu toàn bộ hệ gen từ 1000G (~ 55k SNPs) cũng đã được nghiên cứu để khám phá các kịch bản nhân khẩu học khác nhau. Tất cả người Việt Nam mang theo haplotypes ( một nhóm cụ thể của gen mà con cháu thừa hưởng từ cha mẹ) Đông Nam Á (SEA), cho thấy sự phân tầng địa lý và dân tộc vừa phải, với người Mông cấu thành nên nhóm đặc biệt nhất. Hai dòng mtDNA mới (M7b1a1f1 và F1f1) chỉ ra dòng gen lịch sử giữa Việt Nam và các nước láng giềng khác.
Các suy luận dựa trên Bayes (các phương pháp phân tích thống kê) cho thấy sự tăng trưởng dân số của người Việt Nam trong thời gian dài và liên tục, mặc dù có một số ngoại lệ. Sự suy giảm dân số đáng kinh ngạc của người Chăm cách đây 700 năm (ya) phù hợp quá trình Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng. Các SNP (đa hình đơn nucleotide) tự động liên tục trỏ đến dòng gen lịch sử quan trọng trong lục địa SEA, và thêm hỗ trợ cho một sự kiện hỗn hợp chính xảy ra giữa Trung Quốc và một tổ hợp tổ tiên miền Nam châu Á (chủ yếu là người Malay). Sự kiện hỗn hợp này xảy ra ~ 800 ya, một lần nữa trùng với tiến trình Nam tiến.
II. GIỚI THIỆU
Cộng hòa Việt Nam, nằm ở cực đông của bán đảo Đông Dương (Đông Nam Á, SEA), là một quốc gia phù hợp với một dải đất gồ ghề và miền núi với nhiều đồng bằng ven biển và đồng bằng châu thổ. Nó giáp với Trung Quốc và vịnh Bắc Bộ ở phía Bắc, Lào và Campuchia ở phía Tây, và vịnh Thái Lan ở Nam1. Đây là một trong những quốc gia đông dân nhất trên thế giới. Theo ước tính của Tổng cục Thống kê Việt Nam, năm 2016 có hơn 94 triệu người sống trong nước (Tổng cục Thống kê Việt Nam [VGSO]: www.gso.gov.vn; truy cập tháng 3 năm 2017). Hà Nội, thủ đô của đất nước, nằm ở phía bắc và có khoảng 7 triệu dân; là thành phố đông dân thứ hai ở Việt Nam sau Hồ Chí Minh (Sài Gòn cũ), nằm ở phía đông nam đất nước (> 8,4 triệu dân)
Các nhóm dân cư và sắc tộc khác nhau đã ảnh hưởng đến cộng đồng người Việt ngày nay. Như vậy, Việt Nam ngày nay là một quốc gia đa sắc tộc; Chính phủ công nhận 54 dân tộc, trong đó người Kinh chiếm đa số đất nước (87%; ~ 77 triệu người) và đang lan rộng trên toàn lãnh thổ. 13% còn lại được chia thành 53 nhóm khác, được chính thức công nhận là dân tộc thiểu số, được phân tán trên các khu vực đồi núi (cao nguyên chiếm ba phần tư lãnh thổ Việt Nam) trải rộng từ Bắc vào Nam. Trong số các dân tộc thiểu số, nhóm lớn nhất là nhóm người Tày, phù hợp với 1,7 triệu người, tiếp theo là các dân tộc Khmer Thái, Hoa, Mông, và Nùng với dân số khoảng một triệu người; ít đông dân nhất là Brau, Roman và Odu, chỉ có vài trăm người,
Nam Á (SA) là một trong những vùng đầu tiên được người hiện đại chiếm lĩnh; Khu vực này đã phục vụ như là một tuyến đường chính để phân tán đến các khu vực địa lý khác, bao gồm cả Đông Á2. Theo Atkinson và cộng sự, khoảng 60% dân số toàn cầu sống ở Đông Á khoảng 38.000 năm trước; và Việt Nam là một trong những khu vực đầu tiên trông lúa của thế giới4. Hai giả thuyết chính đã được đề xuất để giải thích các nguồn địa lý / dân số ban đầu đóng góp cho quần thể SEA ngày nay. Người đầu tiên đề xuất rằng các quần thể ở Nam Đông Á (EA) có thể xuất phát từ các quần thể ở Đông Nam Á di cư từ châu Phi, có thể thông qua châu Á sau một tuyến đường ven biển5.
Giả thuyết khác đề xuất ít nhất hai cuộc di cư độc lập: cùng một phong trào ban đầu đến từ châu Phi sau một tuyến đường ven biển phía nam đầu tiên, tiếp theo là một loạt các di cư dọc theo một tuyến đường phía bắc phục vụ để nối các quần thể châu Âu và EA6. Theo giả thuyết sau, hầu hết các dân tộc Việt Nam ngày nay sẽ là hậu duệ của các quần thể cổ đại trải dài từ phía Nam sông Dương Tử về phía Biển Đông và các đảo SEA1. Tuy nhiên, rất nhiều di cư và các quá trình hội nhập liên tiếp có thể xảy ra theo thời gian, mô hình hóa thành phần di truyền của SEA5. Ví dụ, Việt Nam cũng đã tham gia vào các tuyến lịch sử thương mại quan trọng, chẳng hạn như Con đường Tơ lụa, và từ hơn 2.000 năm trước, bờ biển Việt Nam đã thu hút các thương gia đến từ Trung Đông và Nhật Bản. Các sàn giao dịch thương mại này đã đóng góp nhiều cho sự trao đổi văn hóa và di truyền giữa các quần thể Á-Âu.
Trong những năm gần đây, SEA đã được khám phá rộng rãi trong các nghiên cứu di truyền. Một số nghiên cứu DNA ty thể (mtDNA) đã gợi ý rằng khu vực này tạo thành điểm khởi đầu của sự mở rộng của con người hiện đại từ châu Phi sang Trung Quốc, EA và Oceania8,9. Sự tăng trưởng dân số đáng kể thời tiền sử của khu vực này đã mở đường cho việc ấp ủ đa dạng di truyền cao trong khu vực. Do đó, các nhóm haploga chủ yếu của SEA (M, B, R và F) đã xuất hiện hơn 50.000 năm trước10, và chúng cho thấy sự biến đổi di truyền đáng kể từ một tổ tiên chung. (a remarkable genetic variability within clades) Soares và cộng sự 11 đã gợi ý rằng sự nóng lên toàn cầu và mực nước biển dâng lên vào cuối kỷ Băng hà, là những lực lượng chính thúc đẩy sự đa dạng của con người ở SEA.
Mặc dù có rất nhiều nghiên cứu được thực hiện cho đến nay, kiến ​​thức về sự biến đổi mtDNA của nhiều quốc gia SEA như Việt Nam, Miến Điện, hoặc Campuchia vẫn còn rất hạn chế9,12. Một trong những nghiên cứu đầu tiên nhằm làm sáng tỏ thành phần mtDNA của các nước SEA đã được thực hiện bởi Oota và các đồng nghiệp13. Họ đã phân tích một bộ mẫu Việt Nam thu thập từ những người nhập cư Nam Việt Nam thế hệ đầu tiên từ California và so sánh nó với các bộ sưu tập mẫu được lấy từ người Hán và người Nhật. Kết quả nghiên cứu cho thấy mẫu Việt Nam có mức biến đổi mtDNA cao nhất trong dân số. Li và các đồng nghiệp8 đã phân tích một bộ mẫu người Việt và người Trung, và báo cáo tần số cao của các nhóm B, M7, F và R, phổ biến ở SEA và là chìa khóa để hiểu lịch sử của các quần thể SEA. Irwin và các cộng tác viên đã đưa ra một loạt mẫu lớn các trình tự kiểm soát mtDNA của Việt Nam (CR) với một tập trung chủ yếu là di truyền pháp y. Dữ liệu của họ cho thấy dân số miền Bắc Việt Nam có tính đa dạng di truyền cao. Zimmerman et al.15 mô tả sự đa dạng haplotype cao ở miền bắc Thái Lan và báo cáo rằng 14% haplotype của Thái Lan được chia sẻ với các quần thể SEA khác. Bodner và cộng sự đã phân tích thành phần mtDNA của Lào, chỉ ra rằng dân số này cho thấy đặc tính mẫu đa dạng mtDNA của SEA, trong đó B4a, B5a, M7b1, F1a và R9 (sau này được gọi là R9'F) là haplogroups thường xuyên nhất.
Họ cũng báo cáo rằng nhiều haplotypes tìm thấy trong mẫu được chia sẻ với các quần thể xung quanh, chủ yếu là Thái Lan và Việt Nam12. Zhang và các đồng nghiệp16 đã phân tích một mẫu mtDNA rộng lớn của người thổ dân gốc Campuchia và đã giải trình tự 98 tác nhân gây bệnh; các tác giả này cho rằng thổ dân Campuchia là hậu duệ của các quần thể cổ đại, và kết quả của họ thêm hỗ trợ cho lý thuyết rằng con người hiện đại đã định cư ở SEA và sau đó phân tán sang Trung Quốc và các đảo SEA. Theo các tác giả này, Campuchia có thể là trung tâm phân bố các nhóm haplog B5a, F1a, M12b và B4c2 cho các vùng phía Bắc và đại lục EA16. Gần đây hơn, Summerer và cộng tác viên đã điều tra một bộ mẫu dân số Myanmar và giải trình tự 44 giải thể sinh học. Họ kết luận rằng Myanmar trưng bày một thành phần haplogroup SEA đặc biệt, nhưng với ảnh hưởng của Đông Bắc Á và Ấn Độ. Phân tích của họ cho thấy tỷ lệ di cư giữa Myanmar và Việt Nam xấp xỉ bằng nhau9.
Một số lượng lớn các nghiên cứu đã chỉ ra SEA là cái nôi của dân số châu Á ngày nay3. Một nỗ lực quan trọng trong việc mô tả khu vực SEA về biến đổi mtDNA đã được thực hiện trong các thập kỷ qua9,12,15,16. Dự án hiện tại nhằm góp phần nâng cao kiến thức của chúng ta về biến thể di truyền của khu vực này, vì tầm quan trọng của khu vực này đối với sự phân tán của con người hiện đại ở châu Á. Mặc dù một vài nghiên cứu mtDNA đã được tiến hành cho đến nay, dữ liệu mtDNA có sẵn từ Việt Nam vẫn còn khan hiếm. Theo hiểu biết tốt nhất của chúng tôi, nghiên cứu hiện tại là nỗ lực lấy mẫu lớn nhất tại Việt Nam cho đến nay. Một phân tích toàn bộ bộ gen của một mẫu Việt Nam cũng được thực hiện để kiểm tra thêm các giả thuyết được đề xuất bởi dữ liệu mtDNA.
III. KẾT QUẢ
Đa dạng phân tử
Nghiên cứu này bao gồm 622 mẫu DNA được giải trình tự cho CR, từ sáu địa điểm khác nhau của Việt Nam đại diện cho bảy nhóm sắc tộc. Có 476 loại haplotypes khác nhau trong số mtDNA của Việt Nam, đó là minh chứng cho sự đa dạng mtDNA lớn. Đối với bảy nhóm dân tộc được trình bày trong dữ liệu của chúng tôi, chỉ có năm người trong số họ có kích thước mẫu cho phép ước tính giá trị đa dạng (Kho Me và Thái được loại trừ khỏi những tính toán này). Các chỉ số đa dạng phân tử ở tất cả các vị trí và các mẫu dân số được phân tích đều cao đối với cả haplotype (H) và đa dạng nucleotide (π) (Bảng 1). Các giá trị thấp nhất của đa dạng haplotype (H = 0,980) và đa dạng nucleotide (π = 0,8989) được tìm thấy trong dân số Mông. Mẫu Mông của chúng tôi sống ở tỉnh Lào Cai (Bảng 1; Hình 1B), và chúng đại diện cho dân tộc thứ hai thường xuyên nhất ở tỉnh này 47. Ở phía đối diện phổ là Hoa, cho thấy giá trị đa dạng cao nhất (H = 1.000; π = 0,0107). Mặc dù mẫu Hà Nội nhỏ (n = 38), nhưng đáng chú ý là các giá trị đa dạng cao được quan sát (H = 1.000; π = 0,01210) (Bảng 1).
Không có sự tương quan rõ ràng giữa các vị trí lấy mẫu và sự đa dạng phân tử được đo bằng các chỉ số tóm tắt thống kê. Tuy nhiên, khi các mẫu được phân tích đến các vùng địa lý chính (Bắc, Trung và Nam), một mô hình phân tử đa dạng rõ ràng hơn cho thấy sự đa dạng tăng từ Bắc vào Nam của đất nước (Bảng 1; Hình 2A). [However, when the samples were analyzed attending to main geographic regions (North, Center and South), a clearer pattern of molecular diversity is revealed, suggesting that the diversity increases from North to South of the country (Table 1; Fig. 2A)].
Các mẫu Haplogroup và các đặc điểm địa lý của haplotype
Các haplotypes điển hình của SEA chiếm ưu thế trong tiếng Việt, chủ yếu được đại diện bởi haplogroups M (39%; với sub-haplogroup M7 [20%] là tiểu nhóm thường xuyên nhất), và haplogroup N (61%; với haplogroup R9'F [27% ] và haplogroup B [25%] dưới dạng các tần số phụ bậc nhất trong N) (Bảng 2, Hình 1).
Tuy nhiên, sự khác biệt về mặt địa lý đáng kể trong các tần số haplogroup có thể được quan sát (Hình 1 B). Ví dụ, thành phần haplogroup ở các địa điểm phía bắc của Cao Bằng, Hà Nội và Hải Phòng khá giống nhau, với haplogroup M là thường xuyên nhất (≥42% ở tất cả các địa điểm này) và M7 nhóm phụ chính của nó (≥20% ), tiếp theo là haplogroup R9'F với tần suất từ 28-36% (Bảng 2). Ngoại lệ đối với mô hình này ở miền Bắc là Lào Cai, nơi có tần suất haplogroup N cao (71%), với haplogroup B (41%) là tiểu nhóm chính của nó, theo sau là R9FF (16%); hơn nữa, tần số của haplogroup C là cao nhất trong toàn bộ tập dữ liệu (13%). Như đã đề cập ở trên, đặc điểm riêng biệt của Lào Cai xuất phát từ thực tế rằng mẫu của chúng tôi từ khu vực này chủ yếu là do dân tộc Mông, cho thấy một mô hình biến thể mtDNA không thể được coi là đại diện đầy đủ của toàn bộ dân số này khu vực. Cũng như với người Mông, các mtDNA của Hoa cũng có một số đặc thù đối với các nhóm dân tộc còn lại được nghiên cứu. Ví dụ, tần suất R9FF (39%) cao hơn đáng kể so với mức trung bình của phần còn lại của mẫu (trung bình 27% cho toàn bộ Việt Nam).
Để tạo điều kiện giải thích tần số haplogroup giữa các vị trí khác nhau, haplogroups được thu gọn thành các danh mục đại diện cho các nhánh phát sinh SEA chính (cụ thể là A, B, C, D, R9'F, M, M7 và N) và các tần số này được nội suy vào bản đồ địa lý (Hình 2B và C). Các bản đồ cho thấy M và M7 có tần suất cao nhất ở vùng Đông Bắc của đất nước theo bờ biển dọc Vịnh Bắc Bộ và tần số thấp nhất ở Tây Bắc và cực nam của Việt Nam (đồng bằng sông Cửu Long), nơi haplogroup N phổ biến hơn . Haplogroups A và C thường xuyên hơn ở miền Tây Bắc Việt Nam (Lào Cai), với các giá trị thấp nhất ở miền Nam. Haplogroups B đạt tần suất cao nhất ở Tây Bắc, và các giá trị thấp nhất cũng được tìm thấy ở vùng Đông Bắc (Đồng bằng sông Hồng). Ở miền Nam, tại Hồ Chí Minh, haplogroup D đạt tần suất cao nhất (9%). Cuối cùng, bản đồ interpolated của haplogroup R9'F cũng cho thấy một phân bố tần số phân tán: nó đạt đến tần số cao nhất ở đồng bằng sông Hồng (32-36%), tần số giảm về phía Tây Bắc (16% ở khu vực lân cận Lào) Cai) và ở trung tâm của đất nước (21% ở Đà Nẵng), nhưng lại tăng ở đồng bằng sông Cửu Long (29% ở thành phố Hồ Chí Minh).
Mạng lưới các chuỗi CR được xây dựng (Hình S1) để điều tra các nhóm haplotypes có thể được quy cho các nhóm dân tộc cụ thể. Cây cho thấy một số haplotypes được chia sẻ giữa các dân tộc dọc theo các nhánh khác nhau của phylogeny, tương thích với luồng gen lịch sử giữa chúng.
Một tính năng haplotype thú vị xứng đáng được đề cập cụ thể. Wen và cộng tác viên48 tìm thấy trong các mẫu của Trung Quốc mẫu CR CRT T16189C-T16217C – C16261T-T16357C, được tuyên bố là độc quyền của những người nói tiếng Hmong-Mien sống ở miền Nam Trung Quốc. Kết quả của chúng tôi ủng hộ giả thuyết này, vì chúng tôi cũng đã tìm thấy mô hình này trong sáu mẫu của người Mông Việt Nam, được gọi là Hmong / Miao ở Trung Quốc.
Phân tích các mitogenomes và xác định dòng dõi phát sinh loài mới
Trong số các trình tự CR Việt Nam được phân tích trong nghiên cứu này, chúng tôi đã xác định được hai họa tiết đặc biệt cho đến nay vẫn chưa được phân loại. Phiên bản hiện tại của tài liệu tham khảo haplogroup mtDNA (PhyloTree Build 17) không chứa các nhánh phát sinh loài này, và do đó tên mới được trao cho chúng. Thông tin xác nhận của các họa tiết trình tự này có thể thu được từ việc phân tích các mitogenome thu được từ 1000G và tài liệu, đặc biệt là từ 49. Mitogenomes thêm hỗ trợ phát sinh loài và độ phân giải cho các nhánh mới này.
Đầu tiên chúng tôi tập trung chú ý vào mô hình CR được quan sát thấy trong một số haplotypes đặc trưng bởi sự chuyển tiếp C332T (1,7% của haplotypes trong dân tộc chính, người Kinh). Chuyển đổi C332T rất hiếm, ví dụ: nó không xuất hiện trong phylogeny từ Phylotree (xem Weissensteiner et al.24) và nó không có các bộc lộ đột biến trong Soares et al.29. Tổng cộng có 5 vi sinh vật mang C332T được tìm thấy trong các mẫu dự án 1000G Việt Nam (# HG02031, # HG02121, # HG02079, # HG01840 và # KU131379) (Hình 3A). Năm loại mitogenome cũng có đột biến T8110C cộng với tất cả các đột biến dẫn từ rCRS đến haplogroup M7b1a1 + (16192) theo Phylotree Build 17. Một mitogenome bổ sung từ Việt Nam (# HG02141) mang tất cả các đột biến đặc trưng của M7b1a1 + (16192) ngoại lệ của biến thể C332T (Hình 3A). Các mitogenomes chia sẻ C332T chia sẻ cũng biến thể T16189C. Có tính đến thông tin có sẵn từ bộ gen hoàn chỉnh, chúng tôi đã thêm một nhánh mới vào phylogeny được định nghĩa bởi motif C332T– (T16189C) và đặt tên là M7b1a1f4. Dấu ngoặc đơn chỉ ra rằng biến thể T16189C không phải lúc nào cũng có mặt trong các thành viên của nhánh này, như được chứng thực từ dữ liệu CR mang C332T (trang này có tỷ lệ đột biến cao24,29).
Bằng cách kiểm tra các mitogenome khác từ hồ sơ, chúng tôi đã phát hiện 14 mẫu haplotypes M7b1a1f4 bổ sung ở bán đảo Đông Dương, bao gồm Campuchia, Malaysia và Indonesia. Ngoài ra, có 13 loại mitogenome khác thuộc M7b1a1f không mang C332T nhưng các họa tiết phụ khác, do đó cấu thành các nhánh phụ nhỏ khác. Một lần nữa, các bộ gen khác được lấy mẫu ở các địa điểm khác nhau của bán đảo Đông Dương. Phân tích các dãy vùng kiểm soát thuộc nhóm haplogroup M7b1a1f cho thấy cùng một mô hình quan sát đối với các mitogenome, mặc dù cho thấy tỷ lệ cao hơn của các trình tự Việt Nam trong tiểu nhóm M7b1a1f4. Bằng cách sửa đổi các tài liệu về trình tự CR, chúng ta chỉ có thể phát hiện một vài thành viên M7b1a1f4 trong các quần thể từ tổ tiên SEA và luôn ở tần số rất thấp, hầu hết trong số đó là Malay50,51. Bằng cách kiểm tra chuỗi vùng kiểm soát thuộc M7b1a1f, chúng tôi quan sát thấy biến thể T16189C không phải lúc nào cũng có mặt trong các kiểu haplotype M7b1a1f4 mang C332T. Hơn nữa, một số haplotypes M7b1a1f4, chỉ có mặt ở Việt Nam, mang theo T16324C (Hình 3A). Từ một cơ sở dữ liệu lớn trên toàn thế giới về các dãy vùng kiểm soát, có thể chứng thực rằng M7b1a1f và các nhánh phụ của nó gần như bị giới hạn ở bán đảo Đông Dương (Hình S2A). Ở Việt Nam, những haplotypes này được phát hiện hầu như chỉ thấy ở những người thuộc nhóm dân tộc chính (Kinh). M7b1a1f là một nhánh cũ (TMRCA: 14.7 kya [9.9–19.7]), cũng như nhánh phụ M7b1a1f4 (TMRCA: 10.8 kya [7.6–14.1]).
Một motif trình tự khác được quan sát thấy trong các mẫu của chúng tôi từ Việt Nam nằm trong haplogroup F1f (Hình 3 B). Như vậy, đột biến kép T16172C – C16295T cộng với tất cả các đột biến đặc trưng dẫn đến F1f được chia sẻ bởi khoảng 3% số haplotypes trong Kinh. Việc tìm kiếm các cá nhân thuộc F1f cho thấy một phát sinh loài phức tạp hơn dự kiến. Có 97 bộ gen hoàn chỉnh được thu thập từ các tài liệu và cơ sở dữ liệu; hầu hết trong số họ mang biến thể T16172C, sau đó tạo thành một sub-clade có tên ở đây là F1f1. Trong F1f1 có sáu nhánh phụ khác nhau, tất cả chúng đều được đặc trưng bởi một hoặc hai chuyển tiếp khá ổn định. Một trong những nhánh này được xác định bởi C16295T, được đặt tên là F1f1b, và bốn trong số bảy mitogenomes được lấy mẫu ở Việt Nam, với ba ở các nước láng giềng khác. Tiểu nhóm này, trên thực tế, chỉ có một trong F1f được đại diện bởi các mẫu từ Việt Nam. Dữ liệu CR có sẵn từ Việt Nam rơi hoàn toàn trong F1fb, tiết lộ rằng nhánh này có rất ít biến thể (Hình S2B). Phần còn lại của dữ liệu thuộc về F1f được đại diện tốt ở Thái Lan và Lào. TMRCA cho F1f chỉ 6,2 kya (4,8-7,7); trong khi F1f1b là 5.1 kya (3.0–7.2).
Phân tích AMOVA về cấu hình mtDNA
AMOVA được tiến hành bằng cách phân loại mẫu lấy từ các địa điểm, các nhóm dân tộc và các khu vực địa lý rộng lớn. Theo dự kiến, trong biến thể di truyền chiếm hầu hết các biến thể, dao động từ 98,08 - 99,69% (Bảng 3), độc lập với phân chia được xem xét. Trong biến thể dân số cao hơn khi xem xét vị trí mẫu (98,08%), và mẫu này đã được xác nhận khi dữ liệu được tạo ra trong nghiên cứu này được phân tích meta (phía sau) với dữ liệu được biên soạn từ tài liệu (98,37%).
Phân tích thành phần chính
PCA dựa trên tần số haplogroup cho phép hình dung các dạng biến đổi toàn cầu giữa các quần thể. Chúng tôi tiến hành một PCA dựa trên tần số haplogroup mtDNA của 180 quần thể châu Á (Hình 4 A).
PCA hiển thị một nhóm các mẫu dân số xuất sắc theo các khu vực địa lý chính. Thành phần đầu tiên (PC1), giải thích ~ 24% phương sai di truyền, phân tách tất cả các mẫu dân số trong ba khu vực chính của lô, với các mẫu dân số Bắc Trung Quốc ở một cực, và cực đối lập được tạo thành bởi các mẫu dân số từ Bán đảo Đông Dương (bao gồm tất cả các dân tộc từ Việt Nam, Lào, Thái Lan, vv) và Đông Á (bao gồm một số mẫu Trung Quốc cộng với Đài Loan). Một nhóm không đồng nhất về mặt địa lý của các quần thể khác nhau từ miền Bắc và Trung Á rơi vào giữa. Chuyển sang thành phần thứ hai (PC2), giải thích ~ 12% của phương sai, đặc điểm đáng chú ý nhất là nó chia tách các quần thể SEA khỏi những người ở Tây Á (Hình 4 A). Các mẫu được quan sát trong PCA này phù hợp với các kết quả trước đó (ví dụ: Tabbada et al.52).
Để tiếp tục nghiên cứu các mô hình biến đổi haplogroup trong quần thể người Việt Nam, chúng tôi đã thực hiện PCA thứ hai (Hình 4 B), lần này hạn chế phân tích đối với quần thể Nam Trung Quốc và Đông Nam Á. Các nhóm dân tộc Thái và Khơ Me được bỏ qua từ những phân tích này do cỡ mẫu nhỏ. Trong PC1, dân số Việt Nam xuất hiện rải rác cùng với các mẫu từ Nam Trung Quốc và Thái Lan. Thật kỳ lạ, cụm mẫu Campuchia nằm ở đầu đối diện của cốt truyện. Tuy nhiên, PC2 cho thấy sự gần gũi di truyền rõ rệt giữa các mẫu của Campuchia và các mẫu từ Việt Nam. Một vài quần thể từ Nam Trung Quốc xuất hiện như được phân biệt rõ ràng trong cốt truyện.
Mở rộng Bayesian Skyline Lô của haplogroups và dân số
F1f1 cho thấy sự tăng trưởng dân số bắt đầu từ ~ 8 kya, tiếp theo là giảm nhẹ bắt đầu từ ~ 2 kya nhưng giảm đáng kể từ ~ 1 kya trở đi. M7b1a1f tuy nhiên, xuất hiện ~ 14 kya và nó trải qua một sự tăng trưởng liên tục cho đến hiện tại. Thời gian kết hợp thu được bằng EBSP cho dòng dõi F1f1 và M7b1a1f trùng với TMRCA thu được bằng cách sử dụng ML (Hình 3C; Hình S3).
EBSP cũng được suy ra từ các nhóm dân tộc (Hình S4). Các tính năng nổi bật nhất là mô hình nhân khẩu học của người Chăm, mà là khá tương tự như của haplogroup F1f1. Người Tày và Kinh cho thấy một sự tăng trưởng lịch sử vừa phải cho đến ngày nay, trong khi các nhóm khác cho thấy một thời gian không đổi theo thời gian (mặc dù Hoa và Nùng với các khu vực có độ tin cậy lớn).
Dòng gen của người mẹ
Tỷ lệ di cư lần đầu tiên được phân tích bởi các họ ngôn ngữ. Mô hình di cư đầy đủ là có thể xảy ra nhiều nhất (Bảng 4); nó cho thấy các kích cỡ dân số rất khác nhau cũng như dòng gen bất đối xứng giữa các nhóm ngôn ngữ chính ở Việt Nam (Bảng S4). Số lượng người nhập cư trên mỗi thế hệ (Nm) được ước tính từ số liệu. Gia đình Tai-Kadai cho thấy tỷ lệ di cư cao nhất đối với gia đình người Austroasiatic (Nm = 214, chủ yếu được đại diện bởi nhóm dân tộc Kinh). Gia đình Hmong-Miao cho thấy mức độ di cư đáng kể đối với Tai-Kadai (Nm = 164). Cuối cùng, tỷ lệ lưu lượng gen thấp hơn thu được từ Austroasiatic và Tai-Kadai cho họ Chăm (Nm = 10 và Nm = 25, tương ứng). Không có dòng gen của người mẹ được phát hiện giữa các cặp ngôn ngữ khác được phân tích (Bảng S4).
Thứ hai, dòng gen được kiểm tra giữa người Việt Nam và các dân tộc lân cận ở Campuchia và Lào. Mô hình dòng chảy có khả năng xảy ra nhất đối với cặp Campuchia-Việt Nam là mô hình di cư một chiều từ Việt Nam sang Campuchia (Bảng 4; Bảng S4; N m = 22).
Tuy nhiên, đối với quần thể dân số Lào-Việt Nam, mô hình dòng gen biến thái là có thể xảy ra nhất (Bảng 4). Phát hiện này cho thấy rằng hai quần thể này đại diện cho một đơn vị dân số có hiệu quả, cả hai đều là một phần của cùng một đơn vị hỗn  giao và do đó chỉ ra mức độ lưu lượng gen cao giữa chúng.
Phân tích toàn bộ bộ gen của người Việt
Một phân tích MDS ban đầu được tính toán dựa trên các giá trị IBS cho thấy rằng tất cả các quần thể châu Á rơi vào cùng một cụm, tách biệt rõ ràng khỏi các cực châu Âu và châu Phi (Hình S5). Một phân tích MDS thứ hai được thực hiện chỉ sử dụng các quần thể từ SEA để thoát khỏi các cụm biến đổi di truyền trong khu vực này (Hình 5A). Mẫu 1 nêu bật những đặc điểm riêng biệt của Negrito từ Malaysia, mặc dù các quần thể khác từ cụm này rất gần với Việt Nam (KHV). Mẫu 2 tách Philippines khỏi nhóm Trung Quốc-Thái Lan-Malaysia (bao gồm Negrito). Người Mlabri từ Thái Lan xuất hiện cũng khác biệt với nhóm chính trong không gian này.
Phân tích hỗn hợp cho thấy, đối với giá trị xác thực chéo tốt nhất (K = 8), quần thể KHV có thành phần chính phổ biến nhất ở Trung Quốc và hai thành phần nhỏ tìm thấy tần số cao nhất trong Bidayuh từ Malaysia và Proto- Malay, gợi ý một sự gần gũi di truyền giữa người Trung Quốc và người Mã Lai (Hình 5 B).
Thống kê f3, được xây dựng như f3 (CHS, Y; KHV), chỉ ra rằng mẫu KHV có thể được giải thích bằng một hỗn hợp của Trung Quốc và các quần thể khác từ SEA, đặc biệt là người Tiền Malay và các dân số khác từ Malaysia (Bidayu, Malay, và Negrito) và / hoặc từ Thái Lan (H'tin và Mlabri) (Hình 5C). Thống kê D, được xây dựng như D (Y, KHV; CHS, OUTGROUP), chỉ ra rằng người Trung Quốc (đại diện bởi CHS) có đóng góp không thể nghi ngờ cho KHV và điều này có ý nghĩa thống kê sử dụng gần như tất cả các quần thể SEA như tham chiếu (Hình 5D) ). Tuy nhiên, D (Y, KHV; CHS, OUTGROUP) gợi ý rằng chỉ có một số ít người từ SEA dường như đóng góp thống kê vào KHV; một lần nữa người Mã Lai (đại diện bởi người Proto-Malay, Negrito, và Bidayut) cùng với người Thái (được đại diện bởi Mlabri và Hinin) là những mẫu có thể được kết hợp với Trung Quốc trong hồ gien Việt Nam. Thực tế là các giá trị âm cao hơn nhiều trong D (Y, KHV; CHS, OUTGROUP) so với D (Y, KHV; CHS, OUTGROUP) cho thấy thành phần Trung Quốc có sự hiện diện rõ ràng hơn trong KHV. Kết quả này phù hợp với ADMIXTURE.
IV. THẢO LUẬN
Nhìn chung, sự biến đổi di truyền quan sát thấy ở Việt Nam phù hợp với các mô hình mtDNA được quan sát ở SEA, được coi là vùng đa dạng và đa hình nhất của lục địa6. Theo dự kiến, sự đa dạng mtDNA rất cao trên lãnh thổ Việt Nam. Đa số người Việt Nam mang theo haplotypes mtDNA tập trung ở các nhánh M7 (20%) và R9'F (27%), hai dòng dõi chính của mẹ không chỉ thống trị Việt Nam mà SEA nói chung. Các nhóm haplog khác, như A, B, C và D được đại diện trong lãnh thổ Việt Nam nhưng với tần số thấp hơn, ngoại trừ haplogroup B ở Lào Cai, nơi nó đạt tới 41% tổng số. Haplogroup M phổ biến hơn ở miền Bắc và ở Trung tâm lãnh thổ hơn ở miền Nam. Tần suất cao của tiểu ngành M7 là thỏa thuận tốt với một nghiên cứu trước đó từ năm 2002, chỉ tìm thấy nhóm haplogroup này ở phần phía nam của Đông Á, ở các nước như Hàn Quốc hoặc Nhật Bản53. M7 rất hiếm ở Trung Á, và ước lượng thời gian kết hợp được quan sát bởi Kivisild et al.53, có thể phản ánh một quần thể tái sinh của khu vực phía Nam châu Á xảy ra sau tối đa băng hà cuối cùng. R9FF đạt tần suất cao trên toàn Việt Nam, với các giá trị thấp nhất được quan sát thấy ở Lào Cai (16%). Haplogroup tần số quan sát thấy trong các nghiên cứu trước đây phù hợp tốt với các giá trị quan sát được trong nghiên cứu này. Phân tích của Irwin và cộng sự ở thành phố Hà Nội cho thấy đại diện R9'F cao (> 27%) tiếp theo là B và M7 (20%) và tần suất thấp của nhóm haplogroups, N, A, C và D (< 5%).
Thực tế là có hơn 50 nhóm dân tộc được công nhận phân bố ở vùng cao nguyên cũng góp phần vào sự biến đổi di truyền cao được quan sát thấy. Các đặc điểm địa lý và văn hóa của Việt Nam cấu hình một kịch bản không ủng hộ sự pha trộn ngẫu nhiên giữa các nhóm dân tộc;
 hơn nữa, một số các nhóm này chia dân số của họ thành các cấp xã hội có thể hạn chế trao đổi di truyền (Đại sứ quán Anh tại Việt Nam http://www.vietnamembassy.org.uk/population.html; truy cập tháng 6 năm 2017). Dữ liệu của chúng tôi được lấy mẫu từ các nhóm dân tộc khác nhau, và do đó có thể đưa ra những suy luận về trao đổi di truyền giữa chúng và khám phá cấu trúc phụ dân số của đất nước. AMOVA (AMOVA được tiến hành bằng cách phân loại mẫu bằng cách lấy mẫu các địa điểm, các nhóm dân tộc và các khu vực địa lý rộng lớn) của các nhóm Việt Nam chỉ phát hiện phân tầng dân số vừa phải, và sự thay đổi thấp hơn trong các nhóm dân tộc so với các mẫu được sắp xếp theo khu vực địa lý. Vì các suy luận dựa trên F ST của Wright một mình có thể là sai lầm 54,55, việc đánh giá phân tầng phải được kiểm tra từ các góc độ khác nhau. Do đó, các phân tích phát sinh loài, thực vật học, và MDS của quần thể người Việt Nam cho thấy sự tồn tại của sự phân tầng đáng chú ý hơn trong cả nước; đồng thời, các phân tích này cũng cung cấp bằng chứng cho dòng gen lịch sử giữa các nhóm dân tộc. Trong kịch bản này, nhóm đặc biệt nhất là dân tộc Mông (Lào Cai). Thành phần mtDNA của họ khá khác với thành phần của các nhóm dân tộc lân cận từ miền Bắc Việt Nam (Kinh, Nùng và Tày). Các kết quả tìm thấy sự hỗ trợ bổ sung trong dữ liệu lịch sử và nhân học: bằng chứng khảo cổ chỉ ra rằng người Mông sớm được liên kết với các nền văn hóa thời đồ đá mới định cư ở vùng trung lưu của sông Dương Tử và Trung Trung Nam, trong khi bằng chứng ngôn ngữ cho thấy khu vực phía nam Trung Quốc trong ít nhất 2.000 năm qua56. Wen và cộng sự chỉ ra rằng hầu hết các dòng dõi Mông mtDNA đều có nguồn gốc ở miền nam Trung Quốc, mặc dù dân số Mông dường như đã tiếp xúc với người Đông Bắc Á (Hán Trung Quốc).
Phân tích cụ thể về các mô hình di cư cũng hỗ trợ kết luận rằng các nhóm dân tộc đã thấm vào dòng gen, và do đó chúng ta nên giả định rằng tác động của rào cản địa lý trong trao đổi dòng gen giữa các vùng là vừa phải. Các nhóm dân cư thuộc họ ngôn ngữ Tai-Kadai cho thấy các giá trị di cư cao nhất đối với các nhóm gia đình Austroasiatic, có lẽ phản ánh sự đồng hóa của dòng họ Tai-Kadai mtDNA của gia đình Austroasiatic. Điều này dường như cũng đồng ý với giả thuyết Austro-Tai nổi tiếng ban đầu được đưa ra bởi nhà nhân loại học Paul King Benedict57, đề xuất rằng các ngôn ngữ Tai-Kadai và Austronesian từ miền nam Trung Quốc và Thái Bình Dương có liên quan chặt chẽ.
Các sự kiện nhân khẩu học lịch sử cũng đã được kiểm tra qua EBSP. Cốt truyện thu được từ haplogroup F1f cho thấy sự tồn tại của những thay đổi nhân khẩu học quan trọng xảy ra khoảng 1.000 năm trước. Ngoài ra, các phân tích được thực hiện trong các nhóm dân tộc cho thấy một dấu hiệu nhân khẩu học tương tự trong nhóm dân tộc Chăm. Điều thú vị là, sự thay đổi đột ngột quan sát của N e được phát hiện trong chuỗi mtDNA trùng về thời gian với một trong những sự kiện nhân khẩu học lịch sử quan trọng nhất ở Việt Nam, cái gọi là Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng (Bắc Việt Nam ngày nay), theo bờ biển.Các tài liệu lịch sử cho thấy sự mở rộng này bắt đầu trong thế kỷ 10-11 và kéo dài khoảng 700 năm cho đến giữa thế kỷ 18. Quá trình thực dân hóa do Việt Nam khởi xướng đã được lý giải bởi các lý do địa lý và nhân khẩu học. Việc mở rộng này liên quan đến các cuộc chiến tranh dữ dội với người Chăm và để lại dân số Việt Nam giảm đáng kể. Đó là trong thế kỷ 17-19 mà người Việt đã thâm nhập vào đồng bằng sông Cửu Long ở miền Nam. Không phải tất cả các nhóm dân tộc được phân tích trong nghiên cứu này đều cho thấy cùng một mô hình nhân khẩu học trong EBSP, điều này cho thấy rằng nhiều khả năng Nam tiến không có tác động tương tự đối với tất cả người Việt Nam. Ước tính tỷ lệ di cư cho thấy người Chăm không được đồng hóa hay tham gia trao đổi gen với các nhóm khác, cho thấy sự giảm mạnh của Cham không liên quan đến sự đồng hóa của các quần thể khác; xem thêm17. Tỷ lệ di cư cũng cho thấy sự tồn tại của sự đồng hóa quan trọng của người Hmong-Miao bởi nhóm gia đình Tai-Kadai, cả hai nhóm gia đình trùng hợp về mặt địa lý ở miền Bắc của đất nước.
Chúng tôi đã kiểm tra các mô hình phát triển gen và theo địa lý (phylogeographic) với các nước láng giềng khác. PCA dựa trên haplotypes mtDNA cho thấy sự gần gũi di truyền giữa các quần thể khác nhau của Việt Nam và các quần thể Nam Trung Quốc và Đông Nam Á khác. Đặc điểm địa lý thực vật của M7b1a1f và F1f1 cho thấy sự trao đổi di truyền đã phổ biến ở thời cổ đại nhưng cũng gần đây hơn là 1,1,48,58. Tỷ lệ di cư được ước tính từ dữ liệu mtDNA cũng phù hợp với các hồ sơ lịch sử. Dữ liệu cho thấy dòng chảy một chiều từ Việt Nam sang Campuchia, một phát hiện phù hợp với các cuộc xâm lược lịch sử của Việt Nam vào vùng lãnh thổ Campuchia đã có trong thời kỳ đen tối của Campuchia (từ thế kỷ 16 đến 19), ngay sau sự sụp đổ của Đế chế Khmer. Những chuyển động này bắt đầu với sự xâm nhập của người Kinh ở miền Nam đồng bằng sông Cửu Long, di dời Khmers59, và nhường chỗ cho một thời kỳ mà Campuchia được kiểm soát luân phiên bởi Thái Lan (trước đây có tên là Siam) và Việt Nam. Ngày nay người Việt Nam đại diện cho thiểu số lớn thứ hai ở Campuchia, tập trung chủ yếu ở trong nước.
Sự tương đồng về di truyền cao giữa người Lào và người Việt Nam trước đây đã được ghi nhận bởi Bodner et al.12. Những tác giả này không tìm thấy sự khác biệt đáng kể trong các mô hình mtDNA giữa các quần thể này, cho thấy dòng gen mạnh bằng cách di chuyển giữa chúng. Những chuyển động này có thể được ưa chuộng bởi sự gần gũi về địa lý cũng như bởi lịch sử chính trị được chia sẻ một phần của cả hai quốc gia. Phân tích của chúng tôi cho thấy một mô hình di trú panmitic là rất có thể, do đó bổ sung thêm hỗ trợ cho giả thuyết này. Ngoài ra, nguoi Việt (dân tộc Kinh) thuộc về một nhánh của gia đình ngôn ngữ Austroasiatic với một sự tương đồng bất ngờ với dân số Lào, mặc dù Lào chủ yếu bị chi phối bởi gia đình ngôn ngữ Daic (gia đình Tai-Kadai) 12.Điều này có thể chỉ ra rằng một tỷ lệ lớn các dòng họ mẹ Austroasiatic đã được đồng hóa bởi người dân Lào.
Với mục tiêu tương phản các mẫu phát sinh loài và nhân khẩu học được quan sát với dữ liệu mtDNA, chúng tôi cũng nghiên cứu các mẫu SNP trên toàn bộ gen sử dụng dữ liệu từ Việt Nam và các nước láng giềng. Phân tích MDS cho thấy sự gần gũi của người Kinh Việt Nam(KHV) với người Hoa, Thái và Malaysia. Mối quan hệ này cũng hiển nhiên khi kiểm tra các mẫu phụ gia, cho thấy sự hiện diện của thành phần Trung Quốc phổ biến hơn ở Việt Nam. F3-thống kê và D-thống kê cung cấp hỗ trợ thống kê cho phụ gia hai chiều này. Một ước tính sơ bộ dựa trên dữ liệu trên toàn bộ gen phù hợp đáng ngạc nhiên với kết quả thu được từ dữ liệu mtDNA và một tập hợp mẫu khác từ Việt Nam, bằng cách xác định thời điểm hòa trộn khi mở rộng Nam tiến.
Kết quả của nghiên cứu này xác nhận sự tồn tại của đa dạng phân tử cao ở Việt Nam, như mong đợi từ một khu vực được coi là một trong những cái nôi chính cho khu định cư châu Á. Mặc dù có sự khác biệt về di truyền trung bình giữa các vùng và các dân tộc ở Việt Nam, có bằng chứng cho dòng gen quan trọng trong nước và rộng hơn trong bán đảo Đông Dương. Dữ liệu được trình bày trong nghiên cứu này là tập dữ liệu lớn nhất được tạo ra cho đến nay; nó không chỉ quan tâm đến các nghiên cứu nhân chủng học mà còn trong các lĩnh vực nghiên cứu y tế khác được áp dụng; ví dụ. di truyền pháp y, nơi mà các cơ sở dữ liệu về dữ liệu mtDNA là cần thiết để ước tính trọng lượng của các bằng chứng trong phân tích casework và kinship60. Haplogroup tần số ước tính từ chiến lược lấy mẫu này cũng là chìa khóa cho việc giải thích các nghiên cứu y sinh học, chẳng hạn như nghiên cứu trường hợp kiểm soát mà cơ cấu dân số không bị phát hiện có thể dẫn đến dương tính giả không mong muốn liên quan đến bệnh61,62. Theo quan điểm nhân chủng học, kịch bản tổng thể là người Việt Nam ngày nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc, chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia. Tiến trình Nam tiến có thể là chìa khóa cho việc cấu hình kiến ​​trúc bộ gen của người Việt Nam ngày nay.