SCIENTIFIC REPORT
- S. Pischedda,
- R. Barral-Arca,
- A. Gómez-Carballa,
- J. Pardo-Seco,
- M. L. Catelli,
- V. Álvarez-Iglesias,
- J. M. Cárdenas,
- N. D. Nguyen,
- H. H. Ha,
- A. T. Le,
- F. Martinón-Torres,
- C. Vullo &
- A. Salas
Scientific Reports volume 7, Article number: 12630(2017)
Published online 03 October 2017
I.TÓM LƯỢC
Lãnh
thổ của Việt Nam ngày nay là cái nôi của một trong những nền văn minh đầu tiên
trên thế giới, và là một trong những vùng đầu tiên trên thế giới phát triển
nông nghiệp. Chúng tôi đã phân tích khu vực kiểm soát hoàn toàn DNA (mtDNA) của
ty thể sáu nhóm dân tộc thiểu số và các mitogenome từ Việt Nam trong Dự án 1000
Genomes (1000G). Dữ liệu toàn bộ hệ gen từ 1000G (~ 55k SNPs) cũng đã được
nghiên cứu để khám phá các kịch bản nhân khẩu học khác nhau. Tất cả người Việt
Nam mang theo haplotypes ( một nhóm cụ thể của gen mà con cháu
thừa hưởng từ cha mẹ) Đông Nam Á (SEA), cho
thấy sự phân tầng địa lý và dân tộc vừa phải, với người Mông cấu thành nên nhóm
đặc biệt nhất. Hai dòng mtDNA mới (M7b1a1f1 và F1f1) chỉ ra dòng gen lịch sử
giữa Việt Nam và các nước láng giềng khác.
Các
suy luận dựa trên Bayes (các phương pháp phân tích thống kê) cho thấy sự tăng trưởng dân số của người
Việt Nam trong thời gian dài và liên tục, mặc dù có một số ngoại lệ. Sự suy
giảm dân số đáng kinh ngạc của người Chăm cách đây 700 năm (ya) phù hợp quá
trình Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng. Các SNP (đa hình đơn
nucleotide)
tự động liên tục trỏ đến dòng gen lịch sử quan trọng trong lục địa SEA, và thêm
hỗ trợ cho một sự kiện hỗn hợp chính xảy ra giữa Trung Quốc và một tổ hợp tổ
tiên miền Nam châu Á (chủ yếu là người Malay). Sự kiện hỗn hợp này xảy ra ~ 800
ya, một lần nữa trùng với tiến trình Nam tiến.
II. GIỚI THIỆU
Cộng
hòa Việt Nam, nằm ở cực đông của bán đảo Đông Dương (Đông Nam Á, SEA), là một
quốc gia phù hợp với một dải đất gồ ghề và miền núi với nhiều đồng bằng ven
biển và đồng bằng châu thổ. Nó giáp với Trung Quốc và vịnh Bắc Bộ ở phía Bắc,
Lào và Campuchia ở phía Tây, và vịnh Thái Lan ở Nam1. Đây là một trong những
quốc gia đông dân nhất trên thế giới. Theo ước tính của Tổng cục Thống kê Việt
Nam, năm 2016 có hơn 94 triệu người sống trong nước (Tổng cục Thống kê Việt Nam
[VGSO]: www.gso.gov.vn; truy cập tháng 3 năm 2017). Hà Nội, thủ đô của đất
nước, nằm ở phía bắc và có khoảng 7 triệu dân; là thành phố đông dân thứ hai ở
Việt Nam sau Hồ Chí Minh (Sài Gòn cũ), nằm ở phía đông nam đất nước (> 8,4
triệu dân)
Các
nhóm dân cư và sắc tộc khác nhau đã ảnh hưởng đến cộng đồng người Việt ngày
nay. Như vậy, Việt Nam ngày nay là một quốc gia đa sắc tộc; Chính phủ công nhận
54 dân tộc, trong đó người Kinh chiếm đa số đất nước (87%; ~ 77 triệu người) và
đang lan rộng trên toàn lãnh thổ. 13% còn lại được chia thành 53 nhóm khác,
được chính thức công nhận là dân tộc
thiểu số, được phân tán trên các khu vực đồi núi (cao nguyên chiếm ba phần
tư lãnh thổ Việt Nam) trải rộng từ Bắc vào Nam. Trong số các dân tộc thiểu số,
nhóm lớn nhất là nhóm người Tày, phù hợp với 1,7 triệu người, tiếp theo là các
dân tộc Khmer Thái, Hoa, Mông, và Nùng với dân số khoảng một triệu người; ít
đông dân nhất là Brau, Roman và Odu, chỉ có vài trăm người,
Nam
Á (SA) là một trong những vùng đầu tiên được người hiện đại chiếm lĩnh; Khu vực
này đã phục vụ như là một tuyến đường chính để phân tán đến các khu vực địa lý
khác, bao gồm cả Đông Á2. Theo Atkinson và cộng sự, khoảng 60% dân số toàn cầu
sống ở Đông Á khoảng 38.000 năm trước; và Việt Nam là một trong những khu vực đầu
tiên trông lúa của thế giới4. Hai giả thuyết chính đã được đề xuất để giải
thích các nguồn địa lý / dân số ban đầu đóng góp cho quần thể SEA ngày nay.
Người đầu tiên đề xuất rằng các quần thể ở Nam Đông Á (EA) có thể xuất phát từ
các quần thể ở Đông Nam Á di cư từ châu Phi, có thể thông qua châu Á sau một
tuyến đường ven biển5.
Giả
thuyết khác đề xuất ít nhất hai cuộc di cư độc lập: cùng một phong trào ban đầu
đến từ châu Phi sau một tuyến đường ven biển phía nam đầu tiên, tiếp theo là
một loạt các di cư dọc theo một tuyến đường phía bắc phục vụ để nối các quần
thể châu Âu và EA6. Theo giả thuyết sau, hầu hết các dân tộc Việt Nam ngày nay
sẽ là hậu duệ của các quần thể cổ đại trải dài từ phía Nam sông Dương Tử về
phía Biển Đông và các đảo SEA1. Tuy nhiên, rất nhiều di cư và các quá trình hội
nhập liên tiếp có thể xảy ra theo thời gian, mô hình hóa thành phần di truyền
của SEA5. Ví dụ, Việt Nam cũng đã tham gia vào các tuyến lịch sử thương mại
quan trọng, chẳng hạn như Con đường Tơ lụa, và từ hơn 2.000 năm trước, bờ biển
Việt Nam đã thu hút các thương gia đến từ Trung Đông và Nhật Bản. Các sàn giao
dịch thương mại này đã đóng góp nhiều cho sự trao đổi văn hóa và di truyền giữa
các quần thể Á-Âu.
Trong
những năm gần đây, SEA đã được khám phá rộng rãi trong các nghiên cứu di
truyền. Một số nghiên cứu DNA ty thể (mtDNA) đã gợi ý rằng khu vực này tạo
thành điểm khởi đầu của sự mở rộng của con người hiện đại từ châu Phi sang
Trung Quốc, EA và Oceania8,9. Sự tăng trưởng dân số đáng kể thời tiền sử của
khu vực này đã mở đường cho việc ấp ủ đa dạng di truyền cao trong khu vực. Do
đó, các nhóm haploga chủ yếu của SEA (M, B, R và F) đã xuất hiện hơn 50.000 năm
trước10, và chúng cho thấy sự biến đổi di truyền đáng kể từ một tổ tiên chung.
(a remarkable genetic variability within clades) Soares và cộng sự 11 đã gợi ý rằng sự nóng lên toàn cầu và mực
nước biển dâng lên vào cuối kỷ Băng hà, là những lực lượng chính thúc đẩy sự đa
dạng của con người ở SEA.
Mặc
dù có rất nhiều nghiên cứu được thực hiện cho đến nay, kiến thức về sự biến
đổi mtDNA của nhiều quốc gia SEA như Việt Nam, Miến Điện, hoặc Campuchia vẫn
còn rất hạn chế9,12. Một trong những nghiên cứu đầu tiên nhằm làm sáng tỏ thành
phần mtDNA của các nước SEA đã được thực hiện bởi Oota và các đồng nghiệp13. Họ
đã phân tích một bộ mẫu Việt Nam thu thập từ những người nhập cư Nam Việt Nam
thế hệ đầu tiên từ California và so sánh nó với các bộ sưu tập mẫu được lấy từ người
Hán và người Nhật. Kết quả nghiên cứu cho thấy mẫu Việt Nam có mức biến đổi
mtDNA cao nhất trong dân số. Li và các đồng nghiệp8 đã phân tích một bộ mẫu người
Việt và người Trung, và báo cáo tần số cao của các nhóm B, M7, F và R, phổ biến
ở SEA và là chìa khóa để hiểu lịch sử của các quần thể SEA. Irwin và các cộng
tác viên đã đưa ra một loạt mẫu lớn các trình tự kiểm soát mtDNA của Việt Nam
(CR) với một tập trung chủ yếu là di truyền pháp y. Dữ liệu của họ cho thấy dân số miền Bắc Việt Nam có tính đa dạng di
truyền cao. Zimmerman et al.15 mô tả sự đa dạng haplotype cao ở miền bắc
Thái Lan và báo cáo rằng 14% haplotype của Thái Lan được chia sẻ với các quần
thể SEA khác. Bodner và cộng sự đã phân tích thành phần mtDNA của Lào, chỉ ra
rằng dân số này cho thấy đặc tính mẫu đa dạng mtDNA của SEA, trong đó B4a, B5a,
M7b1, F1a và R9 (sau này được gọi là R9'F) là haplogroups thường xuyên nhất.
Họ
cũng báo cáo rằng nhiều haplotypes tìm thấy trong mẫu được chia sẻ với các quần
thể xung quanh, chủ yếu là Thái Lan và Việt Nam12. Zhang và các đồng nghiệp16
đã phân tích một mẫu mtDNA rộng lớn của người thổ dân gốc Campuchia và đã giải
trình tự 98 tác nhân gây bệnh; các tác giả này cho rằng thổ dân Campuchia là
hậu duệ của các quần thể cổ đại, và kết quả của họ thêm hỗ trợ cho lý thuyết
rằng con người hiện đại đã định cư ở SEA
và sau đó phân tán sang Trung Quốc và các đảo SEA. Theo các tác giả này,
Campuchia có thể là trung tâm phân bố các nhóm haplog B5a, F1a, M12b và B4c2
cho các vùng phía Bắc và đại lục EA16. Gần đây hơn, Summerer và cộng tác viên
đã điều tra một bộ mẫu dân số Myanmar và giải trình tự 44 giải thể sinh học. Họ
kết luận rằng Myanmar trưng bày một thành phần haplogroup SEA đặc biệt, nhưng
với ảnh hưởng của Đông Bắc Á và Ấn Độ. Phân tích của họ cho thấy tỷ lệ di cư
giữa Myanmar và Việt Nam xấp xỉ bằng nhau9.
Một số lượng lớn các nghiên cứu đã chỉ ra SEA là cái nôi
của dân số châu Á ngày nay3. Một nỗ lực quan trọng trong việc mô tả khu
vực SEA về biến đổi mtDNA đã được thực hiện trong các thập kỷ qua9,12,15,16. Dự
án hiện tại nhằm góp phần nâng cao kiến thức của chúng ta về biến thể di truyền
của khu vực này, vì tầm quan trọng của khu vực này đối với sự phân tán của con
người hiện đại ở châu Á. Mặc dù một vài nghiên cứu mtDNA đã được tiến hành cho
đến nay, dữ liệu mtDNA có sẵn từ Việt Nam vẫn còn khan hiếm. Theo hiểu biết tốt
nhất của chúng tôi, nghiên cứu hiện tại là nỗ lực lấy mẫu lớn nhất tại Việt Nam
cho đến nay. Một phân tích toàn bộ bộ gen của một mẫu Việt Nam cũng được thực
hiện để kiểm tra thêm các giả thuyết được đề xuất bởi dữ liệu mtDNA.
III. KẾT QUẢ
Đa dạng phân tử
Nghiên
cứu này bao gồm 622 mẫu DNA được giải trình tự cho CR, từ sáu địa điểm khác
nhau của Việt Nam đại diện cho bảy nhóm sắc tộc. Có 476 loại haplotypes khác
nhau trong số mtDNA của Việt Nam, đó là minh chứng cho sự đa dạng mtDNA lớn.
Đối với bảy nhóm dân tộc được trình bày trong dữ liệu của chúng tôi, chỉ có năm
người trong số họ có kích thước mẫu cho phép ước tính giá trị đa dạng (Kho Me
và Thái được loại trừ khỏi những tính toán này). Các chỉ số đa dạng phân tử ở
tất cả các vị trí và các mẫu dân số được phân tích đều cao đối với cả haplotype
(H) và đa dạng nucleotide (π) (Bảng 1). Các giá trị thấp nhất của đa dạng
haplotype (H = 0,980) và đa dạng nucleotide (π = 0,8989) được tìm thấy trong
dân số Mông. Mẫu Mông của chúng tôi sống ở tỉnh Lào Cai (Bảng 1; Hình 1B), và
chúng đại diện cho dân tộc thứ hai thường xuyên nhất ở tỉnh này 47. Ở phía đối
diện phổ là Hoa, cho thấy giá trị đa dạng cao nhất (H = 1.000; π = 0,0107). Mặc
dù mẫu Hà Nội nhỏ (n = 38), nhưng đáng chú ý là các giá trị đa dạng cao được
quan sát (H = 1.000; π = 0,01210) (Bảng 1).
Không
có sự tương quan rõ ràng giữa các vị trí lấy mẫu và sự đa dạng phân tử được đo
bằng các chỉ số tóm tắt thống kê. Tuy nhiên, khi các mẫu được phân tích đến các
vùng địa lý chính (Bắc, Trung và Nam), một mô hình phân tử đa dạng rõ ràng hơn
cho thấy sự đa dạng tăng từ Bắc vào Nam của đất nước (Bảng 1; Hình 2A). [However, when the samples were analyzed
attending to main geographic regions (North, Center and South), a clearer
pattern of molecular diversity is revealed, suggesting that the diversity
increases from North to South of the country (Table 1; Fig. 2A)].
Các mẫu Haplogroup và các
đặc điểm địa lý của haplotype
Các
haplotypes điển hình của SEA chiếm ưu thế trong tiếng Việt, chủ yếu được đại
diện bởi haplogroups M (39%; với sub-haplogroup M7 [20%] là tiểu nhóm thường
xuyên nhất), và haplogroup N (61%; với haplogroup R9'F [27% ] và haplogroup B
[25%] dưới dạng các tần số phụ bậc nhất trong N) (Bảng 2, Hình 1).
Tuy
nhiên, sự khác biệt về mặt địa lý đáng kể trong các tần số haplogroup có thể
được quan sát (Hình 1 B). Ví dụ, thành phần haplogroup ở các địa điểm phía bắc
của Cao Bằng, Hà Nội và Hải Phòng khá giống nhau, với haplogroup M là thường
xuyên nhất (≥42% ở tất cả các địa điểm này) và M7 nhóm phụ chính của nó (≥20%
), tiếp theo là haplogroup R9'F với tần suất từ 28-36% (Bảng 2). Ngoại lệ đối
với mô hình này ở miền Bắc là Lào Cai, nơi có tần suất haplogroup N cao (71%),
với haplogroup B (41%) là tiểu nhóm chính của nó, theo sau là R9FF (16%); hơn
nữa, tần số của haplogroup C là cao nhất trong toàn bộ tập dữ liệu (13%). Như
đã đề cập ở trên, đặc điểm riêng biệt của Lào Cai xuất phát từ thực tế rằng mẫu
của chúng tôi từ khu vực này chủ yếu là do dân tộc Mông, cho thấy một mô hình
biến thể mtDNA không thể được coi là đại diện đầy đủ của toàn bộ dân số này khu
vực. Cũng như với người Mông, các mtDNA của Hoa cũng có một số đặc thù đối với
các nhóm dân tộc còn lại được nghiên cứu. Ví dụ, tần suất R9FF (39%) cao hơn đáng
kể so với mức trung bình của phần còn lại của mẫu (trung bình 27% cho toàn bộ
Việt Nam).
Để
tạo điều kiện giải thích tần số haplogroup giữa các vị trí khác nhau,
haplogroups được thu gọn thành các danh mục đại diện cho các nhánh phát sinh
SEA chính (cụ thể là A, B, C, D, R9'F, M, M7 và N) và các tần số này được nội
suy vào bản đồ địa lý (Hình 2B và C). Các bản đồ cho thấy M và M7 có tần suất
cao nhất ở vùng Đông Bắc của đất nước theo bờ biển dọc Vịnh Bắc Bộ và tần số
thấp nhất ở Tây Bắc và cực nam của Việt Nam (đồng bằng sông Cửu Long), nơi
haplogroup N phổ biến hơn . Haplogroups A và C thường xuyên hơn ở miền Tây Bắc
Việt Nam (Lào Cai), với các giá trị thấp nhất ở miền Nam. Haplogroups B đạt tần
suất cao nhất ở Tây Bắc, và các giá trị thấp nhất cũng được tìm thấy ở vùng
Đông Bắc (Đồng bằng sông Hồng). Ở miền Nam, tại Hồ Chí Minh, haplogroup D đạt
tần suất cao nhất (9%). Cuối cùng, bản đồ interpolated của haplogroup R9'F cũng
cho thấy một phân bố tần số phân tán: nó đạt đến tần số cao nhất ở đồng bằng sông
Hồng (32-36%), tần số giảm về phía Tây Bắc (16% ở khu vực lân cận Lào) Cai) và
ở trung tâm của đất nước (21% ở Đà Nẵng), nhưng lại tăng ở đồng bằng sông Cửu
Long (29% ở thành phố Hồ Chí Minh).
Mạng
lưới các chuỗi CR được xây dựng (Hình S1) để điều tra các nhóm haplotypes có
thể được quy cho các nhóm dân tộc cụ thể. Cây cho thấy một số haplotypes được
chia sẻ giữa các dân tộc dọc theo các nhánh khác nhau của phylogeny, tương
thích với luồng gen lịch sử giữa chúng.
Một
tính năng haplotype thú vị xứng đáng được đề cập cụ thể. Wen và cộng tác viên48
tìm thấy trong các mẫu của Trung Quốc mẫu CR CRT T16189C-T16217C –
C16261T-T16357C, được tuyên bố là độc quyền của những người nói tiếng
Hmong-Mien sống ở miền Nam Trung Quốc. Kết quả của chúng tôi ủng hộ giả thuyết
này, vì chúng tôi cũng đã tìm thấy mô hình này trong sáu mẫu của người Mông
Việt Nam, được gọi là Hmong / Miao ở Trung Quốc.
Phân tích các mitogenomes
và xác định dòng dõi phát sinh loài mới
Trong
số các trình tự CR Việt Nam được phân tích trong nghiên cứu này, chúng tôi đã
xác định được hai họa tiết đặc biệt cho đến nay vẫn chưa được phân loại. Phiên
bản hiện tại của tài liệu tham khảo haplogroup mtDNA (PhyloTree Build 17) không
chứa các nhánh phát sinh loài này, và do đó tên mới được trao cho chúng. Thông
tin xác nhận của các họa tiết trình tự này có thể thu được từ việc phân tích
các mitogenome thu được từ 1000G và tài liệu, đặc biệt là từ 49. Mitogenomes
thêm hỗ trợ phát sinh loài và độ phân giải cho các nhánh mới này.
Đầu
tiên chúng tôi tập trung chú ý vào mô hình CR được quan sát thấy trong một số
haplotypes đặc trưng bởi sự chuyển tiếp C332T (1,7% của haplotypes trong dân
tộc chính, người Kinh). Chuyển đổi C332T rất hiếm, ví dụ: nó không xuất hiện
trong phylogeny từ Phylotree (xem Weissensteiner et al.24) và nó không có các
bộc lộ đột biến trong Soares et al.29. Tổng cộng có 5 vi sinh vật mang C332T
được tìm thấy trong các mẫu dự án 1000G Việt Nam (# HG02031, # HG02121, #
HG02079, # HG01840 và # KU131379) (Hình 3A). Năm loại mitogenome cũng có đột biến
T8110C cộng với tất cả các đột biến dẫn từ rCRS đến haplogroup M7b1a1 + (16192)
theo Phylotree Build 17. Một mitogenome bổ sung từ Việt Nam (# HG02141) mang
tất cả các đột biến đặc trưng của M7b1a1 + (16192) ngoại lệ của biến thể C332T
(Hình 3A). Các mitogenomes chia sẻ C332T chia sẻ cũng biến thể T16189C. Có tính
đến thông tin có sẵn từ bộ gen hoàn chỉnh, chúng tôi đã thêm một nhánh mới vào
phylogeny được định nghĩa bởi motif C332T– (T16189C) và đặt tên là M7b1a1f4.
Dấu ngoặc đơn chỉ ra rằng biến thể T16189C không phải lúc nào cũng có mặt trong
các thành viên của nhánh này, như được chứng thực từ dữ liệu CR mang C332T
(trang này có tỷ lệ đột biến cao24,29).
Bằng
cách kiểm tra các mitogenome khác từ hồ sơ, chúng tôi đã phát hiện 14 mẫu
haplotypes M7b1a1f4 bổ sung ở bán đảo Đông Dương, bao gồm Campuchia, Malaysia
và Indonesia. Ngoài ra, có 13 loại mitogenome khác thuộc M7b1a1f không mang
C332T nhưng các họa tiết phụ khác, do đó cấu thành các nhánh phụ nhỏ khác. Một
lần nữa, các bộ gen khác được lấy mẫu ở các địa điểm khác nhau của bán đảo Đông
Dương. Phân tích các dãy vùng kiểm soát thuộc nhóm haplogroup M7b1a1f cho thấy
cùng một mô hình quan sát đối với các mitogenome, mặc dù cho thấy tỷ lệ cao hơn
của các trình tự Việt Nam trong tiểu nhóm M7b1a1f4. Bằng cách sửa đổi các tài
liệu về trình tự CR, chúng ta chỉ có thể phát hiện một vài thành viên M7b1a1f4
trong các quần thể từ tổ tiên SEA và luôn ở tần số rất thấp, hầu hết trong số
đó là Malay50,51. Bằng cách kiểm tra chuỗi vùng kiểm soát thuộc M7b1a1f, chúng
tôi quan sát thấy biến thể T16189C không phải lúc nào cũng có mặt trong các
kiểu haplotype M7b1a1f4 mang C332T. Hơn nữa, một số haplotypes M7b1a1f4, chỉ có
mặt ở Việt Nam, mang theo T16324C (Hình 3A). Từ một cơ sở dữ liệu lớn trên toàn
thế giới về các dãy vùng kiểm soát, có thể chứng thực rằng M7b1a1f và các nhánh
phụ của nó gần như bị giới hạn ở bán đảo Đông Dương (Hình S2A). Ở Việt Nam,
những haplotypes này được phát hiện hầu như chỉ thấy ở những người thuộc nhóm
dân tộc chính (Kinh). M7b1a1f là một nhánh cũ (TMRCA: 14.7 kya [9.9–19.7]),
cũng như nhánh phụ M7b1a1f4 (TMRCA: 10.8 kya [7.6–14.1]).
Một
motif trình tự khác được quan sát thấy trong các mẫu của chúng tôi từ Việt Nam
nằm trong haplogroup F1f (Hình 3 B). Như vậy, đột biến kép T16172C – C16295T
cộng với tất cả các đột biến đặc trưng dẫn đến F1f được chia sẻ bởi khoảng 3%
số haplotypes trong Kinh. Việc tìm kiếm các cá nhân thuộc F1f cho thấy một phát
sinh loài phức tạp hơn dự kiến. Có 97 bộ gen hoàn chỉnh được thu thập từ các
tài liệu và cơ sở dữ liệu; hầu hết trong số họ mang biến thể T16172C, sau đó
tạo thành một sub-clade có tên ở đây là F1f1. Trong F1f1 có sáu nhánh phụ khác
nhau, tất cả chúng đều được đặc trưng bởi một hoặc hai chuyển tiếp khá ổn định.
Một trong những nhánh này được xác định bởi C16295T, được đặt tên là F1f1b, và
bốn trong số bảy mitogenomes được lấy mẫu ở Việt Nam, với ba ở các nước láng
giềng khác. Tiểu nhóm này, trên thực tế, chỉ có một trong F1f được đại diện bởi
các mẫu từ Việt Nam. Dữ liệu CR có sẵn từ Việt Nam rơi hoàn toàn trong F1fb,
tiết lộ rằng nhánh này có rất ít biến thể (Hình S2B). Phần còn lại của dữ liệu
thuộc về F1f được đại diện tốt ở Thái Lan và Lào. TMRCA cho F1f chỉ 6,2 kya
(4,8-7,7); trong khi F1f1b là 5.1 kya (3.0–7.2).
Phân tích AMOVA về cấu
hình mtDNA
AMOVA
được tiến hành bằng cách phân loại mẫu lấy từ các địa điểm, các nhóm dân tộc và
các khu vực địa lý rộng lớn. Theo dự kiến, trong biến thể di truyền chiếm hầu
hết các biến thể, dao động từ 98,08 - 99,69% (Bảng 3), độc lập với phân chia
được xem xét. Trong biến thể dân số cao hơn khi xem xét vị trí mẫu (98,08%), và
mẫu này đã được xác nhận khi dữ liệu được tạo ra trong nghiên cứu này được phân
tích meta (phía sau) với dữ liệu được biên soạn từ tài liệu (98,37%).
Phân tích thành phần
chính
PCA
dựa trên tần số haplogroup cho phép hình dung các dạng biến đổi toàn cầu giữa
các quần thể. Chúng tôi tiến hành một PCA dựa trên tần số haplogroup mtDNA của
180 quần thể châu Á (Hình 4 A).
PCA
hiển thị một nhóm các mẫu dân số xuất sắc theo các khu vực địa lý chính. Thành
phần đầu tiên (PC1), giải thích ~ 24% phương sai di truyền, phân tách tất cả
các mẫu dân số trong ba khu vực chính của lô, với các mẫu dân số Bắc Trung Quốc
ở một cực, và cực đối lập được tạo thành bởi các mẫu dân số từ Bán đảo Đông
Dương (bao gồm tất cả các dân tộc từ Việt Nam, Lào, Thái Lan, vv) và Đông Á
(bao gồm một số mẫu Trung Quốc cộng với Đài Loan). Một nhóm không đồng nhất về
mặt địa lý của các quần thể khác nhau từ miền Bắc và Trung Á rơi vào giữa.
Chuyển sang thành phần thứ hai (PC2), giải thích ~ 12% của phương sai, đặc điểm
đáng chú ý nhất là nó chia tách các quần thể SEA khỏi những người ở Tây Á (Hình
4 A). Các mẫu được quan sát trong PCA này phù hợp với các kết quả trước đó (ví
dụ: Tabbada et al.52).
Để
tiếp tục nghiên cứu các mô hình biến đổi haplogroup trong quần thể người Việt
Nam, chúng tôi đã thực hiện PCA thứ hai (Hình 4 B), lần này hạn chế phân tích
đối với quần thể Nam Trung Quốc và Đông Nam Á. Các nhóm dân tộc Thái và Khơ Me
được bỏ qua từ những phân tích này do cỡ mẫu nhỏ. Trong PC1, dân số Việt Nam
xuất hiện rải rác cùng với các mẫu từ Nam Trung Quốc và Thái Lan. Thật kỳ lạ,
cụm mẫu Campuchia nằm ở đầu đối diện của cốt truyện. Tuy nhiên, PC2 cho thấy sự
gần gũi di truyền rõ rệt giữa các mẫu của Campuchia và các mẫu từ Việt Nam. Một
vài quần thể từ Nam Trung Quốc xuất hiện như được phân biệt rõ ràng trong cốt
truyện.
Mở rộng Bayesian Skyline
Lô của haplogroups và dân số
F1f1
cho thấy sự tăng trưởng dân số bắt đầu từ ~ 8 kya, tiếp theo là giảm nhẹ bắt
đầu từ ~ 2 kya nhưng giảm đáng kể từ ~ 1 kya trở đi. M7b1a1f tuy nhiên, xuất
hiện ~ 14 kya và nó trải qua một sự tăng trưởng liên tục cho đến hiện tại. Thời
gian kết hợp thu được bằng EBSP cho dòng dõi F1f1 và M7b1a1f trùng với TMRCA
thu được bằng cách sử dụng ML (Hình 3C; Hình S3).
EBSP
cũng được suy ra từ các nhóm dân tộc (Hình S4). Các tính năng nổi bật nhất là
mô hình nhân khẩu học của người Chăm, mà là khá tương tự như của haplogroup
F1f1. Người Tày và Kinh cho thấy một sự tăng trưởng lịch sử vừa phải cho đến
ngày nay, trong khi các nhóm khác cho thấy một thời gian không đổi theo thời
gian (mặc dù Hoa và Nùng với các khu vực có độ tin cậy lớn).
Dòng gen của người mẹ
Tỷ
lệ di cư lần đầu tiên được phân tích bởi các họ ngôn ngữ. Mô hình di cư đầy đủ
là có thể xảy ra nhiều nhất (Bảng 4); nó cho thấy các kích cỡ dân số rất khác
nhau cũng như dòng gen bất đối xứng giữa các nhóm ngôn ngữ chính ở Việt Nam
(Bảng S4). Số lượng người nhập cư trên mỗi thế hệ (Nm) được ước tính từ số
liệu. Gia đình Tai-Kadai cho thấy tỷ lệ di cư cao nhất đối với gia đình người
Austroasiatic (Nm = 214, chủ yếu được đại diện bởi nhóm dân tộc Kinh). Gia đình
Hmong-Miao cho thấy mức độ di cư đáng kể đối với Tai-Kadai (Nm = 164). Cuối
cùng, tỷ lệ lưu lượng gen thấp hơn thu được từ Austroasiatic và Tai-Kadai cho
họ Chăm (Nm = 10 và Nm = 25, tương ứng). Không có dòng gen của người mẹ được
phát hiện giữa các cặp ngôn ngữ khác được phân tích (Bảng S4).
Thứ
hai, dòng gen được kiểm tra giữa người Việt Nam và các dân tộc lân cận ở
Campuchia và Lào. Mô hình dòng chảy có khả năng xảy ra nhất đối với cặp
Campuchia-Việt Nam là mô hình di cư một chiều từ Việt Nam sang Campuchia (Bảng
4; Bảng S4; N m = 22).
Tuy
nhiên, đối với quần thể dân số Lào-Việt Nam, mô hình dòng gen biến thái là có
thể xảy ra nhất (Bảng 4). Phát hiện này cho thấy rằng hai quần thể này đại diện
cho một đơn vị dân số có hiệu quả, cả hai đều là một phần của cùng một đơn vị
hỗn giao và do đó chỉ ra mức độ lưu
lượng gen cao giữa chúng.
Phân tích toàn bộ bộ gen
của người Việt
Một
phân tích MDS ban đầu được tính toán dựa trên các giá trị IBS cho thấy rằng tất
cả các quần thể châu Á rơi vào cùng một cụm, tách biệt rõ ràng khỏi các cực
châu Âu và châu Phi (Hình S5). Một phân tích MDS thứ hai được thực hiện chỉ sử
dụng các quần thể từ SEA để thoát khỏi các cụm biến đổi di truyền trong khu vực
này (Hình 5A). Mẫu 1 nêu bật những đặc điểm riêng biệt của Negrito từ Malaysia,
mặc dù các quần thể khác từ cụm này rất gần với Việt Nam (KHV). Mẫu 2 tách
Philippines khỏi nhóm Trung Quốc-Thái Lan-Malaysia (bao gồm Negrito). Người
Mlabri từ Thái Lan xuất hiện cũng khác biệt với nhóm chính trong không gian
này.
Phân
tích hỗn hợp cho thấy, đối với giá trị xác thực chéo tốt nhất (K = 8), quần thể
KHV có thành phần chính phổ biến nhất ở Trung Quốc và hai thành phần nhỏ tìm
thấy tần số cao nhất trong Bidayuh từ Malaysia và Proto- Malay, gợi ý một sự
gần gũi di truyền giữa người Trung Quốc và người Mã Lai (Hình 5 B).
Thống
kê f3, được xây dựng như f3 (CHS, Y; KHV), chỉ ra rằng mẫu KHV có thể được giải
thích bằng một hỗn hợp của Trung Quốc và các quần thể khác từ SEA, đặc biệt là
người Tiền Malay và các dân số khác từ Malaysia (Bidayu, Malay, và Negrito) và
/ hoặc từ Thái Lan (H'tin và Mlabri) (Hình 5C). Thống kê D, được xây dựng như D
(Y, KHV; CHS, OUTGROUP), chỉ ra rằng người Trung Quốc (đại diện bởi CHS) có
đóng góp không thể nghi ngờ cho KHV và điều này có ý nghĩa thống kê sử dụng gần
như tất cả các quần thể SEA như tham chiếu (Hình 5D) ). Tuy nhiên, D (Y, KHV;
CHS, OUTGROUP) gợi ý rằng chỉ có một số ít người từ SEA dường như đóng góp
thống kê vào KHV; một lần nữa người Mã Lai (đại diện bởi người Proto-Malay,
Negrito, và Bidayut) cùng với người Thái (được đại diện bởi Mlabri và Hinin) là
những mẫu có thể được kết hợp với Trung Quốc trong hồ gien Việt Nam. Thực tế là
các giá trị âm cao hơn nhiều trong D (Y, KHV; CHS, OUTGROUP) so với D (Y, KHV;
CHS, OUTGROUP) cho thấy thành phần Trung Quốc có sự hiện diện rõ ràng hơn trong
KHV. Kết quả này phù hợp với ADMIXTURE.
IV. THẢO
LUẬN
Nhìn
chung, sự biến đổi di truyền quan sát thấy ở Việt Nam phù hợp với các mô hình
mtDNA được quan sát ở SEA, được coi là
vùng đa dạng và đa hình nhất của lục địa6. Theo dự kiến, sự đa dạng mtDNA
rất cao trên lãnh thổ Việt Nam. Đa số
người Việt Nam mang theo haplotypes mtDNA tập trung ở các nhánh M7 (20%) và
R9'F (27%), hai dòng dõi chính của mẹ không chỉ thống trị Việt Nam mà SEA nói
chung. Các nhóm haplog khác, như A, B, C và D được đại diện trong lãnh thổ
Việt Nam nhưng với tần số thấp hơn, ngoại trừ haplogroup B ở Lào Cai, nơi nó
đạt tới 41% tổng số. Haplogroup M phổ biến hơn ở miền Bắc và ở Trung tâm lãnh
thổ hơn ở miền Nam. Tần suất cao của tiểu ngành M7 là thỏa thuận tốt với một
nghiên cứu trước đó từ năm 2002, chỉ tìm thấy nhóm haplogroup này ở phần phía
nam của Đông Á, ở các nước như Hàn Quốc hoặc Nhật Bản53. M7 rất hiếm ở Trung Á,
và ước lượng thời gian kết hợp được quan sát bởi Kivisild et al.53, có thể phản
ánh một quần thể tái sinh của khu vực phía Nam châu Á xảy ra sau tối đa băng hà
cuối cùng. R9FF đạt tần suất cao trên toàn Việt Nam, với các giá trị thấp nhất
được quan sát thấy ở Lào Cai (16%). Haplogroup tần số quan sát thấy trong các
nghiên cứu trước đây phù hợp tốt với các giá trị quan sát được trong nghiên cứu
này. Phân tích của Irwin và cộng sự ở thành phố Hà Nội cho thấy đại diện R9'F
cao (> 27%) tiếp theo là B và M7 (20%) và tần suất thấp của nhóm
haplogroups, N, A, C và D (< 5%).
Thực
tế là có hơn 50 nhóm dân tộc được công nhận phân bố ở vùng cao nguyên cũng góp
phần vào sự biến đổi di truyền cao được quan sát thấy. Các đặc điểm địa lý và
văn hóa của Việt Nam cấu hình một kịch bản không
ủng hộ sự pha trộn ngẫu nhiên giữa các nhóm dân tộc;
hơn nữa, một số các nhóm này chia dân số của
họ thành các cấp xã hội có thể hạn chế trao đổi di truyền (Đại sứ quán Anh tại
Việt Nam http://www.vietnamembassy.org.uk/population.html; truy cập tháng 6 năm
2017). Dữ liệu của chúng tôi được lấy mẫu từ các nhóm dân tộc khác nhau, và do
đó có thể đưa ra những suy luận về trao đổi di truyền giữa chúng và khám phá
cấu trúc phụ dân số của đất nước. AMOVA (AMOVA được tiến hành bằng cách
phân loại mẫu bằng cách lấy mẫu các địa điểm, các nhóm dân tộc và các khu vực địa
lý rộng lớn) của
các nhóm Việt Nam chỉ phát hiện phân tầng dân số vừa phải, và sự thay đổi thấp
hơn trong các nhóm dân tộc so với các mẫu được sắp xếp theo khu vực địa lý. Vì
các suy luận dựa trên F ST của Wright một mình có thể là sai lầm 54,55, việc
đánh giá phân tầng phải được kiểm tra từ các góc độ khác nhau. Do đó, các phân
tích phát sinh loài, thực vật học, và MDS của quần thể người Việt Nam cho thấy
sự tồn tại của sự phân tầng đáng chú ý hơn trong cả nước; đồng thời, các phân tích này cũng cung cấp bằng chứng
cho dòng gen lịch sử giữa các nhóm dân tộc. Trong kịch bản này, nhóm đặc
biệt nhất là dân tộc Mông (Lào Cai). Thành phần mtDNA của họ khá khác với thành
phần của các nhóm dân tộc lân cận từ miền Bắc Việt Nam (Kinh, Nùng và Tày). Các
kết quả tìm thấy sự hỗ trợ bổ sung trong dữ liệu lịch sử và nhân học: bằng
chứng khảo cổ chỉ ra rằng người Mông sớm được liên kết với các nền văn hóa thời
đồ đá mới định cư ở vùng trung lưu của sông Dương Tử và Trung Trung Nam, trong
khi bằng chứng ngôn ngữ cho thấy khu vực phía nam Trung Quốc trong ít nhất
2.000 năm qua56. Wen và cộng sự chỉ ra rằng hầu hết các dòng dõi Mông mtDNA đều
có nguồn gốc ở miền nam Trung Quốc, mặc dù dân số Mông dường như đã tiếp xúc
với người Đông Bắc Á (Hán Trung Quốc).
Phân
tích cụ thể về các mô hình di cư cũng hỗ trợ kết luận rằng các nhóm dân tộc đã
thấm vào dòng gen, và do đó chúng ta nên giả định rằng tác động của rào cản địa
lý trong trao đổi dòng gen giữa các vùng là vừa phải. Các nhóm dân cư thuộc họ
ngôn ngữ Tai-Kadai cho thấy các giá trị di cư cao nhất đối với các nhóm gia
đình Austroasiatic, có lẽ phản ánh sự đồng hóa của dòng họ Tai-Kadai mtDNA của
gia đình Austroasiatic. Điều này dường như cũng đồng ý với giả thuyết
Austro-Tai nổi tiếng ban đầu được đưa ra bởi nhà nhân loại học Paul King
Benedict57, đề xuất rằng các ngôn ngữ Tai-Kadai và Austronesian từ miền nam
Trung Quốc và Thái Bình Dương có liên quan chặt chẽ.
Các
sự kiện nhân khẩu học lịch sử cũng đã được kiểm tra qua EBSP. Cốt truyện thu
được từ haplogroup F1f cho thấy sự tồn tại của những thay đổi nhân khẩu học
quan trọng xảy ra khoảng 1.000 năm trước. Ngoài ra, các phân tích được thực
hiện trong các nhóm dân tộc cho thấy một dấu hiệu nhân khẩu học tương tự trong
nhóm dân tộc Chăm. Điều thú vị là, sự thay đổi đột ngột quan sát của N e được
phát hiện trong chuỗi mtDNA trùng về thời gian với một trong những sự kiện nhân
khẩu học lịch sử quan trọng nhất ở Việt Nam, cái gọi là Nam tiến từ
trung tâm ban đầu của họ ở đồng bằng sông Hồng (Bắc Việt Nam ngày nay), theo bờ biển.Các tài liệu
lịch sử cho thấy sự mở rộng này bắt đầu trong thế kỷ 10-11 và kéo dài khoảng
700 năm cho đến giữa thế kỷ 18. Quá trình thực dân hóa do Việt Nam khởi xướng
đã được lý giải bởi các lý do địa lý và nhân khẩu học. Việc mở rộng này liên quan
đến các cuộc chiến tranh dữ dội với người Chăm và để lại dân số Việt Nam giảm
đáng kể. Đó là trong thế kỷ 17-19 mà người Việt đã thâm nhập vào đồng bằng sông
Cửu Long ở miền Nam. Không phải tất cả các nhóm dân tộc được phân tích trong
nghiên cứu này đều cho thấy cùng một mô hình nhân khẩu học trong EBSP, điều này
cho thấy rằng nhiều khả năng Nam tiến không có tác động tương tự đối với tất cả
người Việt Nam. Ước tính tỷ lệ di cư cho thấy người Chăm không được đồng hóa
hay tham gia trao đổi gen với các nhóm khác, cho thấy sự giảm mạnh của Cham
không liên quan đến sự đồng hóa của các quần thể khác; xem thêm17. Tỷ lệ di cư
cũng cho thấy sự tồn tại của sự đồng hóa quan trọng của người Hmong-Miao bởi
nhóm gia đình Tai-Kadai, cả hai nhóm gia đình trùng hợp về mặt địa lý ở miền
Bắc của đất nước.
Chúng
tôi đã kiểm tra các mô hình phát triển gen và theo địa lý (phylogeographic) với
các nước láng giềng khác. PCA dựa trên haplotypes mtDNA cho thấy sự gần gũi di
truyền giữa các quần thể khác nhau của Việt Nam và các quần thể Nam Trung Quốc
và Đông Nam Á khác. Đặc điểm địa lý thực vật của M7b1a1f và F1f1 cho thấy sự
trao đổi di truyền đã phổ biến ở thời cổ đại nhưng cũng gần đây hơn là
1,1,48,58. Tỷ lệ di cư được ước tính từ dữ liệu mtDNA cũng phù hợp với các hồ
sơ lịch sử. Dữ liệu cho thấy dòng chảy một chiều từ Việt Nam sang Campuchia,
một phát hiện phù hợp với các cuộc xâm lược lịch sử của Việt Nam vào vùng lãnh
thổ Campuchia đã có trong thời kỳ đen tối của Campuchia (từ thế kỷ 16 đến 19),
ngay sau sự sụp đổ của Đế chế Khmer. Những chuyển động này bắt đầu với sự xâm
nhập của người Kinh ở miền Nam đồng bằng sông Cửu Long, di dời Khmers59, và
nhường chỗ cho một thời kỳ mà Campuchia được kiểm soát luân phiên bởi Thái Lan
(trước đây có tên là Siam) và Việt Nam. Ngày nay người Việt Nam đại diện cho
thiểu số lớn thứ hai ở Campuchia, tập trung chủ yếu ở trong nước.
Sự
tương đồng về di truyền cao giữa người Lào và người Việt Nam trước đây đã được
ghi nhận bởi Bodner et al.12. Những tác giả này không tìm thấy sự khác biệt
đáng kể trong các mô hình mtDNA giữa các quần thể này, cho thấy dòng gen mạnh
bằng cách di chuyển giữa chúng. Những chuyển động này có thể được ưa chuộng bởi
sự gần gũi về địa lý cũng như bởi lịch sử chính trị được chia sẻ một phần của
cả hai quốc gia. Phân tích của chúng tôi cho thấy một mô hình di trú panmitic
là rất có thể, do đó bổ sung thêm hỗ trợ cho giả thuyết này. Ngoài ra, nguoi
Việt (dân tộc Kinh) thuộc về một nhánh của gia đình ngôn ngữ Austroasiatic với
một sự tương đồng bất ngờ với dân số Lào, mặc dù Lào chủ yếu bị chi phối bởi
gia đình ngôn ngữ Daic (gia đình Tai-Kadai) 12.Điều này có thể chỉ ra rằng một
tỷ lệ lớn các dòng họ mẹ Austroasiatic đã được đồng hóa bởi người dân Lào.
Với
mục tiêu tương phản các mẫu phát sinh loài và nhân khẩu học được quan sát với
dữ liệu mtDNA, chúng tôi cũng nghiên cứu các mẫu SNP trên toàn bộ gen sử dụng
dữ liệu từ Việt Nam và các nước láng giềng. Phân tích MDS cho thấy sự gần gũi
của người Kinh Việt Nam(KHV) với người Hoa, Thái và Malaysia. Mối quan hệ này
cũng hiển nhiên khi kiểm tra các mẫu phụ gia, cho thấy sự hiện diện của thành
phần Trung Quốc phổ biến hơn ở Việt Nam. F3-thống kê và D-thống kê cung cấp hỗ
trợ thống kê cho phụ gia hai chiều này. Một
ước tính sơ bộ dựa trên dữ liệu trên toàn bộ gen phù hợp đáng ngạc nhiên với
kết quả thu được từ dữ liệu mtDNA và một tập hợp mẫu khác từ Việt Nam, bằng
cách xác định thời điểm hòa trộn khi mở rộng Nam tiến.
Kết quả của nghiên cứu này xác nhận sự tồn tại của đa
dạng phân tử cao ở Việt Nam, như mong đợi từ một khu vực được coi là một trong
những cái nôi chính cho khu định cư châu Á. Mặc dù có sự khác biệt
về di truyền trung bình giữa các vùng và các dân tộc ở Việt Nam, có bằng chứng
cho dòng gen quan trọng trong nước và rộng hơn trong bán đảo Đông Dương. Dữ
liệu được trình bày trong nghiên cứu này là tập dữ liệu lớn nhất được tạo ra
cho đến nay; nó không chỉ quan tâm đến các nghiên cứu nhân chủng học mà còn trong
các lĩnh vực nghiên cứu y tế khác được áp dụng; ví dụ. di truyền pháp y, nơi mà
các cơ sở dữ liệu về dữ liệu mtDNA là cần thiết để ước tính trọng lượng của các
bằng chứng trong phân tích casework và kinship60. Haplogroup tần số ước tính từ
chiến lược lấy mẫu này cũng là chìa khóa cho việc giải thích các nghiên cứu y
sinh học, chẳng hạn như nghiên cứu trường hợp kiểm soát mà cơ cấu dân số không
bị phát hiện có thể dẫn đến dương tính giả không mong muốn liên quan đến
bệnh61,62. Theo quan điểm nhân chủng học, kịch bản tổng thể là người Việt Nam ngày
nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc,
chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia. Tiến
trình Nam tiến có thể là chìa khóa cho việc cấu hình kiến trúc bộ gen của
người Việt Nam ngày nay.