THẢO LUẬN VỀ KẾT QUẢ DỰ ÁN 1000 BỘ GEN NGƯỜI VIỆT NAM


THẢO LUẬN VỀ KẾT QUẢ DỰ ÁN 1000 BỘ GEN NGƯỜI VIỆT NAM

Ngày 03 tháng 10 năm 2017, tạp chí Scientific Reports công bố nghiên cứu  “CÁC CUỘC ĐIỀU TRA ĐỊA LÝ VÀ BỘ GEN CỦA NGƯỜI VIỆT NAM CHO THẤY SỰ BIẾN ĐỘNG NHÂN KHẨU HỌC LỊCH SỬ PHỨC TẠP” (Phylogeographic and genome-wide investigations of Vietnam ethnic groups reveal signatures of complex historical demographic movements-https://www.nature.com/articles/s41598-017-12813-6) của chín tác giả: S. Pischedda, R. Barral-Arca, A. Gómez-Carballa, J. Pardo-Seco, M. L. Catelli, V. Álvarez-Iglesias, J. M. Cárdenas, N. D. Nguyen, H. H. Ha, A. T. Le, F. Martinón-Torres, C. Vullo & A. Salas.
Đây là công trình khảo sát di truyền dân cư Việt Nam có quy mô lớn đầu tiên. Do đó nó có ý nghĩa đặc biệt trong việc tìm hiểu nguồn gốc và quá trình hình thành dân tộc Việt Nam, mối quan hệ giữa các cộng đồng người Việt. Nó cũng giúp cho việc chẩn trị các bệnh về di truyền, công việc của pháp y... Vì vậy, công trình này sẽ được nhiều nhà nghiên cứu Việt Nam quan tâm.
Từ thực tế nhiều năm khảo cứu nguồn gốc người Việt, chúng tôi thấy những đề xuất về sự hình thành dân cư Việt Nam của Đề án có những điểm cần thảo luận.
I.NHỮNG MÂU THUẪN VÀ SAI LẦM.
Từ Báo cáo được công bố, chúng tôi thấy những mâu thuẫn và sai lầm sau:
1. Báo cáo viết: “Theo quan điểm nhân chủng học, kịch bản tổng thể là người Việt Nam ngày nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc, chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia. Quá trình Nam tiến có thể là chìa khóa cho việc cấu hình kiến trúc bộ gen của người Việt Nam ngày nay.” (From an anthropological point of view, the overall scenario is that present-day Vietnamese have a dual ethnic origin: a major component coming from South of China, superimposed to a minor component originating from a Thai-Indonesian composite. The Nam tiến has probably been key for the configuration of the genome architecture of present-day Vietnamese).
Nhận định như vậy là mâu thuẫn nghiêm trọng.
a. Trước hết là theo tư duy logic: một khi người từ châu Phi đặt chân đầu tiên tới Việt Nam, sau khi hòa huyết tăng nhân số, người từ Việt Nam đi lên chiếm lĩnh Trung Quốc thì vì lẽ gì dân số Việt Nam lại do “một thành phần chính đến từ miền Nam Trung Quốc”làm nên?
Trich dẫn:
(South Asia (SA) was one of the first regions to have been peopled by modern humans; and this region has served as a major route of dispersal to other geographic areas, including SEA2. According to Atkinson et al.3, roughly 60% of the global human population lived in SEA about 38,000 years ago;)
Nam Á (SA) là một trong những vùng đầu tiên được con người hiện đại chiếm lĩnh; và khu vực này đã phục vụ như là một tuyến đường chính để phân tán đến các khu vực địa lý khác, bao gồm cả SEA2. Theo Atkinson và cộng sự, khoảng 60% dân số toàn cầu sống ở SEA khoảng 38.000 năm trước
Trích dẫn:
The first one proposes that populations to the South of East Asia (EA) probably derived from the populations in SEA that migrated from Africa, possibly via mid-Asia following a coastal route5.
(Người đầu tiên đề xuất rằng các quần thể ở Đông Á (EA) có thể xuất phát từ các quần thể ở Đông Nam Á di cư từ châu Phi, có thể thông qua châu Á sau một tuyến đường ven biển5)
Theo tư duy logic sẽ thấy mâu thuẫn lớn: trong khi người từ Việt Nam di cư làm nên dân cư Trung Quốc thì vì lẽ gì thành phần chính của dân cư Việt Nam lại là người từ Trung Quốc đến? Quy luật của mọi cuộc di cư là từ nơi đông dân tới nơi ít người. Báo cáo dẫn: “Theo Atkinson và cộng sự, khoảng 60% dân số toàn cầu sống ở SEA khoảng 38.000 năm trước”. Do áp lực dân số lớn như vậy thì chỉ có người từ Việt Nam di cư lên Hoa lục. Vậy vì lẽ gì dân cư Việt Nam lại do người Trung Quốc du nhập?
b.Thứ hai, về mặt di truyền học càng vô lý hơn. Một khi “thành phần chính”tức là một số lượng lớn người từ Nam Trung Quốc di cư xuống làm nên dân cư Việt Nam thì mặc nhiên, người Việt Nam phải là hậu duệ của người Nam Trung Quốc. Theo nguyên lý di truyền học, độ đa dạng sinh học giảm dần nơi các thế hệ con cháu. Điều này có nghĩa là, người Việt Nam ngày nay phải có độ đa dạng sinh học thấp hơn người Trung Quốc. Tuy nhiên, trên thực tế, tất cả các nghiên cứu di truyền học dân cư châu Á, kể cả trong báo cáo này đều khẳng định người Việt Nam có độ đa dạng sinh học cao nhất trong các dân cư châu Á:
Trích dẫn:
In recent years, SEA has been extensively explored in genetic studies. Some mitochondrial DNA (mtDNA) studies have suggested that this region constituted the starting point of the modern human expansions from Africa towards China, EA and Oceania8,9.)
(Trong những năm gần đây, SEA đã được khám phá rộng rãi trong các nghiên cứu di truyền. Một số nghiên cứu DNA ty thể (mtDNA) đã gợi ý rằng khu vực này tạo thành điểm khởi đầu của sự mở rộng của con người hiện đại từ châu Phi sang Trung Quốc, EA và Oceania8,)
Trích dẫn
Overall, the genetic variation observed in the Vietnamese fits well with mtDNA patterns observed in SEA, which is considered the most diverse and polymorphic region of the continent6. As expected, mtDNA diversity is very high across the Vietnamese territory.)
(Nhìn chung, sự biến đổi di truyền quan sát thấy ở Việt Nam phù hợp với các mô hình mtDNA được quan sát ở SEA, được coi là vùng đa dạng và đa hình nhất của lục địa6. Theo dự kiến, sự đa dạng mtDNA rất cao trên lãnh thổ Việt Nam. Đa số người Việt Nam mang theo haplotypes mtDNA tập trung ở các nhánh M7 (20%) và R9'F (27%), hai dòng dõi chính của mẹ không chỉ thống trị Việt Nam mà SEA nói chung.)
Thực tế của bộ gen người Việt Nam bác bỏ quan điểm của các tác giả Dự án.
c. Quan niệm cho rằng “Tiến trình Nam tiến có thể là chìa khóa cho việc cấu hình kiến trúc bộ gen của người Việt Nam ngày nay” (The Nam tiến has probably been key for the configuration of the genome architecture of present-day Vietnamese) tỏ ra thiếu cơ sở. Bởi lẽ, 800 năm trước Việt Nam có chính quyền quân chủ mạnh, đánh thắng các cuộc xâm lăng của Nguyên, Minh, Thanh thì làm thế nào mà người Trung Quốc xâm nhập để “làm nên thành phần chính của dân cư Việt Nam”? Mặt khác, Nam tiến là cuộc điều chuyển dân cư trong nội bộ Việt Nam, chủ yếu là cuộc di dân của người từ Thanh-Nghệ-Tĩnh vào Nam. Người Bắc Bộ hầu như không tham gia sự kiện này. Do vậy, sự kiện Nam tiến không hề có vai trò đáng kể đến cấu hình bộ gen người Việt Nam. Nhưng điều quan trọng hơn là, cổ nhân chủng học chỉ ra, từ 2000 năm TCN, dân cư Việt Nam đã như ngày hôm nay, gồm chủng Mongoloid phương Nam điển hình (Kinh, Tày, Thái…) và dạng Indonesian hiện đại của chủng Mongoloid phương Nam (Khmer, các sắc dân Tây nguyên…) Đó chính là hai dòng dân cư bản địa mà Báo cáo gọi là Thai-Indonesian. [1]
Chúng tôi cũng bác bỏ giả thuyết cho rằng người Việt Nam do người từ phương Tây di cư đến theo Con đường phương Bắc: Theo giả thuyết sau, hầu hết các dân tộc Việt Nam ngày nay sẽ là hậu duệ của các quần thể cổ đại trải dài từ phía Nam sông Dương Tử về phía Biển Đông và các đảo SEA1. (The other hypothesis proposes at least two independent migrations: the same initial movement coming from Africa following a southern coastal route first, followed by a series of migrations along a more northern route that served to bridge European and EA populations6. According to the latter hypothesis, most Vietnamese ethnic groups today would be descendants from the ancient populations that spread from South of the Yangtze River towards Mainland SEA and the SEA islands1)
Bởi lẽ, nếu có con đường di cư như thế thì người Trung Quốc cũng như người Việt Nam phải mang mã di truyền của người Arian. Trong khi thực tế, người Hán (93% dân cư Trung Quốc) và toàn bộ người Việt Nam mang mã di truyền Mongoloid phương Nam, đều được hình thành trên địa bàn Đông Á.
2. Trong khi khẳng định dân cư Bắc Việt Nam có đa dạng sinh học cao nhất “Their data indicated that the Northern Vietnamese population has a high genetic diversity” thì tại phần Các kết quả (Results) lại nói: “Tuy nhiên, khi các mẫu được phân tích đến các vùng địa lý chính (Bắc, Trung và Nam), một mô hình phân tử đa dạng rõ ràng hơn cho thấy sự đa dạng tăng từ Bắc vào Nam của đất nước (Bảng 1; Hình 2A).” (However, when the samples were analyzed attending to main geographic regions (North, Center and South), a clearer pattern of molecular diversity is revealed, suggesting that the diversity increases from North to South of the country (Table 1; Fig. 2A).)
Rõ ràng hai nhận định trên là mâu thuẫn. Một khi đã xác định dân cư miền Bắc có độ đa dạng sinh học cao nhất, thì không thể có điều trái ngược là càng xuống phía nam đất nước, độ đa dạng di truyền của dân cư càng cao hơn! Bởi như vậy, độ đa dạng di truyền của dân cư phía Nam phải cao hơn phía Bắc! Điều trái ngược như vậy là vô lý nên không thể giải thích được! Chinh sự mâu thuẫn này khiến cho bản Báo cáo trở nên bị hoài nghi.
3. Sự suy giảm dân số đáng kinh ngạc của người Chăm cách đây 700 năm phù hợp quá trình Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng.  [The dramatic population decrease experienced by the Cham 700 years ago (ya) fits well with the Nam tiến (“southern expansion”) southwards from their original heartland in the Red River Delta.]
Có đúng đồng bằng sông Hồng là trung tâm cư trú ban đầu của người Chăm?
Khảo cổ đồng bằng sông Hồng cho thấy, khoảng 500 -300 năm TCN, khi nước biển rút, đồng bằng sông Hồng mới hình thành. Sớm nhất lúc này trung tâm đồng bằng sông Hồng mới có người đến ở. Trong khi đó 5000 năm trước, người Chăm là chủ nhân văn hóa Sa Huỳnh ở miền Trung Việt Nam. Do vậy, đồng bằng sông Hồng không thể là trung tâm cư trú ban đầu của người Chăm. Thời nhà Lý đã đưa 40.000 tù binh Chăm về an trí ở dồng bằng sông Hồng.
4. Một trong những kỳ vọng ở Dự án này là từ giải mã nguồn gen sẽ cho ra nhận định chính xác về thành phần dân cư Việt Nam. Nhưng Báo cáo đã không làm được việc này.
Quan niệm chính thống hiện nay cho rằng : Việt Nam có 54 dân tộc, trong đó dân tộc Việt (tên gọi khác: Kinh) là đa số, các dân tộc còn lại là thiểu số. Theo chúng tôi, sở dĩ có quan niệm như vậy là do trước đây ảnh hưởng của nhân khẩu học Trung Quốc. Người Trung Quốc nói: “Trung Quốc có 56 dân tộc anh em.” Việt Nam cũng nói: “Việt Nam có 54 dân tộc anh em.” Nhưng từ lâu người Trung Quốc đã thay đổi: “Trung Quốc có 5 dân tộc: Hán, Hồi, Mông, Mãn, Tạng. Trong đó người Hán là đa số, các dân tộc còn lại là thiều số.”
 Trong khi đó, về di truyền học, từ 4.000 năm trước, dân cư Việt Nam là chủng (race) duy nhất Lạc Việt (Mongoloid phương Nam hay Nam Á) [1,4]. Trong đó sắc tộc (ethnicity) Kinh là đa số, các sắc tộc khác là thiểu số. Việc xác định như vậy rất quan trọng không chỉ đối với dân cư, nhân khẩu học mà còn có ý nghĩa lớn đối với lịch sử, văn hóa Việt Nam.
II. KẾT LUẬN
Từ đầu thế kỷ, việc sử dụng kỹ thuật di truyền để tìm tổ tiên loài người và các chủng tộc mở ra sự đột phá quan trọng cho nhân học. Jared Diamond của Đại học California từng nói: “Giờ không còn là lúc chơi với những khúc xương và những hòn đá nữa. Những gì thuộc về con người mà chưa được di truyền học kiểm định đều không đáng tin cậy.” Lúc đầu chúng tôi hồ hởi tin theo. Nhưng rồi nhận ra, câu nói chỉ đáng tin một nửa. Di truyền học không thể giải quyết mọi vấn đề. Ở đây lại đụng tới triết học trong quan hệ giữa vật thể và chủ thể nhận thức. Những khám phá di truyền học dù có được tạo ra bằng công nghệ hiện đại tới đâu đi nữa thì điều quyết định vẫn là con người xử lý những khám phá đó. Một bằng chứng rất điển hình, sau khi nhóm Y.J.Chu công bố phát hiện của mình thì Spencer Wells và Stephen Oppeheimer cùng vào cuộc lặp lại nghiên cứu của Chu. Nhưng hai trường phái đưa ra kết luận trái ngược. Công bố sớm hơn và là đại diện của Hội Địa lý Quốc gia Hoa Kỳ tiếng tăm lừng lẫy nên ý tưởng của S. Wells được ủng hộ rộng rãi. Nhưng thực tế di truyền học và nhất là khảo cổ thời gian qua đã ủng hộ S. Oppenheimer. S. Oppenheimer đã đúng không chỉ vì labo của ông đưa ra kết quả chính xác mà điều quan trọng hơn là ở sự từng trải lịch lãm của nhà khoa học cao tuổi từng có 20 năm kinh nghiệm ở Đông Nam Á, là tác giả của Eden in the East nổi tiếng. Không chỉ di truyền học mà ông còn vận dụng tài tình những khám phá khảo cổ học và nhất là giải mã những huyền thoại phương Đông.
Tìm nguồn gốc dân tộc Việt Nam không phải chuyện đơn giản và càng không thể chỉ bằng công nghệ di truyền. Trong công việc này, di truyền học nhiều lắm chỉ có thể giữ vai trò những gợi ý ban đầu và kiểm định để điều chỉnh những giả thuyết được đưa ra. Không chỉ cần “chơi” với những khúc xương, những hòn đá mà cũng cần chơi với những truyền thuyết, huyền thoại mờ mờ ảo ảo lưu truyền qua những nghìn năm trong dân gian.
Rất cảm ơn các tác giả và nhà tài trợ đã hoàn thành Dự án 1000 bộ gen người Việt Nam. Do những tài liệu về di truyền của người Việt Nam đến nay còn quá hiếm hoi nên kết quả của Dự án này là tài sản quý giá. Các nhà nghiên cứu người Việt sẽ khai thác tài liệu từ đây để hiểu thêm về mã di truyền của người Việt, để chữa trị các căn bệnh về di truyền, giúp cho công tác pháp y…
Tiếc rằng, do áp dụng phương pháp luận thiếu chuẩn xác, các tác giả Dự án đã có đoán định không thỏa đáng về sự hình thành dân cư Việt Nam.
Để kết thúc, người viết lưu ý những ai tham khảo tài liệu cần cẩn trọng trước những kết luận sai lầm của Dự án này.
                                                                                                                                  Sài Gòn, 14.5. 2018


Tài liệu tham khảo.
1.       Nguyễn Đình Khoa. Nhân chủng học Đông Nam Á. NXB DH&THCN. H, 1983.
2.       Archaeologists Find 88,000-Year-Old Human Finger Fossil in Saudi ... https://news.nationalgeographic.com/.../saudi-arabia-finger-human-mig..
3.       3. Stephen Oppenheimer. Out of Eden: The Peopling of the World. https://www.amazon.co.uk/Out-Eden-Peopling-Stephen-Oppenheimer/..
4.       Marc F. Oxenham, ‎Hirofumi Matsumura, ‎Nguyen Kim Dung. Man Bac: The Excavation of a Neolithic Site in Northern Vietnam- 2011 - ‎Social Science
https://books.google.com.vn/books?isbn=1921862238


NHẬN ĐỊNH VỀ “DỰ ÁN 1000 BỘ GEN NGƯỜI VIỆT NAM”




Ngày 03 tháng 10 năm 2017, tạp chí Scientific Reports công bố nghiên cứu  “CÁC CUỘC ĐIỀU TRA ĐỊA LÝ VÀ BỘ GEN CỦA NGƯỜI VIỆT NAM CHO THẤY SỰ BIẾN ĐỘNG NHÂN KHẨU HỌC LỊCH SỬ PHỨC TẠP” (Phylogeographic and genome-wide investigations of Vietnam ethnic groups reveal signatures of complex historical demographic movements) của chín tác giả: S. Pischedda, R. Barral-Arca, A. Gómez-Carballa, J. Pardo-Seco, M. L. Catelli, V. Álvarez-Iglesias, J. M. Cárdenas, N. D. Nguyen, H. H. Ha, A. T. Le, F. Martinón-Torres, C. Vullo & A. Salas. Đây là công trình khảo sát di truyền dân cư Việt Nam có quy mô lớn nhất cho đến nay. Do đó nó có ý nghĩa đặc biệt trong việc tìm hiểu nguồn gốc và quá trình hình thành dân tộc Việt, mối quan hệ giữa các cộng đồng người Việt. Nó cũng giúp cho việc chẩn trị các bệnh về di truyền, công việc của pháp y... Vì vậy, công trình này sẽ được nhiều nhà nghiên cứu Việt Nam quan tâm. Trong khả năng hạn chế của mình, chúng tôi xin đưa ra nhận định sơ bộ như sau.                                           
I.                    TÓM TẮT KẾT QUẢ NGHIÊN CỨU.
Đây là một tài liệu dài 44 trang với gần 11.000 từ cùng nhiều sơ đồ, hình vẽ minh họa. Các bạn có thể đọc bản tiếng Anh ở địa chỉ https://www.nature.com/articles/s41598-017-12813-6. Hoặc bản dịch tóm lược tiếng Việt ở địa chỉ: http://thuyhavan.blogspot.com/2018/05/cac-cuoc-ieu-tra-ia-ly-va-bo-gen-cua.html
Để giúp bạn đọc nắm được nội dung báo cáo một cách thuận lợi nhất, chúng tôi rút từ đó ra những vấn đề nổi bật sau đây:
1.       Tất cả người Việt Nam mang theo haplotypes (một nhóm cụ thể của gen mà con cháu thừa hưởng từ cha mẹ) Đông Nam Á (SEA), cho thấy sự phân tầng địa lý và dân tộc vừa phải, với người Mông cấu thành nên nhóm đặc biệt nhất.
2.       Các SNP (đa hình đơn nucleotide) tự động liên tục trỏ đến dòng gen lịch sử quan trọng trong lục địa SEA, và thêm hỗ trợ cho một sự kiện hỗn hợp chính xảy ra giữa Trung Quốc và một tổ hợp tổ tiên miền Nam châu Á (chủ yếu là người Malay). Sự kiện hỗn hợp này xảy ra 800 năm cách nay, một lần nữa trùng với tiến trình Nam tiến.
3.       Hai giả thuyết chính đã được đề xuất để giải thích các nguồn địa lý / dân số ban đầu đóng góp cho quần thể SEA ngày nay. Giả thuyết đầu tiên đề xuất rằng các quần thể ở Nam Đông Á (EA) có thể xuất phát từ các quần thể ở Đông Nam Á di cư từ châu Phi, có thể thông qua châu Á sau một tuyến đường ven biển5. Giả thuyết khác đề xuất ít nhất hai cuộc di cư độc lập: cùng một phong trào ban đầu đến từ châu Phi sau một tuyến đường ven biển phía nam đầu tiên, tiếp theo là một loạt các di cư dọc theo một tuyến đường phía bắc phục vụ để nối các quần thể châu Âu và EA6. Theo giả thuyết sau, hầu hết các dân tộc Việt Nam ngày nay sẽ là hậu duệ của các quần thể cổ đại trải dài từ phía Nam sông Dương Tử về phía Biển Đông và các đảo SEA1. Tuy nhiên, rất nhiều di cư và các quá trình hội nhập liên tiếp có thể xảy ra theo thời gian, mô hình hóa thành phần di truyền của SEA5. Ví dụ, Việt Nam cũng đã tham gia vào các tuyến lịch sử thương mại quan trọng, chẳng hạn như Con đường Tơ lụa, và từ hơn 2.000 năm trước, bờ biển Việt Nam đã thu hút các thương gia đến từ Trung Đông và Nhật Bản. Các sàn giao dịch thương mại này đã đóng góp nhiều cho sự trao đổi văn hóa và di truyền giữa các quần thể Á-Âu.
4.       Trong những năm gần đây, SEA đã được khám phá rộng rãi trong các nghiên cứu di truyền. Một số nghiên cứu DNA ty thể (mtDNA) đã gợi ý rằng khu vực này tạo thành điểm khởi đầu của sự mở rộng của con người hiện đại từ châu Phi sang Trung Quốc, EA và Oceania8,9. Sự tăng trưởng dân số đáng kể thời tiền sử của khu vực này đã mở đường cho việc ấp ủ đa dạng di truyền cao trong khu vực. Do đó, các nhóm haploga chủ yếu của SEA (M, B, R và F) đã xuất hiện hơn 50.000 năm trước10, và chúng cho thấy sự biến đổi di truyền đáng kể từ một tổ tiên chung. (a remarkable genetic variability within clades)
5.       Một trong những nghiên cứu đầu tiên nhằm làm sáng tỏ thành phần mtDNA của các nước SEA đã được thực hiện bởi Oota và các đồng nghiệp13. Họ đã phân tích một bộ mẫu Việt Nam thu thập từ những người nhập cư Nam Việt Nam thế hệ đầu tiên từ California và so sánh nó với các bộ sưu tập mẫu được lấy từ người Hán và người Nhật. Kết quả nghiên cứu cho thấy mẫu Việt Nam có mức biến đổi mtDNA cao nhất trong dân số
6.       Irwin và các cộng tác viên đã đưa ra một loạt mẫu lớn các trình tự kiểm soát mtDNA của Việt Nam (CR) với một tập trung chủ yếu là di truyền pháp y. Dữ liệu của họ cho thấy dân số miền Bắc Việt Nam có tính đa dạng di truyền cao.
7.       Các tác giả này cho rằng thổ dân Campuchia là hậu duệ của các quần thể cổ đại, và kết quả của họ thêm hỗ trợ cho lý thuyết rằng con người hiện đại đã định cư ở SEA và sau đó phân tán sang Trung Quốc và các đảo SEA.
8.       Gần đây hơn, Summerer và cộng tác viên đã điều tra một bộ mẫu dân số Myanmar và giải trình tự 44 giải thể sinh học. Họ kết luận rằng Myanmar trưng bày một thành phần haplogroup SEA đặc biệt, nhưng với ảnh hưởng của Đông Bắc Á và Ấn Độ. Phân tích của họ cho thấy tỷ lệ di cư giữa Myanmar và Việt Nam xấp xỉ bằng nhau9.
9.       Nhìn chung, sự biến đổi di truyền quan sát thấy ở Việt Nam phù hợp với các mô hình mtDNA được quan sát ở SEA, được coi là vùng đa dạng và đa hình nhất của lục địa6. Theo dự kiến, sự đa dạng mtDNA rất cao trên lãnh thổ Việt Nam. Đa số người Việt Nam mang theo haplotypes mtDNA tập trung ở các nhánh M7 (20%) và R9'F (27%), hai dòng dõi chính của mẹ không chỉ thống trị Việt Nam mà SEA nói chung.
10.   Thực tế là có hơn 50 nhóm dân tộc được công nhận phân bố ở vùng cao nguyên cũng góp phần vào sự biến đổi di truyền cao được quan sát thấy. Các đặc điểm địa lý và văn hóa của Việt Nam cấu hình một kịch bản không ủng hộ sự pha trộn ngẫu nhiên giữa các nhóm dân tộc;
11.   Do đó, các phân tích phát sinh loài, thực vật học, và MDS của quần thể người Việt Nam cho thấy sự tồn tại của sự phân tầng đáng chú ý hơn trong cả nước; đồng thời, các phân tích này cũng cung cấp bằng chứng cho dòng gen lịch sử giữa các nhóm dân tộc. Trong kịch bản này, nhóm đặc biệt nhất là dân tộc Mông (Lào Cai). Thành phần mtDNA của họ khá khác với thành phần của các nhóm dân tộc lân cận từ miền Bắc Việt Nam (Kinh, Nùng và Tày). Các kết quả tìm thấy sự hỗ trợ bổ sung trong dữ liệu lịch sử và nhân học: bằng chứng khảo cổ chỉ ra rằng người Mông sớm được liên kết với các nền văn hóa thời đồ đá mới định cư ở vùng trung lưu của sông Dương Tử và Trung Trung Nam, trong khi bằng chứng ngôn ngữ cho thấy khu vực phía nam Trung Quốc trong ít nhất 2.000 năm qua56. Wen và cộng sự chỉ ra rằng hầu hết các dòng dõi Mông mtDNA đều có nguồn gốc ở miền nam Trung Quốc, mặc dù dân số Mông dường như đã tiếp xúc với người Đông Bắc Á (Hán Trung Quốc).
12.   Sự tương đồng về di truyền cao giữa người Lào và người Việt Nam trước đây đã được ghi nhận bởi Bodner et al.12. Những tác giả này không tìm thấy sự khác biệt đáng kể trong các mô hình mtDNA giữa các quần thể này, cho thấy dòng gen mạnh bằng cách di chuyển giữa chúng.
13.   Kết quả của nghiên cứu này xác nhận sự tồn tại của đa dạng phân tử cao ở Việt Nam, như mong đợi từ một khu vực được coi là một trong những cái nôi chính cho khu định cư châu Á.
14.   Ước tính tỷ lệ di cư cho thấy người Chăm không được đồng hóa hay tham gia trao đổi gen với các nhóm khác, cho thấy sự giảm mạnh của Cham không liên quan đến sự đồng hóa của các quần thể khác; xem thêm17. Tỷ lệ di cư cũng cho thấy sự tồn tại của sự đồng hóa quan trọng của người Hmong-Miao bởi nhóm gia đình Tai-Kadai, cả hai nhóm gia đình trùng hợp về mặt địa lý ở miền Bắc của đất nước.
15.   Với mục tiêu tương phản các mẫu phát sinh loài và nhân khẩu học được quan sát với dữ liệu mtDNA, chúng tôi cũng nghiên cứu các mẫu SNP trên toàn bộ gen sử dụng dữ liệu từ Việt Nam và các nước láng giềng. Phân tích MDS cho thấy sự gần gũi của người Kinh Việt Nam (KHV) với người Hoa, Thái và Malaysia. Mối quan hệ này cũng hiển nhiên khi kiểm tra các mẫu phụ gia, cho thấy sự hiện diện của thành phần Trung Quốc phổ biến hơn ở Việt Nam. F3-thống kê và D-thống kê cung cấp hỗ trợ thống kê cho phụ gia hai chiều này. Một ước tính sơ bộ dựa trên dữ liệu trên toàn bộ gen phù hợp đáng ngạc nhiên với kết quả thu được từ dữ liệu mtDNA và một tập hợp mẫu khác từ Việt Nam, bằng cách xác định thời điểm hòa trộn khi mở rộng Nam tiến.
16.   Các sự kiện nhân khẩu học lịch sử cũng đã được kiểm tra qua EBSP. Cốt truyện thu được từ haplogroup F1f cho thấy sự tồn tại của những thay đổi nhân khẩu học quan trọng xảy ra khoảng 1.000 năm trước. Ngoài ra, các phân tích được thực hiện trong các nhóm dân tộc cho thấy một dấu hiệu nhân khẩu học tương tự trong nhóm dân tộc Chăm. Điều thú vị là, sự thay đổi đột ngột quan sát của N e được phát hiện trong chuỗi mtDNA trùng về thời gian với một trong những sự kiện nhân khẩu học lịch sử quan trọng nhất ở Việt Nam, cái gọi là Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng (Bắc Việt Nam ngày nay), theo bờ biển.Các tài liệu lịch sử cho thấy sự mở rộng này bắt đầu trong thế kỷ 10-11 và kéo dài khoảng 700 năm cho đến giữa thế kỷ 18. Quá trình thực dân hóa do Việt Nam khởi xướng đã được lý giải bởi các lý do địa lý và nhân khẩu học. Việc mở rộng này liên quan đến các cuộc chiến tranh dữ dội với người Chăm và để lại dân số Việt Nam giảm đáng kể.
17.   Ước tính tỷ lệ di cư cho thấy người Chăm không được đồng hóa hay tham gia trao đổi gen với các nhóm khác, cho thấy sự giảm mạnh của Cham không liên quan đến sự đồng hóa của các quần thể khác;
18.   Theo quan điểm nhân chủng học, kịch bản tổng thể là người Việt Nam ngày nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc, chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia. Tiến trình Nam tiến có thể là chìa khóa cho việc cấu hình kiến trúc bộ gen của người Việt Nam ngày nay.
II.                  NHẬN XÉT
Những kết quả trình bày trong Dự án 1000 bộ gen người Việt Nam có thể quy vào ba nhóm vấn đề:
1.       Nhóm thứ nhất: Ủng hộ giả thuyết đã có từ trước:
i.                     Từ thập kỷ cuối của thế kỷ XX xuất hiện nhiều khảo cứu di truyền học cho rằng: “Người Việt Nam có độ đa dạng di truyền cao nhất trong dân cư châu Á. Người từ Việt Nam di cư ra các đảo Đông Nam Á, sang Ấn Độ và lên chiếm lĩnh Hoa lục.” Bắt đầu bằng công bố của S.W. Ballinger năm 1992, rồi Y.J. Chu năm 1998, Stephen Oppenheimer năm 2004… Một nội dung quan trọng của Dự án này khẳng định những phát hiện trên.
ii.                   Sự tương đồng về di truyền cao giữa người Lào và người Việt Nam (tiểu mục 12)
iii.                  Sự tương đồng về di truyền cao giữa người Myanmar với người Việt Nam (tiểu mục 8).  
2.       Nhóm thứ hai: Những phát hiện mới.
Là công trình đầu tiên khảo sát di truyền của số lượng lớn người Việt Nam nên Dự án Bộ gen người Việt Nam đã phát hiện những điều mới về dân cư Việt Nam:
i.                       “Trong kịch bản này, nhóm đặc biệt nhất là dân tộc Mông (Lào Cai). Thành phần mtDNA của họ khá khác với thành phần của các nhóm dân tộc lân cận từ miền Bắc Việt Nam (Kinh, Nùng và Tày). Các kết quả tìm thấy sự hỗ trợ bổ sung trong dữ liệu lịch sử và nhân học: bằng chứng khảo cổ chỉ ra rằng người Mông sớm được liên kết với các nền văn hóa thời đồ đá mới định cư ở vùng trung lưu của sông Dương Tử và Trung Trung Nam, trong khi bằng chứng ngôn ngữ cho thấy khu vực phía nam Trung Quốc trong ít nhất 2.000 năm qua56. Wen và cộng sự chỉ ra rằng hầu hết các dòng dõi Mông mtDNA đều có nguồn gốc ở miền nam Trung Quốc, mặc dù dân số Mông dường như đã tiếp xúc với người Đông Bắc Á (Hán Trung Quốc).”
Trước đây chúng ta chỉ biết tới: “Việt Nam có 54 dân tộc anh em, người Kinh là dân tộc đa số, còn lại  là các dân tộc thiểu số.” Nay được biết thêm, trong cộng đồng dân cư Việt Nam, người Mông lập thành nhóm có mã di truyền đặc biệt.
ii.                   Dân số miền Bắc Việt Nam có tính đa dạng di truyền cao: “Irwin và các cộng tác viên đã đưa ra một loạt mẫu lớn các trình tự kiểm soát mtDNA của Việt Nam (CR) với một tập trung chủ yếu là di truyền pháp y. Dữ liệu của họ cho thấy dân số miền Bắc Việt Nam có tính đa dạng di truyền cao.” (Irwin and collaborators14analyzed a large sample set of Vietnamese mtDNA control region (CR) sequences with a predominantly forensic genetic focus. Their data indicated that the northern Vietnamese population has a high genetic diversity)
iii.                 Phát hiện mã di truyền dân cư ban đầu ở Việt Nam: “các nhóm haploga chủ yếu của SEA (M, B, R và F) đã xuất hiện hơn 50.000 năm trước, và chúng cho thấy sự biến đổi di truyền đáng kể từ một tổ tiên chung.” Đây là phát hiện có ý nghĩa, vì theo tài liệu cổ nhân chủng học, vào thời đồ đá, trên đất  Việt Nam có mặt bốn chủng người Việt cổ: Indonesian, Melanesian, Vedoid và Negritoid. Có lẽ đây là lần đầu tiên có khám phá di truyền về bốn chủng người được sinh ra trên đất Việt Nam.
3.       Nhóm thứ ba: Những mâu thuẫn bất cập.
Bên cạnh những thành quả, bản báo cáo cũng bộc lộ những điều bất cập và mâu thuẫn:
i.                     Trong khi khẳng định dân cư Bắc Việt Nam có đa dạng sinh học cao nhất “Their data indicated that the Northern Vietnamese population has a high genetic diversity thì tại phần Các kết quả (Results) lại nói: “Tuy nhiên, khi các mẫu được phân tích đến các vùng địa lý chính (Bắc, Trung và Nam), một mô hình phân tử đa dạng rõ ràng hơn cho thấy sự đa dạng tăng từ Bắc vào Nam của đất nước (Bảng 1; Hình 2A).” (However, when the samples were analyzed attending to main geographic regions (North, Center and South), a clearer pattern of molecular diversity is revealed, suggesting that the diversity increases from North to South of the country (Table 1; Fig. 2A).)
Rõ ràng hai nhận định trên là mâu thuẫn với nhau. Bởi lẽ, khi độ đa dạng sinh học của dân cư miền Bắc cao nhất thì không thể có chuyện “độ đa dạng tăng từ Bắc tới Nam của đất nước!” Điều trái ngược như vậy là không thể giải thích được!
ii.                   Trong toàn bộ Báo cáo thể hiện tinh thần: Người Việt Nam có đa dạng sinh học cao nhất trong dân cư châu Á và người từ Việt Nam lan tỏa ra các đảo Đông Nam Á, Ấn Độ và đi lên chiếm lĩnh Hoa lục nhưng ở phần kết luận lại nói: “Theo quan điểm nhân chủng học, kịch bản tổng thể là người Việt Nam ngày nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc, chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia.”
Rõ ràng đây là một mâu thuẫn. Trước hết là theo tư duy logic: một khi người từ châu Phi đặt chân đầu tiên tới Việt Nam, sau khi hòa huyết tăng nhân số, người từ Việt Nam đi lên chiếm lĩnh Trung Quốc thì vì lẽ gì dân số Việt Nam lại do “một thành phần chính đến từ miền Nam Trung Quốc”làm nên? Đây là câu hỏi không thể trả lời!Thứ hai, về mặt di truyền học càng có vấn đề. Một khi “thành phần chính”tức là một số lượng lớn người từ Nam Trung Quốc di cư xuống làm nên dân cư Việt Nam thì mặc nhiên, người Việt Nam phải là hậu duệ của người Nam Trung Quốc. Theo nguyên lý di truyền học, độ đa dạng sinh học giảm dần ở các thế hệ con cháu. Điều này có nghĩa là, người Việt Nam phải có độ đa dạng sinh học thấp hơn người Trung Quốc. Tuy nhiên, trên thực tế, tất cả các nghiên cứu di truyền học dân cư châu Á, kể cả trong báo cáo này đều khẳng định người Việt Nam có độ đa dạng sinh học cao nhất trong các dân cư châu Á.
Do mâu thuẫn như vậy chứng tỏ kết luận của Báo cáo là không phù hợp với thực tế!
III.                SO SÁNH VỚI KHẢO CỨU CỦA CHÚNG TÔI.
1.       Khảo cứu của chúng tôi:  Tài liệu Quan hệ di truyền của dân cư Trung Quốc (Genetic Relationship of Populations in China) của Y.J. Chu cho biết: “70.000 năm trước, người hiện đại Homo sapiens từ châu Phi theo ven biển Nam Á tới Việt Nam. 50.000 năm trước người từ Việt Nam lan tỏa ra các đảo Đông Nam Á, Ấn Độ rồi 40.000 năm trước chiếm lĩnh Hoa lục. 30.000 năm trước vượt eo Beringa sang châu Mỹ…” Nhận thấy đây là khám phá quan trọng không chỉ dẫn tới viết lại lịch sử phương Đông mà còn làm thay đổi thân phận dân tộc Việt, chúng tôi bắt đầu việc tìm nguồn gốc người Việt qua di truyền học. Tiếp đó chúng tôi nhận được tài liệu của Spencer Wells: The human journey- a genetic odyssey (Cuộc du hành của loài người-một odysi gen). Tài liệu này khẳng định: 60.000 năm trước, người hiện đại rời châu Phi theo ven biển Nam Á tới Đông Nam Á. Nhưng đợt di cư thứ hai diễn ra 45.000 năm cách nay theo con đường từ châu Phi vào Trung Đông sang Trung Á rồi tỏa ra toàn thế giới mới là quan trọng nhất vì cho ra đại đa số nhân loại ngoài châu Phi.Hai tài liệu trái ngược nhau khiến chúng tôi phân vân như đứng giữa ngã ba đường. Nhưng rồi do tra tìm được tài liệu di cốt 68.000 năm trước của người Mongoloid tại Lưu Giang (Trung Quốc) và Australoid tại Hồ Mungo châu Úc, chúng tôi thấy tài liệu của S. Wells không đáng tin nên bỏ qua. Rất mừng là sau đó, chúng tôi truy cập được tài liệu của Stephen Oppenheimer: Out of Eden- Peopling in the World. Đây là tài liệu rất giá trị vì lần đầu tiên chỉ rõ: con người rời châu Phi 85.000 năm trước cùng thời gian cụ thể trên hành trình về phương Đông. S. Oppenheimer củng cố lòng tin cho chúng tôi tiếp tục công việc.
Lúc này, một câu hỏi nảy sinh: người từ châu Phi tới Việt Nam là ai? Chỉ khi biết được “đầu vào”mới có thể biết ở “đầu ra” khỏi Việt Nam là ai để theo dõi bước chân của họ trên con đường thiên lý. Các công bố di truyền không đề cập vấn đề này. Chúng tôi đi tìm trong khảo cổ và cổ nhân chủng học. Rất may, trong cuốn Nhân chủng học Đông Nam Á [1] ghi rõ: “Thời đồ đá trên đất Việt Nam có hai đại chủng Australoid và Mongoloid. Họ hòa huyết với nhau rồi con cháu họ hòa huyết tiếp, cho ra bốn chủng người Việt cổ là Indonesian, Melanesian, Vedoid và Negritoid, cùng thuộc nhóm loại hình Australoid. Nhưng sang thời kim khí, người Mongoloid phương Nam xuất hiện và trở thành chủ thể. Người Australoid dần biến khỏi đất này không hiểu do di cư hay đồng hóa” (trang 26). Những dòng chữ chắt ra từ khảo sát 70 sọ cổ Việt Nam trước hết đã cho thấy, người tiền sử tới Việt Nam 70.000 năm trước là hai đại chủng Australoid và Mongoloid, trong đó số lượng áp đảo thuộc về người Australoid. Tài liệu trên cũng cho thấy, trong bốn chủng người được sinh ra trên đất Việt Nam, người Indonesian (sau này được gọi là Lạc Việt), tuy thuộc loại hình Australoid nhưng có tỷ lệ gen Mongoloid cao nhất đồng thời có số lượng lớn nhất. Đứng sau là người Melanesian. Từ tài liệu trên ta cũng biết, suốt trong thời đồ đá, tại Việt Nam cũng như Đông Nam Á không có người Mongoloid. Một câu hỏi phải trả lời: Người Mongoloid từ đâu để xuất hiện vào thời kim khí? Cho rằng người Mongoloid chỉ có thể sống ở phương Bắc nên chúng tôi tìm trên đất Trung Quốc. Khảo cổ học phát hiện di cốt sớm nhất của người Mongoloid phương Nam tại di chỉ Ngưỡng Thiều trung du Hoàng Hà 7.000 năm trước. Từ đây, chúng tôi suy đoán rằng, tại Nam Hoàng Hà, người Lạc Việt (chủng Indonesian) gặp gỡ hòa huyết với người Mông Cổ phương Bắc (North Mongoloid) sinh ra chủng người Việt mới Mongoloid phương Nam. Do trong bộ gen người Lạc Việt Indonesian có tỷ lệ máu Mongoloid cao nhất nên khi được thêm gen Mongoloid thì như giọt nước tràn ly, dân cư Lạc Việt sẽ chuyển nhanh sang Mongoloid phương Nam. Khoảng 7000 năm trước, người Mongoloid phương Nam đã là chủ thể của lưu vực Hoàng Hà.
Một vấn đề khác cần bàn: người Mongoloid phương Nam di cư về Việt Nam như thế nào? Chúng tôi cho rằng, suốt trong quá trình dài, dòng di cư là từ Nam lên Bắc. Nhưng có lẽ, từ năm 2698 TCN, khi người Mông Cổ đánh vào Trác Lộc chiếm Nam Hoàng Hà, lập nhà nước Hoàng Đế, người Việt buộc phải di cư về Nam. Đây là cuộc di cư dài và liên tục: người Việt Mongoloid phương Nam từ lưu vực Hoàng Hà lan tỏa xuống Việt Nam và Đông Nam Á, đem nguồn gen Mongoloid chuyển hóa dân cư Đông Nam Á từ Australoid sang Monogloid phương Nam. Tại di chỉ Mán Bạc tỉnh Ninh Bình 2000 năm trước tìm thấy nghĩa trang với 30 thi hài người Australoid và Mongoloid được chôn chung, các nhà nhân học cho rằng, từ thời điểm này, quá trình mongoloid hóa dân cư Đông Nam Á hoàn tất. Toàn bộ dân cư Đông Nam Á  mang mã di truyền Mongoloid phương Nam. Điều này cũng giải đáp câu hỏi mà sách Nhân chủng học Đông Nam Á đặt ra: “Người Australoid dần biến khỏi đất này không hiểu do di cư hay đồng hóa?” Rõ ràng, đây là sự tiếp xúc, chuyển hóa di truyền lâu dài mà không phải sự xâm chiếm lãnh thổ, thay thế dân cư!
Như vậy, trong quá trình lịch sử, người Việt được hình thành theo hai giai đoạn: 40.000 năm trước người Lạc Việt mã di truyền Australoid từ Việt Nam đi lên khai phá Hoa lục. Giai đoạn sau, từ 2600 năm TCN, người Lạc Việt mã di truyền Mongoloid phương Nam từ lưu vực Hoàng Hà trở về, mang nguồn gen Mongoloid chuyển hóa dân cư Việt Nam và Đông Nam Á sang mã di truyền Mongoloid phương Nam. Từ 2000 năm TCN, trên đất Việt Nam, sinh sống chủng tộc (race) duy nhất Mongoloid phương Nam (Nam Á). Do việc di cư và chuyển hóa di truyền như vậy, người Việt Nam luôn giữ được độ đa dạng sinh học cao nhất trong dân cư châu Á.
Về sự hình thành người Kinh: Chúng tôi cho rằng, khoảng 500-300 năm TCN, do nước biển rút, đồng bằng sông Hồng xuất hiện, người Việt từ Bắc Đông Dương và Nam Trung Quốc kéo về khai thác đất mới. Do cùng chủng tộc và văn hóa nên không xảy ra mâu thuẫn lớn. Trong dòng người trở về, có người Tày-Thái, người Hakka, người Hán… do sống lâu năm ở Trung Nguyên, nên có tiếng nói đơn âm, hữu thanh. Tiếng nói này chuyển thành tiếng nói của cộng đồng dân cư đồng bằng, góp phần tạo nên sắc tộc mới, gọi là người Kinh. Do lịch sử hình thành như vậy, nên dân cư Việt Nam thuộc chủng tộc duy nhất (a race) Người Việt với 54 sắc tộc (Ethnic groups) trong đó sắc tộc Kinh là đa số.
2.       So sánh với Dự án 1000 bộ gen Việt
Trước tiên chúng tôi thấy rằng, ngay từ đầu, khi đi tìm nguồn gốc người Việt, các tác giả của Dự án 1000 bộ gen Việt Nam đã sai về phương pháp luận. Di truyền học đem lại nhiều điều kỳ diệu cho nhân học thế kỷ XXI. Nhưng một Dự án khảo sát bộ gen như thế này chỉ có giá trị như một bức ảnh chụp lại hiện trạng bộ gen của người Việt Nam hôm nay mà không đủ cơ sở xác định nguồn gốc người Việt Nam. Khác các dân tộc khác, Việt Nam là nơi đầu tiên con người đặt chân tới tại đất liền châu Á. Sau 30.000 năm chung sống ở đây, người Việt đi lên Hoa lục. 7000 năm trước, nhận thêm nguồn gen, chuyển hóa thành Mongoloid phương Nam rồi trở về lại Việt Nam, làm mới lại giống nòi… Do vậy, bộ gen của người Việt Nam hiện nay đồng thời có đa dạng sinh học cao lại cũng có sự hòa trộn cao nên cực kỳ phức tạp, giống như một mê cung mà những người với công lực bình thường không thể thoát ra. Muốn tìm được chính xác nguồn gốc người Việt, cần một Dự án khác, tốn rất nhiều tiền bạc và công sức. Đó là từ kết quả của Dự án này, phân chia ra một số dòng người Việt rồi từ đó truy tìm ngược trở lại nguồn gốc của mỗi dòng, ít nhất tới 5000 năm trước! Nhưng đó lại là chuyện của tiền bạc!
Tuy nhiên, không chỉ có một con đường đến La Mã. Những gì di truyền học chưa làm được, có thể dựa vào khảo cổ và cổ nhân chủng học. Chúng tôi từng tâm đắc với câu nói của Jared Diamond: “Giờ không còn là lúc chơi với những khúc xương và những hòn đá nữa. Những gì thuộc về con người mà chưa được di truyền học kiểm định thì chưa đáng tin cậy.” Câu nó đó chỉ đúng một nửa. Chính là dựa vào những khúc xương và những hòn đá mà chúng tôi đã vượt qua sai lầm của Spencer Wells để khẳng định con đường phương Nam, từ đó tìm ra nguồn gốc và quá trình hình thành dân tộc Việt Nam một cách chính xác.
   IV KẾT LUẬN
Sau 15 năm “tìm cội nguồn qua di truyền học,” chúng tôi thấy chuyện đáng buồn: chưa có khảo sát nào chuyên về gen người Việt! Nay có được Dự án 1000 bộ gen Việt Nam là điều đáng mừng. Chân thành cảm ơn các tác giả và Quỹ tài trợ cho nghiên cứu này. Kết quả Dự án trở thành tài sản quốc gia để bắt đầu vẽ bản đồ gen người Việt đồng thời giúp cho việc chẩn trị những bệnh về di truyền, là điều vui mừng của người dân Việt Nam. Có nhiều điều cần bàn thêm nhưng bài đã quá dài, xin để dịp khác.
Tuy nhiên, Xin lưu ý các nhà nghiên cứu cũng như làm chính sách hãy thận trọng trước kết luận: Kịch bản tổng thể là người Việt Nam ngày nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc, chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia.
Phải chăng đó là sự xác nhận bằng máu huyết rằng người Việt bị người Hán đồng hóa?! Riêng chúng tôi hoàn toàn không tin như vậy!
Tài liệu tham khảo:
1.       Nguyễn Đình Khoa. Nhân chủng học Đông Nam Á. NXB DH&THCN. H, 1983
                                                                                             Sài Gòn, 5.8.2018

CÁC CUỘC ĐIỀU TRA ĐỊA LÝ VÀ BỘ GEN CỦA NGƯỜI VIỆT NAM CHO THẤY SỰ BIẾN ĐỘNG NHÂN KHẨU HỌC LỊCH SỬ PHỨC TẠP



                                                       SCIENTIFIC REPORT

Scientific Reports volume 7, Article number: 12630(2017)
Published online 03 October 2017

I.TÓM LƯỢC
Lãnh thổ của Việt Nam ngày nay là cái nôi của một trong những nền văn minh đầu tiên trên thế giới, và là một trong những vùng đầu tiên trên thế giới phát triển nông nghiệp. Chúng tôi đã phân tích khu vực kiểm soát hoàn toàn DNA (mtDNA) của ty thể sáu nhóm dân tộc thiểu số và các mitogenome từ Việt Nam trong Dự án 1000 Genomes (1000G). Dữ liệu toàn bộ hệ gen từ 1000G (~ 55k SNPs) cũng đã được nghiên cứu để khám phá các kịch bản nhân khẩu học khác nhau. Tất cả người Việt Nam mang theo haplotypes ( một nhóm cụ thể của gen mà con cháu thừa hưởng từ cha mẹ) Đông Nam Á (SEA), cho thấy sự phân tầng địa lý và dân tộc vừa phải, với người Mông cấu thành nên nhóm đặc biệt nhất. Hai dòng mtDNA mới (M7b1a1f1 và F1f1) chỉ ra dòng gen lịch sử giữa Việt Nam và các nước láng giềng khác.
Các suy luận dựa trên Bayes (các phương pháp phân tích thống kê) cho thấy sự tăng trưởng dân số của người Việt Nam trong thời gian dài và liên tục, mặc dù có một số ngoại lệ. Sự suy giảm dân số đáng kinh ngạc của người Chăm cách đây 700 năm (ya) phù hợp quá trình Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng. Các SNP (đa hình đơn nucleotide) tự động liên tục trỏ đến dòng gen lịch sử quan trọng trong lục địa SEA, và thêm hỗ trợ cho một sự kiện hỗn hợp chính xảy ra giữa Trung Quốc và một tổ hợp tổ tiên miền Nam châu Á (chủ yếu là người Malay). Sự kiện hỗn hợp này xảy ra ~ 800 ya, một lần nữa trùng với tiến trình Nam tiến.
II. GIỚI THIỆU
Cộng hòa Việt Nam, nằm ở cực đông của bán đảo Đông Dương (Đông Nam Á, SEA), là một quốc gia phù hợp với một dải đất gồ ghề và miền núi với nhiều đồng bằng ven biển và đồng bằng châu thổ. Nó giáp với Trung Quốc và vịnh Bắc Bộ ở phía Bắc, Lào và Campuchia ở phía Tây, và vịnh Thái Lan ở Nam1. Đây là một trong những quốc gia đông dân nhất trên thế giới. Theo ước tính của Tổng cục Thống kê Việt Nam, năm 2016 có hơn 94 triệu người sống trong nước (Tổng cục Thống kê Việt Nam [VGSO]: www.gso.gov.vn; truy cập tháng 3 năm 2017). Hà Nội, thủ đô của đất nước, nằm ở phía bắc và có khoảng 7 triệu dân; là thành phố đông dân thứ hai ở Việt Nam sau Hồ Chí Minh (Sài Gòn cũ), nằm ở phía đông nam đất nước (> 8,4 triệu dân)
Các nhóm dân cư và sắc tộc khác nhau đã ảnh hưởng đến cộng đồng người Việt ngày nay. Như vậy, Việt Nam ngày nay là một quốc gia đa sắc tộc; Chính phủ công nhận 54 dân tộc, trong đó người Kinh chiếm đa số đất nước (87%; ~ 77 triệu người) và đang lan rộng trên toàn lãnh thổ. 13% còn lại được chia thành 53 nhóm khác, được chính thức công nhận là dân tộc thiểu số, được phân tán trên các khu vực đồi núi (cao nguyên chiếm ba phần tư lãnh thổ Việt Nam) trải rộng từ Bắc vào Nam. Trong số các dân tộc thiểu số, nhóm lớn nhất là nhóm người Tày, phù hợp với 1,7 triệu người, tiếp theo là các dân tộc Khmer Thái, Hoa, Mông, và Nùng với dân số khoảng một triệu người; ít đông dân nhất là Brau, Roman và Odu, chỉ có vài trăm người,
Nam Á (SA) là một trong những vùng đầu tiên được người hiện đại chiếm lĩnh; Khu vực này đã phục vụ như là một tuyến đường chính để phân tán đến các khu vực địa lý khác, bao gồm cả Đông Á2. Theo Atkinson và cộng sự, khoảng 60% dân số toàn cầu sống ở Đông Á khoảng 38.000 năm trước; và Việt Nam là một trong những khu vực đầu tiên trông lúa của thế giới4. Hai giả thuyết chính đã được đề xuất để giải thích các nguồn địa lý / dân số ban đầu đóng góp cho quần thể SEA ngày nay. Người đầu tiên đề xuất rằng các quần thể ở Nam Đông Á (EA) có thể xuất phát từ các quần thể ở Đông Nam Á di cư từ châu Phi, có thể thông qua châu Á sau một tuyến đường ven biển5.
Giả thuyết khác đề xuất ít nhất hai cuộc di cư độc lập: cùng một phong trào ban đầu đến từ châu Phi sau một tuyến đường ven biển phía nam đầu tiên, tiếp theo là một loạt các di cư dọc theo một tuyến đường phía bắc phục vụ để nối các quần thể châu Âu và EA6. Theo giả thuyết sau, hầu hết các dân tộc Việt Nam ngày nay sẽ là hậu duệ của các quần thể cổ đại trải dài từ phía Nam sông Dương Tử về phía Biển Đông và các đảo SEA1. Tuy nhiên, rất nhiều di cư và các quá trình hội nhập liên tiếp có thể xảy ra theo thời gian, mô hình hóa thành phần di truyền của SEA5. Ví dụ, Việt Nam cũng đã tham gia vào các tuyến lịch sử thương mại quan trọng, chẳng hạn như Con đường Tơ lụa, và từ hơn 2.000 năm trước, bờ biển Việt Nam đã thu hút các thương gia đến từ Trung Đông và Nhật Bản. Các sàn giao dịch thương mại này đã đóng góp nhiều cho sự trao đổi văn hóa và di truyền giữa các quần thể Á-Âu.
Trong những năm gần đây, SEA đã được khám phá rộng rãi trong các nghiên cứu di truyền. Một số nghiên cứu DNA ty thể (mtDNA) đã gợi ý rằng khu vực này tạo thành điểm khởi đầu của sự mở rộng của con người hiện đại từ châu Phi sang Trung Quốc, EA và Oceania8,9. Sự tăng trưởng dân số đáng kể thời tiền sử của khu vực này đã mở đường cho việc ấp ủ đa dạng di truyền cao trong khu vực. Do đó, các nhóm haploga chủ yếu của SEA (M, B, R và F) đã xuất hiện hơn 50.000 năm trước10, và chúng cho thấy sự biến đổi di truyền đáng kể từ một tổ tiên chung. (a remarkable genetic variability within clades) Soares và cộng sự 11 đã gợi ý rằng sự nóng lên toàn cầu và mực nước biển dâng lên vào cuối kỷ Băng hà, là những lực lượng chính thúc đẩy sự đa dạng của con người ở SEA.
Mặc dù có rất nhiều nghiên cứu được thực hiện cho đến nay, kiến ​​thức về sự biến đổi mtDNA của nhiều quốc gia SEA như Việt Nam, Miến Điện, hoặc Campuchia vẫn còn rất hạn chế9,12. Một trong những nghiên cứu đầu tiên nhằm làm sáng tỏ thành phần mtDNA của các nước SEA đã được thực hiện bởi Oota và các đồng nghiệp13. Họ đã phân tích một bộ mẫu Việt Nam thu thập từ những người nhập cư Nam Việt Nam thế hệ đầu tiên từ California và so sánh nó với các bộ sưu tập mẫu được lấy từ người Hán và người Nhật. Kết quả nghiên cứu cho thấy mẫu Việt Nam có mức biến đổi mtDNA cao nhất trong dân số. Li và các đồng nghiệp8 đã phân tích một bộ mẫu người Việt và người Trung, và báo cáo tần số cao của các nhóm B, M7, F và R, phổ biến ở SEA và là chìa khóa để hiểu lịch sử của các quần thể SEA. Irwin và các cộng tác viên đã đưa ra một loạt mẫu lớn các trình tự kiểm soát mtDNA của Việt Nam (CR) với một tập trung chủ yếu là di truyền pháp y. Dữ liệu của họ cho thấy dân số miền Bắc Việt Nam có tính đa dạng di truyền cao. Zimmerman et al.15 mô tả sự đa dạng haplotype cao ở miền bắc Thái Lan và báo cáo rằng 14% haplotype của Thái Lan được chia sẻ với các quần thể SEA khác. Bodner và cộng sự đã phân tích thành phần mtDNA của Lào, chỉ ra rằng dân số này cho thấy đặc tính mẫu đa dạng mtDNA của SEA, trong đó B4a, B5a, M7b1, F1a và R9 (sau này được gọi là R9'F) là haplogroups thường xuyên nhất.
Họ cũng báo cáo rằng nhiều haplotypes tìm thấy trong mẫu được chia sẻ với các quần thể xung quanh, chủ yếu là Thái Lan và Việt Nam12. Zhang và các đồng nghiệp16 đã phân tích một mẫu mtDNA rộng lớn của người thổ dân gốc Campuchia và đã giải trình tự 98 tác nhân gây bệnh; các tác giả này cho rằng thổ dân Campuchia là hậu duệ của các quần thể cổ đại, và kết quả của họ thêm hỗ trợ cho lý thuyết rằng con người hiện đại đã định cư ở SEA và sau đó phân tán sang Trung Quốc và các đảo SEA. Theo các tác giả này, Campuchia có thể là trung tâm phân bố các nhóm haplog B5a, F1a, M12b và B4c2 cho các vùng phía Bắc và đại lục EA16. Gần đây hơn, Summerer và cộng tác viên đã điều tra một bộ mẫu dân số Myanmar và giải trình tự 44 giải thể sinh học. Họ kết luận rằng Myanmar trưng bày một thành phần haplogroup SEA đặc biệt, nhưng với ảnh hưởng của Đông Bắc Á và Ấn Độ. Phân tích của họ cho thấy tỷ lệ di cư giữa Myanmar và Việt Nam xấp xỉ bằng nhau9.
Một số lượng lớn các nghiên cứu đã chỉ ra SEA là cái nôi của dân số châu Á ngày nay3. Một nỗ lực quan trọng trong việc mô tả khu vực SEA về biến đổi mtDNA đã được thực hiện trong các thập kỷ qua9,12,15,16. Dự án hiện tại nhằm góp phần nâng cao kiến thức của chúng ta về biến thể di truyền của khu vực này, vì tầm quan trọng của khu vực này đối với sự phân tán của con người hiện đại ở châu Á. Mặc dù một vài nghiên cứu mtDNA đã được tiến hành cho đến nay, dữ liệu mtDNA có sẵn từ Việt Nam vẫn còn khan hiếm. Theo hiểu biết tốt nhất của chúng tôi, nghiên cứu hiện tại là nỗ lực lấy mẫu lớn nhất tại Việt Nam cho đến nay. Một phân tích toàn bộ bộ gen của một mẫu Việt Nam cũng được thực hiện để kiểm tra thêm các giả thuyết được đề xuất bởi dữ liệu mtDNA.
III. KẾT QUẢ
Đa dạng phân tử
Nghiên cứu này bao gồm 622 mẫu DNA được giải trình tự cho CR, từ sáu địa điểm khác nhau của Việt Nam đại diện cho bảy nhóm sắc tộc. Có 476 loại haplotypes khác nhau trong số mtDNA của Việt Nam, đó là minh chứng cho sự đa dạng mtDNA lớn. Đối với bảy nhóm dân tộc được trình bày trong dữ liệu của chúng tôi, chỉ có năm người trong số họ có kích thước mẫu cho phép ước tính giá trị đa dạng (Kho Me và Thái được loại trừ khỏi những tính toán này). Các chỉ số đa dạng phân tử ở tất cả các vị trí và các mẫu dân số được phân tích đều cao đối với cả haplotype (H) và đa dạng nucleotide (π) (Bảng 1). Các giá trị thấp nhất của đa dạng haplotype (H = 0,980) và đa dạng nucleotide (π = 0,8989) được tìm thấy trong dân số Mông. Mẫu Mông của chúng tôi sống ở tỉnh Lào Cai (Bảng 1; Hình 1B), và chúng đại diện cho dân tộc thứ hai thường xuyên nhất ở tỉnh này 47. Ở phía đối diện phổ là Hoa, cho thấy giá trị đa dạng cao nhất (H = 1.000; π = 0,0107). Mặc dù mẫu Hà Nội nhỏ (n = 38), nhưng đáng chú ý là các giá trị đa dạng cao được quan sát (H = 1.000; π = 0,01210) (Bảng 1).
Không có sự tương quan rõ ràng giữa các vị trí lấy mẫu và sự đa dạng phân tử được đo bằng các chỉ số tóm tắt thống kê. Tuy nhiên, khi các mẫu được phân tích đến các vùng địa lý chính (Bắc, Trung và Nam), một mô hình phân tử đa dạng rõ ràng hơn cho thấy sự đa dạng tăng từ Bắc vào Nam của đất nước (Bảng 1; Hình 2A). [However, when the samples were analyzed attending to main geographic regions (North, Center and South), a clearer pattern of molecular diversity is revealed, suggesting that the diversity increases from North to South of the country (Table 1; Fig. 2A)].
Các mẫu Haplogroup và các đặc điểm địa lý của haplotype
Các haplotypes điển hình của SEA chiếm ưu thế trong tiếng Việt, chủ yếu được đại diện bởi haplogroups M (39%; với sub-haplogroup M7 [20%] là tiểu nhóm thường xuyên nhất), và haplogroup N (61%; với haplogroup R9'F [27% ] và haplogroup B [25%] dưới dạng các tần số phụ bậc nhất trong N) (Bảng 2, Hình 1).
Tuy nhiên, sự khác biệt về mặt địa lý đáng kể trong các tần số haplogroup có thể được quan sát (Hình 1 B). Ví dụ, thành phần haplogroup ở các địa điểm phía bắc của Cao Bằng, Hà Nội và Hải Phòng khá giống nhau, với haplogroup M là thường xuyên nhất (≥42% ở tất cả các địa điểm này) và M7 nhóm phụ chính của nó (≥20% ), tiếp theo là haplogroup R9'F với tần suất từ 28-36% (Bảng 2). Ngoại lệ đối với mô hình này ở miền Bắc là Lào Cai, nơi có tần suất haplogroup N cao (71%), với haplogroup B (41%) là tiểu nhóm chính của nó, theo sau là R9FF (16%); hơn nữa, tần số của haplogroup C là cao nhất trong toàn bộ tập dữ liệu (13%). Như đã đề cập ở trên, đặc điểm riêng biệt của Lào Cai xuất phát từ thực tế rằng mẫu của chúng tôi từ khu vực này chủ yếu là do dân tộc Mông, cho thấy một mô hình biến thể mtDNA không thể được coi là đại diện đầy đủ của toàn bộ dân số này khu vực. Cũng như với người Mông, các mtDNA của Hoa cũng có một số đặc thù đối với các nhóm dân tộc còn lại được nghiên cứu. Ví dụ, tần suất R9FF (39%) cao hơn đáng kể so với mức trung bình của phần còn lại của mẫu (trung bình 27% cho toàn bộ Việt Nam).
Để tạo điều kiện giải thích tần số haplogroup giữa các vị trí khác nhau, haplogroups được thu gọn thành các danh mục đại diện cho các nhánh phát sinh SEA chính (cụ thể là A, B, C, D, R9'F, M, M7 và N) và các tần số này được nội suy vào bản đồ địa lý (Hình 2B và C). Các bản đồ cho thấy M và M7 có tần suất cao nhất ở vùng Đông Bắc của đất nước theo bờ biển dọc Vịnh Bắc Bộ và tần số thấp nhất ở Tây Bắc và cực nam của Việt Nam (đồng bằng sông Cửu Long), nơi haplogroup N phổ biến hơn . Haplogroups A và C thường xuyên hơn ở miền Tây Bắc Việt Nam (Lào Cai), với các giá trị thấp nhất ở miền Nam. Haplogroups B đạt tần suất cao nhất ở Tây Bắc, và các giá trị thấp nhất cũng được tìm thấy ở vùng Đông Bắc (Đồng bằng sông Hồng). Ở miền Nam, tại Hồ Chí Minh, haplogroup D đạt tần suất cao nhất (9%). Cuối cùng, bản đồ interpolated của haplogroup R9'F cũng cho thấy một phân bố tần số phân tán: nó đạt đến tần số cao nhất ở đồng bằng sông Hồng (32-36%), tần số giảm về phía Tây Bắc (16% ở khu vực lân cận Lào) Cai) và ở trung tâm của đất nước (21% ở Đà Nẵng), nhưng lại tăng ở đồng bằng sông Cửu Long (29% ở thành phố Hồ Chí Minh).
Mạng lưới các chuỗi CR được xây dựng (Hình S1) để điều tra các nhóm haplotypes có thể được quy cho các nhóm dân tộc cụ thể. Cây cho thấy một số haplotypes được chia sẻ giữa các dân tộc dọc theo các nhánh khác nhau của phylogeny, tương thích với luồng gen lịch sử giữa chúng.
Một tính năng haplotype thú vị xứng đáng được đề cập cụ thể. Wen và cộng tác viên48 tìm thấy trong các mẫu của Trung Quốc mẫu CR CRT T16189C-T16217C – C16261T-T16357C, được tuyên bố là độc quyền của những người nói tiếng Hmong-Mien sống ở miền Nam Trung Quốc. Kết quả của chúng tôi ủng hộ giả thuyết này, vì chúng tôi cũng đã tìm thấy mô hình này trong sáu mẫu của người Mông Việt Nam, được gọi là Hmong / Miao ở Trung Quốc.
Phân tích các mitogenomes và xác định dòng dõi phát sinh loài mới
Trong số các trình tự CR Việt Nam được phân tích trong nghiên cứu này, chúng tôi đã xác định được hai họa tiết đặc biệt cho đến nay vẫn chưa được phân loại. Phiên bản hiện tại của tài liệu tham khảo haplogroup mtDNA (PhyloTree Build 17) không chứa các nhánh phát sinh loài này, và do đó tên mới được trao cho chúng. Thông tin xác nhận của các họa tiết trình tự này có thể thu được từ việc phân tích các mitogenome thu được từ 1000G và tài liệu, đặc biệt là từ 49. Mitogenomes thêm hỗ trợ phát sinh loài và độ phân giải cho các nhánh mới này.
Đầu tiên chúng tôi tập trung chú ý vào mô hình CR được quan sát thấy trong một số haplotypes đặc trưng bởi sự chuyển tiếp C332T (1,7% của haplotypes trong dân tộc chính, người Kinh). Chuyển đổi C332T rất hiếm, ví dụ: nó không xuất hiện trong phylogeny từ Phylotree (xem Weissensteiner et al.24) và nó không có các bộc lộ đột biến trong Soares et al.29. Tổng cộng có 5 vi sinh vật mang C332T được tìm thấy trong các mẫu dự án 1000G Việt Nam (# HG02031, # HG02121, # HG02079, # HG01840 và # KU131379) (Hình 3A). Năm loại mitogenome cũng có đột biến T8110C cộng với tất cả các đột biến dẫn từ rCRS đến haplogroup M7b1a1 + (16192) theo Phylotree Build 17. Một mitogenome bổ sung từ Việt Nam (# HG02141) mang tất cả các đột biến đặc trưng của M7b1a1 + (16192) ngoại lệ của biến thể C332T (Hình 3A). Các mitogenomes chia sẻ C332T chia sẻ cũng biến thể T16189C. Có tính đến thông tin có sẵn từ bộ gen hoàn chỉnh, chúng tôi đã thêm một nhánh mới vào phylogeny được định nghĩa bởi motif C332T– (T16189C) và đặt tên là M7b1a1f4. Dấu ngoặc đơn chỉ ra rằng biến thể T16189C không phải lúc nào cũng có mặt trong các thành viên của nhánh này, như được chứng thực từ dữ liệu CR mang C332T (trang này có tỷ lệ đột biến cao24,29).
Bằng cách kiểm tra các mitogenome khác từ hồ sơ, chúng tôi đã phát hiện 14 mẫu haplotypes M7b1a1f4 bổ sung ở bán đảo Đông Dương, bao gồm Campuchia, Malaysia và Indonesia. Ngoài ra, có 13 loại mitogenome khác thuộc M7b1a1f không mang C332T nhưng các họa tiết phụ khác, do đó cấu thành các nhánh phụ nhỏ khác. Một lần nữa, các bộ gen khác được lấy mẫu ở các địa điểm khác nhau của bán đảo Đông Dương. Phân tích các dãy vùng kiểm soát thuộc nhóm haplogroup M7b1a1f cho thấy cùng một mô hình quan sát đối với các mitogenome, mặc dù cho thấy tỷ lệ cao hơn của các trình tự Việt Nam trong tiểu nhóm M7b1a1f4. Bằng cách sửa đổi các tài liệu về trình tự CR, chúng ta chỉ có thể phát hiện một vài thành viên M7b1a1f4 trong các quần thể từ tổ tiên SEA và luôn ở tần số rất thấp, hầu hết trong số đó là Malay50,51. Bằng cách kiểm tra chuỗi vùng kiểm soát thuộc M7b1a1f, chúng tôi quan sát thấy biến thể T16189C không phải lúc nào cũng có mặt trong các kiểu haplotype M7b1a1f4 mang C332T. Hơn nữa, một số haplotypes M7b1a1f4, chỉ có mặt ở Việt Nam, mang theo T16324C (Hình 3A). Từ một cơ sở dữ liệu lớn trên toàn thế giới về các dãy vùng kiểm soát, có thể chứng thực rằng M7b1a1f và các nhánh phụ của nó gần như bị giới hạn ở bán đảo Đông Dương (Hình S2A). Ở Việt Nam, những haplotypes này được phát hiện hầu như chỉ thấy ở những người thuộc nhóm dân tộc chính (Kinh). M7b1a1f là một nhánh cũ (TMRCA: 14.7 kya [9.9–19.7]), cũng như nhánh phụ M7b1a1f4 (TMRCA: 10.8 kya [7.6–14.1]).
Một motif trình tự khác được quan sát thấy trong các mẫu của chúng tôi từ Việt Nam nằm trong haplogroup F1f (Hình 3 B). Như vậy, đột biến kép T16172C – C16295T cộng với tất cả các đột biến đặc trưng dẫn đến F1f được chia sẻ bởi khoảng 3% số haplotypes trong Kinh. Việc tìm kiếm các cá nhân thuộc F1f cho thấy một phát sinh loài phức tạp hơn dự kiến. Có 97 bộ gen hoàn chỉnh được thu thập từ các tài liệu và cơ sở dữ liệu; hầu hết trong số họ mang biến thể T16172C, sau đó tạo thành một sub-clade có tên ở đây là F1f1. Trong F1f1 có sáu nhánh phụ khác nhau, tất cả chúng đều được đặc trưng bởi một hoặc hai chuyển tiếp khá ổn định. Một trong những nhánh này được xác định bởi C16295T, được đặt tên là F1f1b, và bốn trong số bảy mitogenomes được lấy mẫu ở Việt Nam, với ba ở các nước láng giềng khác. Tiểu nhóm này, trên thực tế, chỉ có một trong F1f được đại diện bởi các mẫu từ Việt Nam. Dữ liệu CR có sẵn từ Việt Nam rơi hoàn toàn trong F1fb, tiết lộ rằng nhánh này có rất ít biến thể (Hình S2B). Phần còn lại của dữ liệu thuộc về F1f được đại diện tốt ở Thái Lan và Lào. TMRCA cho F1f chỉ 6,2 kya (4,8-7,7); trong khi F1f1b là 5.1 kya (3.0–7.2).
Phân tích AMOVA về cấu hình mtDNA
AMOVA được tiến hành bằng cách phân loại mẫu lấy từ các địa điểm, các nhóm dân tộc và các khu vực địa lý rộng lớn. Theo dự kiến, trong biến thể di truyền chiếm hầu hết các biến thể, dao động từ 98,08 - 99,69% (Bảng 3), độc lập với phân chia được xem xét. Trong biến thể dân số cao hơn khi xem xét vị trí mẫu (98,08%), và mẫu này đã được xác nhận khi dữ liệu được tạo ra trong nghiên cứu này được phân tích meta (phía sau) với dữ liệu được biên soạn từ tài liệu (98,37%).
Phân tích thành phần chính
PCA dựa trên tần số haplogroup cho phép hình dung các dạng biến đổi toàn cầu giữa các quần thể. Chúng tôi tiến hành một PCA dựa trên tần số haplogroup mtDNA của 180 quần thể châu Á (Hình 4 A).
PCA hiển thị một nhóm các mẫu dân số xuất sắc theo các khu vực địa lý chính. Thành phần đầu tiên (PC1), giải thích ~ 24% phương sai di truyền, phân tách tất cả các mẫu dân số trong ba khu vực chính của lô, với các mẫu dân số Bắc Trung Quốc ở một cực, và cực đối lập được tạo thành bởi các mẫu dân số từ Bán đảo Đông Dương (bao gồm tất cả các dân tộc từ Việt Nam, Lào, Thái Lan, vv) và Đông Á (bao gồm một số mẫu Trung Quốc cộng với Đài Loan). Một nhóm không đồng nhất về mặt địa lý của các quần thể khác nhau từ miền Bắc và Trung Á rơi vào giữa. Chuyển sang thành phần thứ hai (PC2), giải thích ~ 12% của phương sai, đặc điểm đáng chú ý nhất là nó chia tách các quần thể SEA khỏi những người ở Tây Á (Hình 4 A). Các mẫu được quan sát trong PCA này phù hợp với các kết quả trước đó (ví dụ: Tabbada et al.52).
Để tiếp tục nghiên cứu các mô hình biến đổi haplogroup trong quần thể người Việt Nam, chúng tôi đã thực hiện PCA thứ hai (Hình 4 B), lần này hạn chế phân tích đối với quần thể Nam Trung Quốc và Đông Nam Á. Các nhóm dân tộc Thái và Khơ Me được bỏ qua từ những phân tích này do cỡ mẫu nhỏ. Trong PC1, dân số Việt Nam xuất hiện rải rác cùng với các mẫu từ Nam Trung Quốc và Thái Lan. Thật kỳ lạ, cụm mẫu Campuchia nằm ở đầu đối diện của cốt truyện. Tuy nhiên, PC2 cho thấy sự gần gũi di truyền rõ rệt giữa các mẫu của Campuchia và các mẫu từ Việt Nam. Một vài quần thể từ Nam Trung Quốc xuất hiện như được phân biệt rõ ràng trong cốt truyện.
Mở rộng Bayesian Skyline Lô của haplogroups và dân số
F1f1 cho thấy sự tăng trưởng dân số bắt đầu từ ~ 8 kya, tiếp theo là giảm nhẹ bắt đầu từ ~ 2 kya nhưng giảm đáng kể từ ~ 1 kya trở đi. M7b1a1f tuy nhiên, xuất hiện ~ 14 kya và nó trải qua một sự tăng trưởng liên tục cho đến hiện tại. Thời gian kết hợp thu được bằng EBSP cho dòng dõi F1f1 và M7b1a1f trùng với TMRCA thu được bằng cách sử dụng ML (Hình 3C; Hình S3).
EBSP cũng được suy ra từ các nhóm dân tộc (Hình S4). Các tính năng nổi bật nhất là mô hình nhân khẩu học của người Chăm, mà là khá tương tự như của haplogroup F1f1. Người Tày và Kinh cho thấy một sự tăng trưởng lịch sử vừa phải cho đến ngày nay, trong khi các nhóm khác cho thấy một thời gian không đổi theo thời gian (mặc dù Hoa và Nùng với các khu vực có độ tin cậy lớn).
Dòng gen của người mẹ
Tỷ lệ di cư lần đầu tiên được phân tích bởi các họ ngôn ngữ. Mô hình di cư đầy đủ là có thể xảy ra nhiều nhất (Bảng 4); nó cho thấy các kích cỡ dân số rất khác nhau cũng như dòng gen bất đối xứng giữa các nhóm ngôn ngữ chính ở Việt Nam (Bảng S4). Số lượng người nhập cư trên mỗi thế hệ (Nm) được ước tính từ số liệu. Gia đình Tai-Kadai cho thấy tỷ lệ di cư cao nhất đối với gia đình người Austroasiatic (Nm = 214, chủ yếu được đại diện bởi nhóm dân tộc Kinh). Gia đình Hmong-Miao cho thấy mức độ di cư đáng kể đối với Tai-Kadai (Nm = 164). Cuối cùng, tỷ lệ lưu lượng gen thấp hơn thu được từ Austroasiatic và Tai-Kadai cho họ Chăm (Nm = 10 và Nm = 25, tương ứng). Không có dòng gen của người mẹ được phát hiện giữa các cặp ngôn ngữ khác được phân tích (Bảng S4).
Thứ hai, dòng gen được kiểm tra giữa người Việt Nam và các dân tộc lân cận ở Campuchia và Lào. Mô hình dòng chảy có khả năng xảy ra nhất đối với cặp Campuchia-Việt Nam là mô hình di cư một chiều từ Việt Nam sang Campuchia (Bảng 4; Bảng S4; N m = 22).
Tuy nhiên, đối với quần thể dân số Lào-Việt Nam, mô hình dòng gen biến thái là có thể xảy ra nhất (Bảng 4). Phát hiện này cho thấy rằng hai quần thể này đại diện cho một đơn vị dân số có hiệu quả, cả hai đều là một phần của cùng một đơn vị hỗn  giao và do đó chỉ ra mức độ lưu lượng gen cao giữa chúng.
Phân tích toàn bộ bộ gen của người Việt
Một phân tích MDS ban đầu được tính toán dựa trên các giá trị IBS cho thấy rằng tất cả các quần thể châu Á rơi vào cùng một cụm, tách biệt rõ ràng khỏi các cực châu Âu và châu Phi (Hình S5). Một phân tích MDS thứ hai được thực hiện chỉ sử dụng các quần thể từ SEA để thoát khỏi các cụm biến đổi di truyền trong khu vực này (Hình 5A). Mẫu 1 nêu bật những đặc điểm riêng biệt của Negrito từ Malaysia, mặc dù các quần thể khác từ cụm này rất gần với Việt Nam (KHV). Mẫu 2 tách Philippines khỏi nhóm Trung Quốc-Thái Lan-Malaysia (bao gồm Negrito). Người Mlabri từ Thái Lan xuất hiện cũng khác biệt với nhóm chính trong không gian này.
Phân tích hỗn hợp cho thấy, đối với giá trị xác thực chéo tốt nhất (K = 8), quần thể KHV có thành phần chính phổ biến nhất ở Trung Quốc và hai thành phần nhỏ tìm thấy tần số cao nhất trong Bidayuh từ Malaysia và Proto- Malay, gợi ý một sự gần gũi di truyền giữa người Trung Quốc và người Mã Lai (Hình 5 B).
Thống kê f3, được xây dựng như f3 (CHS, Y; KHV), chỉ ra rằng mẫu KHV có thể được giải thích bằng một hỗn hợp của Trung Quốc và các quần thể khác từ SEA, đặc biệt là người Tiền Malay và các dân số khác từ Malaysia (Bidayu, Malay, và Negrito) và / hoặc từ Thái Lan (H'tin và Mlabri) (Hình 5C). Thống kê D, được xây dựng như D (Y, KHV; CHS, OUTGROUP), chỉ ra rằng người Trung Quốc (đại diện bởi CHS) có đóng góp không thể nghi ngờ cho KHV và điều này có ý nghĩa thống kê sử dụng gần như tất cả các quần thể SEA như tham chiếu (Hình 5D) ). Tuy nhiên, D (Y, KHV; CHS, OUTGROUP) gợi ý rằng chỉ có một số ít người từ SEA dường như đóng góp thống kê vào KHV; một lần nữa người Mã Lai (đại diện bởi người Proto-Malay, Negrito, và Bidayut) cùng với người Thái (được đại diện bởi Mlabri và Hinin) là những mẫu có thể được kết hợp với Trung Quốc trong hồ gien Việt Nam. Thực tế là các giá trị âm cao hơn nhiều trong D (Y, KHV; CHS, OUTGROUP) so với D (Y, KHV; CHS, OUTGROUP) cho thấy thành phần Trung Quốc có sự hiện diện rõ ràng hơn trong KHV. Kết quả này phù hợp với ADMIXTURE.
IV. THẢO LUẬN
Nhìn chung, sự biến đổi di truyền quan sát thấy ở Việt Nam phù hợp với các mô hình mtDNA được quan sát ở SEA, được coi là vùng đa dạng và đa hình nhất của lục địa6. Theo dự kiến, sự đa dạng mtDNA rất cao trên lãnh thổ Việt Nam. Đa số người Việt Nam mang theo haplotypes mtDNA tập trung ở các nhánh M7 (20%) và R9'F (27%), hai dòng dõi chính của mẹ không chỉ thống trị Việt Nam mà SEA nói chung. Các nhóm haplog khác, như A, B, C và D được đại diện trong lãnh thổ Việt Nam nhưng với tần số thấp hơn, ngoại trừ haplogroup B ở Lào Cai, nơi nó đạt tới 41% tổng số. Haplogroup M phổ biến hơn ở miền Bắc và ở Trung tâm lãnh thổ hơn ở miền Nam. Tần suất cao của tiểu ngành M7 là thỏa thuận tốt với một nghiên cứu trước đó từ năm 2002, chỉ tìm thấy nhóm haplogroup này ở phần phía nam của Đông Á, ở các nước như Hàn Quốc hoặc Nhật Bản53. M7 rất hiếm ở Trung Á, và ước lượng thời gian kết hợp được quan sát bởi Kivisild et al.53, có thể phản ánh một quần thể tái sinh của khu vực phía Nam châu Á xảy ra sau tối đa băng hà cuối cùng. R9FF đạt tần suất cao trên toàn Việt Nam, với các giá trị thấp nhất được quan sát thấy ở Lào Cai (16%). Haplogroup tần số quan sát thấy trong các nghiên cứu trước đây phù hợp tốt với các giá trị quan sát được trong nghiên cứu này. Phân tích của Irwin và cộng sự ở thành phố Hà Nội cho thấy đại diện R9'F cao (> 27%) tiếp theo là B và M7 (20%) và tần suất thấp của nhóm haplogroups, N, A, C và D (< 5%).
Thực tế là có hơn 50 nhóm dân tộc được công nhận phân bố ở vùng cao nguyên cũng góp phần vào sự biến đổi di truyền cao được quan sát thấy. Các đặc điểm địa lý và văn hóa của Việt Nam cấu hình một kịch bản không ủng hộ sự pha trộn ngẫu nhiên giữa các nhóm dân tộc;
 hơn nữa, một số các nhóm này chia dân số của họ thành các cấp xã hội có thể hạn chế trao đổi di truyền (Đại sứ quán Anh tại Việt Nam http://www.vietnamembassy.org.uk/population.html; truy cập tháng 6 năm 2017). Dữ liệu của chúng tôi được lấy mẫu từ các nhóm dân tộc khác nhau, và do đó có thể đưa ra những suy luận về trao đổi di truyền giữa chúng và khám phá cấu trúc phụ dân số của đất nước. AMOVA (AMOVA được tiến hành bằng cách phân loại mẫu bằng cách lấy mẫu các địa điểm, các nhóm dân tộc và các khu vực địa lý rộng lớn) của các nhóm Việt Nam chỉ phát hiện phân tầng dân số vừa phải, và sự thay đổi thấp hơn trong các nhóm dân tộc so với các mẫu được sắp xếp theo khu vực địa lý. Vì các suy luận dựa trên F ST của Wright một mình có thể là sai lầm 54,55, việc đánh giá phân tầng phải được kiểm tra từ các góc độ khác nhau. Do đó, các phân tích phát sinh loài, thực vật học, và MDS của quần thể người Việt Nam cho thấy sự tồn tại của sự phân tầng đáng chú ý hơn trong cả nước; đồng thời, các phân tích này cũng cung cấp bằng chứng cho dòng gen lịch sử giữa các nhóm dân tộc. Trong kịch bản này, nhóm đặc biệt nhất là dân tộc Mông (Lào Cai). Thành phần mtDNA của họ khá khác với thành phần của các nhóm dân tộc lân cận từ miền Bắc Việt Nam (Kinh, Nùng và Tày). Các kết quả tìm thấy sự hỗ trợ bổ sung trong dữ liệu lịch sử và nhân học: bằng chứng khảo cổ chỉ ra rằng người Mông sớm được liên kết với các nền văn hóa thời đồ đá mới định cư ở vùng trung lưu của sông Dương Tử và Trung Trung Nam, trong khi bằng chứng ngôn ngữ cho thấy khu vực phía nam Trung Quốc trong ít nhất 2.000 năm qua56. Wen và cộng sự chỉ ra rằng hầu hết các dòng dõi Mông mtDNA đều có nguồn gốc ở miền nam Trung Quốc, mặc dù dân số Mông dường như đã tiếp xúc với người Đông Bắc Á (Hán Trung Quốc).
Phân tích cụ thể về các mô hình di cư cũng hỗ trợ kết luận rằng các nhóm dân tộc đã thấm vào dòng gen, và do đó chúng ta nên giả định rằng tác động của rào cản địa lý trong trao đổi dòng gen giữa các vùng là vừa phải. Các nhóm dân cư thuộc họ ngôn ngữ Tai-Kadai cho thấy các giá trị di cư cao nhất đối với các nhóm gia đình Austroasiatic, có lẽ phản ánh sự đồng hóa của dòng họ Tai-Kadai mtDNA của gia đình Austroasiatic. Điều này dường như cũng đồng ý với giả thuyết Austro-Tai nổi tiếng ban đầu được đưa ra bởi nhà nhân loại học Paul King Benedict57, đề xuất rằng các ngôn ngữ Tai-Kadai và Austronesian từ miền nam Trung Quốc và Thái Bình Dương có liên quan chặt chẽ.
Các sự kiện nhân khẩu học lịch sử cũng đã được kiểm tra qua EBSP. Cốt truyện thu được từ haplogroup F1f cho thấy sự tồn tại của những thay đổi nhân khẩu học quan trọng xảy ra khoảng 1.000 năm trước. Ngoài ra, các phân tích được thực hiện trong các nhóm dân tộc cho thấy một dấu hiệu nhân khẩu học tương tự trong nhóm dân tộc Chăm. Điều thú vị là, sự thay đổi đột ngột quan sát của N e được phát hiện trong chuỗi mtDNA trùng về thời gian với một trong những sự kiện nhân khẩu học lịch sử quan trọng nhất ở Việt Nam, cái gọi là Nam tiến từ trung tâm ban đầu của họ ở đồng bằng sông Hồng (Bắc Việt Nam ngày nay), theo bờ biển.Các tài liệu lịch sử cho thấy sự mở rộng này bắt đầu trong thế kỷ 10-11 và kéo dài khoảng 700 năm cho đến giữa thế kỷ 18. Quá trình thực dân hóa do Việt Nam khởi xướng đã được lý giải bởi các lý do địa lý và nhân khẩu học. Việc mở rộng này liên quan đến các cuộc chiến tranh dữ dội với người Chăm và để lại dân số Việt Nam giảm đáng kể. Đó là trong thế kỷ 17-19 mà người Việt đã thâm nhập vào đồng bằng sông Cửu Long ở miền Nam. Không phải tất cả các nhóm dân tộc được phân tích trong nghiên cứu này đều cho thấy cùng một mô hình nhân khẩu học trong EBSP, điều này cho thấy rằng nhiều khả năng Nam tiến không có tác động tương tự đối với tất cả người Việt Nam. Ước tính tỷ lệ di cư cho thấy người Chăm không được đồng hóa hay tham gia trao đổi gen với các nhóm khác, cho thấy sự giảm mạnh của Cham không liên quan đến sự đồng hóa của các quần thể khác; xem thêm17. Tỷ lệ di cư cũng cho thấy sự tồn tại của sự đồng hóa quan trọng của người Hmong-Miao bởi nhóm gia đình Tai-Kadai, cả hai nhóm gia đình trùng hợp về mặt địa lý ở miền Bắc của đất nước.
Chúng tôi đã kiểm tra các mô hình phát triển gen và theo địa lý (phylogeographic) với các nước láng giềng khác. PCA dựa trên haplotypes mtDNA cho thấy sự gần gũi di truyền giữa các quần thể khác nhau của Việt Nam và các quần thể Nam Trung Quốc và Đông Nam Á khác. Đặc điểm địa lý thực vật của M7b1a1f và F1f1 cho thấy sự trao đổi di truyền đã phổ biến ở thời cổ đại nhưng cũng gần đây hơn là 1,1,48,58. Tỷ lệ di cư được ước tính từ dữ liệu mtDNA cũng phù hợp với các hồ sơ lịch sử. Dữ liệu cho thấy dòng chảy một chiều từ Việt Nam sang Campuchia, một phát hiện phù hợp với các cuộc xâm lược lịch sử của Việt Nam vào vùng lãnh thổ Campuchia đã có trong thời kỳ đen tối của Campuchia (từ thế kỷ 16 đến 19), ngay sau sự sụp đổ của Đế chế Khmer. Những chuyển động này bắt đầu với sự xâm nhập của người Kinh ở miền Nam đồng bằng sông Cửu Long, di dời Khmers59, và nhường chỗ cho một thời kỳ mà Campuchia được kiểm soát luân phiên bởi Thái Lan (trước đây có tên là Siam) và Việt Nam. Ngày nay người Việt Nam đại diện cho thiểu số lớn thứ hai ở Campuchia, tập trung chủ yếu ở trong nước.
Sự tương đồng về di truyền cao giữa người Lào và người Việt Nam trước đây đã được ghi nhận bởi Bodner et al.12. Những tác giả này không tìm thấy sự khác biệt đáng kể trong các mô hình mtDNA giữa các quần thể này, cho thấy dòng gen mạnh bằng cách di chuyển giữa chúng. Những chuyển động này có thể được ưa chuộng bởi sự gần gũi về địa lý cũng như bởi lịch sử chính trị được chia sẻ một phần của cả hai quốc gia. Phân tích của chúng tôi cho thấy một mô hình di trú panmitic là rất có thể, do đó bổ sung thêm hỗ trợ cho giả thuyết này. Ngoài ra, nguoi Việt (dân tộc Kinh) thuộc về một nhánh của gia đình ngôn ngữ Austroasiatic với một sự tương đồng bất ngờ với dân số Lào, mặc dù Lào chủ yếu bị chi phối bởi gia đình ngôn ngữ Daic (gia đình Tai-Kadai) 12.Điều này có thể chỉ ra rằng một tỷ lệ lớn các dòng họ mẹ Austroasiatic đã được đồng hóa bởi người dân Lào.
Với mục tiêu tương phản các mẫu phát sinh loài và nhân khẩu học được quan sát với dữ liệu mtDNA, chúng tôi cũng nghiên cứu các mẫu SNP trên toàn bộ gen sử dụng dữ liệu từ Việt Nam và các nước láng giềng. Phân tích MDS cho thấy sự gần gũi của người Kinh Việt Nam(KHV) với người Hoa, Thái và Malaysia. Mối quan hệ này cũng hiển nhiên khi kiểm tra các mẫu phụ gia, cho thấy sự hiện diện của thành phần Trung Quốc phổ biến hơn ở Việt Nam. F3-thống kê và D-thống kê cung cấp hỗ trợ thống kê cho phụ gia hai chiều này. Một ước tính sơ bộ dựa trên dữ liệu trên toàn bộ gen phù hợp đáng ngạc nhiên với kết quả thu được từ dữ liệu mtDNA và một tập hợp mẫu khác từ Việt Nam, bằng cách xác định thời điểm hòa trộn khi mở rộng Nam tiến.
Kết quả của nghiên cứu này xác nhận sự tồn tại của đa dạng phân tử cao ở Việt Nam, như mong đợi từ một khu vực được coi là một trong những cái nôi chính cho khu định cư châu Á. Mặc dù có sự khác biệt về di truyền trung bình giữa các vùng và các dân tộc ở Việt Nam, có bằng chứng cho dòng gen quan trọng trong nước và rộng hơn trong bán đảo Đông Dương. Dữ liệu được trình bày trong nghiên cứu này là tập dữ liệu lớn nhất được tạo ra cho đến nay; nó không chỉ quan tâm đến các nghiên cứu nhân chủng học mà còn trong các lĩnh vực nghiên cứu y tế khác được áp dụng; ví dụ. di truyền pháp y, nơi mà các cơ sở dữ liệu về dữ liệu mtDNA là cần thiết để ước tính trọng lượng của các bằng chứng trong phân tích casework và kinship60. Haplogroup tần số ước tính từ chiến lược lấy mẫu này cũng là chìa khóa cho việc giải thích các nghiên cứu y sinh học, chẳng hạn như nghiên cứu trường hợp kiểm soát mà cơ cấu dân số không bị phát hiện có thể dẫn đến dương tính giả không mong muốn liên quan đến bệnh61,62. Theo quan điểm nhân chủng học, kịch bản tổng thể là người Việt Nam ngày nay có nguồn gốc dân tộc kép: một thành phần chính đến từ miền Nam Trung Quốc, chồng lên một thành phần nhỏ có nguồn gốc từ một hỗn hợp Thái-Indonesia. Tiến trình Nam tiến có thể là chìa khóa cho việc cấu hình kiến ​​trúc bộ gen của người Việt Nam ngày nay.