Trí tuệ nhân tạo và nỗi lo diệt vong của những ngôn ngữ thiểu số

2025-01-17 20:33:20
Lường trước rủi ro để khai thác hết tiềm năng
Việt Nam hợp tác quốc tế đào tạo nhân lực AI, vi mạch bán dẫn

Theo trang chủ của OpenAI, công ty chủ quản của ChatGPT, mỗi tháng có tới 180 triệu người trên thế giới đang sử dụng ChatGPT. Mỗi ngày, hàng tỷ cuộc hội thoại giữa người và máy đang được tạo ra. Nhưng trong hàng tỷ cuộc hội thoại đó, chúng ta thấy vắng bóng những ng??n ng??? thiểu số. Mỗi ng??n ng??? là niềm tự hào của một dân tộc. Nó không chỉ là phương tiện giao tiếp mà còn là kho báu văn hóa, chứa đựng những trí tuệ, tri thức và cảm xúc riêng biệt của mỗi cộng đồng. Nhưng, trong cuộc chơi của trí tuệ nhân tạo tạo sinh, nhiều ng??n ng??? đang đứng trước nguy cơ bị bỏ quên. Máy móc học cách "nói" và "nghe" qua những ng??n ng??? phổ thông. Trong khi đó, tiếng nói của những cộng đồng nhỏ bé, với những ng??n ng??? độc đáo lại chìm vào im lặng và có thể bị diệt vong.

Những mô hình ng??n ng??? lớn (LLM)

Trong rất nhiều nhánh nghiên cứu về trí tuệ nhân tạo, có một nhánh gọi là AI tạo sinh, và trong nhiều nhánh AI tạo sinh có một nhánh rất được thị trường quan tâm đó là các mô hình ng??n ng??? lớn (Large language model - LLM). Có thể giải thích ngắn gọn, mỗi mô hình ng??n ng??? lớn là một cỗ máy được sinh ra để đoán từ tiếp theo. Giống như kiểu bạn chơi gameshow Chiếc nón kì diệu vậy. MC sẽ đưa ra câu đố và số lượng chữ cái có trong đáp án, việc của bạn là đoán xem đáp án là gì.

Các cỗ máy rất thạo trò chơi ng??n ng??? này. Chúng sẽ sử dụng xác suất thống kê kết hợp với ngữ cảnh để đoán xem chữ cái nào có khả năng cao nhất trùng với đáp án. Ở cấp độ cao cấp thì sẽ là câu nào, đoạn văn nào, ý nào là hợp lý nhất để trả lời câu hỏi. Cũng giống như con người, các cỗ máy này sẽ cần có vốn từ, vốn kiến thức để có thể trả lời được các câu hỏi. Trong khoa học máy tính, người ta gọi đấy là dữ liệu (data).

Theo BBC Science Focus, cỗ máy GPT3 được đào tạo dựa trên 570 Gb dữ liệu văn bản đã được lọc sạch. Số văn bản này chứa khoảng 300 tỷ từ, tương đương khoảng 850 triệu trang văn bản in trên giấy A4, font chữ Arial cỡ chữ 12pt.

Những con số rất ấn tượng, tuy nhiên nguồn dữ liệu này vẫn chỉ là một phần rất nhỏ lấy ra từ kho thông tin của nhân loại. Chất lượng của kho thông tin này cũng không thể so sánh với các thư viện lớn trên thế giới, thậm chí có thể nói là vẫn lẫn lộn vô vàn những thứ tạp nham bên trong. Điều đáng nói, hơn 9/10 kho dữ liệu này đến từ các ngữ liệu tiếng Anh. Các ng??n ng??? khác như: tiếng Pháp, Đức, Tây Ban Nha và Ý chiếm hầu hết miếng bánh còn lại. Toàn bộ các ng??n ng??? khác trên thế giới chiếm một lát mỏng như lá lúa, gọi là cho có.

Những nguồn cấp dữ liệu chính cho ChatGPT

Điều này thể hiện ngay trong chất lượng của ChatGPT. Mô hình GPT 3.5 và 4 có thể trả lời rất trôi chảy bằng tiếng Anh, nhưng gặp nhiều lỗi rất ngô nghê khi dùng từ tiếng Việt, thường hay tạo ra những đoạn văn sáo rỗng và diễn đạt ngữ pháp lủng củng.

Tóm lại, càng nhiều dữ liệu chất lượng, các mô hình ng??n ng??? lớn sẽ càng đoán chuẩn hơn. Và ngược lại, càng ít dữ liệu, dữ liệu không tốt sẽ tạo ra những mô hình ng??n ng??? chất lượng thấp. Như dân công nghệ vẫn hay nói: đầu vào là rác thì đầu ra cũng là rác.

Chính vì vậy, dù cho có những công nghệ tối tân nhất chống lưng, các mô hình ng??n ng??? lớn vẫn chưa thể chạm tới sự phong phú của ng??n ng??? và văn hóa nhân loại.

Những ng??n ng??? “thoi thóp”

Theo chương trình Thập kỷ Quốc tế về ng??n ng??? bản địa của Unesco, trên thế giới có khoảng 7000 ng??n ng??? đang được sử dụng. Nhưng cứ mỗi hai tuần, nhân loại lại mất đi một ng??n ng???. Tức là người cuối cùng sử dụng thành thạo ng??n ng??? đó đã chết hoặc mất khả năng giao tiếp. Theo dự đoán, đến cuối thế kỷ 21, chúng ta sẽ chứng kiến sự biến mất của khoảng 3000 ng??n ng???.

Những ng??n ng??? còn thoi thóp sống hầu hết thuộc các dân tộc thiểu số bản địa. Muốn dành được những cơ hội phát triển, nhiều cộng đồng phải đánh đổi từ bỏ dần ng??n ng??? truyền thống để hòa vào các ng??n ng??? khác. Những ng??n ng??? phổ thông của các dân tộc giàu có hơn đã chiếm vai trò quá lớn trong kinh tế, chính trị, giáo dục và công nghệ.

Nếu bạn là một người thổ dân nói tiếng Naati trên một hòn đảo tại Nam Thái Bình Dương, bạn sẽ nói tiếng Trung Quốc cả ngày với khách du lịch, đọc báo bằng tiếng Anh, điền giấy kết hôn bằng tiếng Pháp, trao đổi với đồng nghiệp bằng tiếng Bilasma. Khi nào bạn nói tiếng Naati? Có lẽ là trong giấc mơ. Vì bạn là người cuối cùng còn nói thạo tiếng Naati.

Trong những trường hợp cực đoan hơn, giống như thổ dân Châu Mỹ cuối thế kỷ 19, chính quyền sở tại đã áp bức bằng bạo lực để bắt người dân từ bỏ ng??n ng??? của mình.

Các dân tộc bị mất ng??n ng??? sẽ mất đi cơ hội học hỏi từ tổ tiên. Họ phiêu dạt trong tâm lý thiếu đi bản sắc và nguồn gốc. Khi không nhận ra mình là ai, họ cũng không thể kết nối tới cộng đồng của mình. Cô độc trong thế giới ồn ào, những người này sẽ chịu cảm giác bất lực, buồn bã, mất mát và các nguy cơ vong bản (mất gốc).

Mỗi một ng??n ng??? mất đi, sự đa dạng về văn hóa, tri thức và sáng tạo của loài người lại khuyết đi một mảnh. Thiếu đi một ng??n ng???, những góc nhìn của loài người sẽ đơn điệu hơn. Thiếu đi nhiều ng??n ng???, góc nhìn của loài người sẽ trở nên thiên kiến và lệch lạc. Một vài dòng tư tưởng chính phổ biến trong các ng??n ng??? mạnh sẽ lên ngôi mà không gặp những phản biện xác đáng và cần thiết.

Những dữ liệu đã từng phổ biến bằng các thứ tiếng này sẽ càng được phổ biến hơn. Trong khi những dữ liệu khác, được thể hiện bằng các ng??n ng??? ít thấy sẽ biến mất dần, cho dù chúng cũng rất quý giá.

AI: sự mở rộng của những thiên kiến

Năm 2017, một cuộc điều tra nội bộ của tạp chí nổi tiếng National Geographic cho thấy, trước năm 1970 cách đưa tin của họ tràn ngập sự kỳ thị người da màu. Ra đời trong thời kì đỉnh cao của chủ nghĩa thực dân, tờ tạp chí này chịu ảnh hưởng nặng nề của tư tưởng phân biệt chủng tộc.

Những người da màu luôn được thể hiện trong trang phục thiếu vải, đặc biệt là phụ nữ. Họ được khắc họa theo góc nhìn kỳ quái, hoang dã, lạc hậu và thường trong trạng thái hào hứng, choáng ngợp trước những máy móc hiện đại của phương tây.

Nhà sử học nhiếp ảnh John Edwin Mason, người đã tham gia vào cuộc điều tra, đưa ra nhận định rằng: Người Mỹ đã l??y ý tưởng từ các bộ phim ăn khách như Tarzan và những bức tranh biếm họa thô thiển về phân biệt chủng tộc để phản ánh thế giới. Chúng ta cũng có thể nhận thấy những thiên kiến tương tự như vậy trong các bức ảnh người Pháp chụp Việt Nam đầu thế kỷ 20.

Tưởng rằng quá khứ đã khép lại, nhưng năm 2015, một bức ảnh có tên là Come up for air được đăng trên tạp chí lại thổi bùng lên tranh cãi. Bức ảnh đã thể hiện góc nhìn từ trên cao xuống một nóc nhà ở thành phố Varanasi của Ấn Độ. Trên nóc nhà đó là cả một gia đình hơn chục người bao gồm cả phụ nữ và trẻ em đang nằm ngủ. Có em bé hoàn toàn trần truồng.

Những người phản đối cho rằng, National Geographic đang sử dụng tiêu chuẩn kép. Nếu bức ảnh chụp một gia đình da trắng ở phương Tây, tờ tạp chí này sẽ không đăng tải. Họ sẽ bị kiện vì tội xâm phạm đời tư. Thế nhưng đây là Ấn Độ, khả năng kiện cáo xảy ra thấp hơn nhiều và không có gì phải ngại.

Trong “đại dương hoang dã Internet”, những dữ liệu thiên kiến như vậy nhiều như rác thải nhựa. Được "dạy dỗ" bằng hàng triệu văn bản thu thập từ trên mạng, các LLM không chỉ học được cách sử dụng ng??n ng??? mà còn hấp thụ cả những thiên kiến và thông tin không chính xác. Học gì thì nói nấy, AI có thể phát sinh ra những đáp án thiên vị, phân biệt đối xử nhất là khi nói về các vấn đề nhạy cảm như chủng tộc, tôn giáo, giới tính và chính trị.

Open AI cho biết họ luôn quan tâm đến những nhóm yếu thế và làm mọi cách ngăn chặn những tư tưởng độc hại, cố gắng tạo nên những trí tuệ nhân tạo không bị thiên lệch và phản ánh thế giới một cách có đạo đức. Nếu đây là sự thật thì sẽ là một nỗ lực đáng trân trọng và có ý nghĩa lớn đối với nhân loại trong giai đoạn hiện nay.

Nhưng những dịch vụ internet lớn cũng đều đã nói như vậy. Youtube, Tiktok, Instagram, Facebook... đều cho biết đã cố gắng để tạo ra môi trường lành mạnh. Kết quả thế nào thì người dùng cũng đã thấy. Như ca sĩ Đen Vâu nói trong ca khúc Trời hôm nay nhiều mây cực: “Ở trong rừng an toàn hơn ở trên mạng.”

Một cuộc khảo sát thực hiện tháng 1/2024 đăng trên arxiv.org có tên là Thousands of AI Authors on the Future of AI, đã đưa nhiều dự đoán thú vị về tương lai của AI. Ví dụ ít nhất 50% cơ hội là vào năm 2028, AI có thể tạo ra những bài hát y hệt các nghệ sĩ lớn, hoặc tự động xây dựng một trang web thanh toán từ a tới z. Đây là cuộc thăm dò ý kiến tiến hành trên 2778 nhà nghiên cứu về trí tuệ nhân tạo hàng đầu thế giới. Đây là một cuộc khảo sát tiến hành hằng năm. Và mỗi năm các nhà nghiên cứu lại đưa ra tiên đoán mới, sớm hơn và mạnh mẽ hơn về dấu mốc tương lai của AI. Tức là mọi việc phát triển còn nhanh hơn dự đoán của các chuyên gia.

Nếu dự đoán này đúng thì bất kì ai biết dùng AI cũng có thể là nhạc sĩ và nhà văn. Điều đó cũng có nghĩa là nếu một thiên kiến hoặc sai lệch lọt qua được bộ lọc của các AI, nó có thể được nhân rộng lên gấp nhiều lần. Trong một môi trường đầy những thiên kiến và sai lệch như vậy thì sự kỳ thị và bất đồng giữa các cộng đồng, các nền văn hóa sẽ càng ngày càng lớn. Cuối cùng quyền lợi của những người yếu thế sẽ bị tổn hại nghiêm trọng.

Những thách thức với các ng??n ng??? ít phổ biến

Việc tạo ra các LLM dành cho 99% còn lại gặp phải rất nhiều rào cản. Đầu tiên, nhiều ng??n ng??? thiểu số không có đủ dữ liệu văn bản hoặc lời nói cần thiết để đào tạo mô hình ng??n ng???. Điều này bao gồm cả dữ liệu chất lượng cao, đa dạng và đại diện cho ng??n ng??? đó.

Thứ hai, kể cả nguồn ngữ liệu còn dồi dào, thì việc thu thập chúng cũng không đơn giản như đi siêu thị. Chúng ta sẽ cần đến một lực lượng các nhà ng??n ng??? học, dân tộc học, nhà nghiên cứu lịch sử, văn hóa… hùng hậu để thu thập, đánh giá, kiểm chứng dữ liệu một cách cẩn trọng và chuyên nghiệp. Tìm đâu ra một lượng lớn các nhà khoa học xã hội và nhân văn đủ để số hóa 7000 ng??n ng??? còn lại?

Thứ ba, nhiều cộng đồng thiểu số cũng không có điều kiện tiếp cận internet, lượng dữ liệu do chính họ tạo ra về dân tộc mình là không đáng kể.

Thứ tư, các ng??n ng??? thiểu số thường có cấu trúc ngữ và từ vựng rất khác biệt so với các ng??n ng??? lớn. Chúng ta sẽ cần những mô hình ng??n ng??? mới phù hợp với những ng??n ng??? độc đáo.

Và cuối cùng là TIỀN. Ai sẽ trả tiền cho một việc khó khăn như vậy? Các mô hình ng??n ng??? lớn hiện nay do các công ty tư nhân xây dựng. Những công ty này hiển nhiên phải tạo ra lợi nhuận trong khi khả năng sinh lời từ những ng??n ng??? ít người nói là rất mơ hồ.

Dù vậy, chúng ta vẫn có cơ sở để hi vọng. Các mô hình ng??n ng??? lớn như ChatGPT ngày càng thông minh hơn, cần lượng dữ liệu ít hơn nhưng cho hiệu quả chính xác. Từ chiều ngược lại, AI có thể giúp sức cho các nhà ng??n ng??? học phục hồi các ng??n ng??? đang trên bờ vực biến mất.

Theo trang Web Statistica, kích thước thị trường AI toàn cầu vào năm 2023 là vào khoảng 207.9 tỷ đô la Mỹ. Đến năm 2030 con số này được các công ty tư vấn dự đoán sẽ tăng từ 3 đến 7 lần. Với một lượng tiền lớn như vậy đổ vào thị trường, hi vọng rằng nhân loại sẽ có đủ nguồn lực để tạo ra các LLM dành cho các ng??n ng??? ít được biết đến. Ngay lúc này, những cá nhân có tâm huyết cũng đang tìm cách kết nối với nhau thông qua mạng xã hội để cùng xây dựng những LLM riêng. Mặc dù đây mới chỉ là những nỗ lực nhỏ nhoi, song nó mang lại hy vọng cho tương lai, các cộng đồng sẽ tự xây dựng được LLM của mình khi AI phổ cập.

Chúng ta hãy hy vọng những người đang phát triển AI, đặc biệt là lĩnh vực LLM sẽ có dành chỗ cho các ng??n ng??? thiểu số sinh tồn. Bởi đó là văn hóa, là cốt lõi văn minh của loài người. Và khác với những thuật toán, những cỗ máy vô tình, người làm ra AI có trái tim người.

Những cảnh báo về mối nguy AI có thể bị "vũ khí hóa"
"Mọi công nghệ ra đời đều có thể trở thành công cụ giúp ích cho con người, nhưng cũng là vũ khí. Chúng ta cần đảm bảo AI chịu sự kiểm soát của con người để có thể làm chậm ho??c t??t mọi thứ khi cần".
Chuyên gia Việt Nam tại Anh: Sẽ đến lúc phải có những bộ luật về AI
EU đang sắp công bố luật về AI trong khi Anh cho rằng với tốc độ phát triển hiện tại của AI, các luật đưa ra ngày nay có thể lỗi thời nhưng thừa nhận rồi sẽ đến lúc phải có một bộ luật về AI.
Trang web trò chơi ứng dụng Gem Salvation APP

Nguồn bài viết : Game bài Baccarat

Top
سلاٹس پر مفت اسپن کو کیسے متحرک کریں۔_سلاٹ بونس گیمز_علامتیں_آٹو پلے سلاٹ گیمز_فون سلاٹ گیمز کے ذریعے ادائیگی کریں۔ سلاٹ گیمز کے ساتھ کیسینو_آن لائن کیسینو سلاٹ مشینیں۔_عملی پلے سلاٹس_آٹو پلے سلاٹ گیمز_اصلی پیسے کے لیے سلاٹس کھیلیں بہترین فطرت پر مبنی سلاٹس_سلاٹ مشین ایپس_Novomatic Slot Machines_افسانوی مخلوق سلاٹ مشینیں_سلاٹ مشین کے جائزے اور درجہ بندی پاکستان کے لیے ٹاپ اردو سلاٹ ایپس_آٹو پلے کی خصوصیات کے ساتھ بہترین سلاٹس_سب سے بڑے سلاٹ جیک پاٹس_مائیکرو گیمنگ سلاٹس_ویڈیو سلاٹس پر جیتنے کا طریقہ NetEnt Slot Games_iOS آلات پر سلاٹ گیمز کھیلیں_فوری جیت کے ساتھ سلاٹس_بونس راؤنڈ کے ساتھ سلاٹ مشین_سلاٹ گیمز اسلام آباد میں مقبول ہیں۔ نیٹلر سلاٹس_پاکستان میں موبائل کے لیے مفت سلاٹ گیمز_پاکستان کے لیے آن لائن سلاٹس_گولیاں کے لیے مفت سلاٹ گیمز_ٹاپ ریٹیڈ سلاٹ ایپس بڑے جیک پاٹس کے ساتھ سلاٹ مشینیں۔_فوری کھیلنے کے اختیارات کے ساتھ سلاٹ گیمز_اردو میں کیسینو سلاٹس_پاکستانی کھلاڑیوں کے لیے آن لائن سلاٹ ٹورنامنٹ_ٹاپ سلاٹ گیم فورمز ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پلےٹیک سلاٹس_سلاٹ مشین_سلاٹ مشین کی ادائیگیوں کو محفوظ بنائیں_آئی فون پر سلاٹ گیمز ہائی لمیٹ سلاٹ مشینیں۔_سمندری ڈاکو سلاٹ مشینیں۔_فوری جیت سلاٹ مشینیں_کیسینو سلاٹ گیمز فیڈ بیک_ایک سے زیادہ بونس راؤنڈ کے ساتھ سلاٹس ارتقاء گیمنگ سلاٹس_اصلی پیسے کے لیے سلاٹس کھیلیں_ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پے پال کے ساتھ سلاٹ مشینیں۔_کریڈٹ کارڈ سلاٹس ارتقاء گیمنگ سلاٹس_اصلی پیسے کے لیے سلاٹس کھیلیں_ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پے پال کے ساتھ سلاٹ مشینیں۔_کریڈٹ کارڈ سلاٹس ارتقاء گیمنگ سلاٹس_اصلی پیسے کے لیے سلاٹس کھیلیں_ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پے پال کے ساتھ سلاٹ مشینیں۔_کریڈٹ کارڈ سلاٹس ارتقاء گیمنگ سلاٹس_اصلی پیسے کے لیے سلاٹس کھیلیں_ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پے پال کے ساتھ سلاٹ مشینیں۔_کریڈٹ کارڈ سلاٹس ارتقاء گیمنگ سلاٹس_اصلی پیسے کے لیے سلاٹس کھیلیں_ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پے پال کے ساتھ سلاٹ مشینیں۔_کریڈٹ کارڈ سلاٹس ارتقاء گیمنگ سلاٹس_اصلی پیسے کے لیے سلاٹس کھیلیں_ڈیسک ٹاپ پر سلاٹ گیمز کھیلیں_پے پال کے ساتھ سلاٹ مشینیں۔_کریڈٹ کارڈ سلاٹس