Trí thông minh nhân tạo vẫn ngốc nghếch như thường

Trí tuệ nhân tạo như chúng ta đang thấy dựa trên sự chiếm dụng văn hóa trên diện rộng, và quan niệm rằng nó thực sự thông minh có thể mang lại nguy hại nhiều mặt.

Sự bùng nổ cơn cuồng trí thông minh nhân tạo (AI)

Tháng 1/2021, đội ngũ nghiên cứu trí tuệ nhân tạo OpenAI cho ra mắt một phần của chương trình mang tên Dall-E. Chương trình này cho phép người dùng nhập mô tả đơn giản hình ảnh họ đang có trong đầu và chỉ cần một chút thời gian là nó có thể tạo ra một hình ảnh ăn khớp với gợi ý đó, ngang ngửa với một họa sĩ minh họa hoặc một nhà thiết kế rành rẽ Adobe, nhưng lại nhanh hơn và không tốn đồng nào. Ví dụ như ta nhập “con lợn có cánh bay lên mặt trăng theo phong cách của Antoine de Saint-Exupéry”, đợi một hai phút là có ngay kết quả một bức họa với những nét cọ màu nước loang lổ đặc trưng của tác giả Hoàng Tử Bé.

Khoảng một năm sau, khi phần mềm được phát hành rộng rãi hơn thì internet phát cuồng. Mạng xã hội tràn ngập đủ loại sáng tạo lạ lùng kỳ ảo đến từ phối ngẫu của các phong cách nghệ thuật và trí tưởng tượng. Và vài tháng sau, điều đó lại xảy ra, lần này là với ngôn ngữ và một sản phẩm có tên ChatGPT, cũng do OpenAI phát triển. Yêu cầu ChatGPT tạo ra một bản tóm tắt Book of Job theo phong cách của nhà thơ Allen Ginsberg và nó cho bạn kết quả ưng ý trong vài giây. Yêu cầu nó hiển thị bài thơ Howl của Ginsberg dưới dạng bản trình chiếu slide của một nhà tư vấn quản lý nó cũng làm được. Khả năng của các chương trình này trong việc khơi gợi những thế giới mới kỳ lạ bằng cả từ ngữ và hình ảnh đã thu hút công chúng, chính mong muốn tự mình trải nghiệm này đã tạo nên kho dữ liệu ngày càng lớn giúp chúng ta tìm ra cách sử dụng tốt công cụ này, nhất là cách xây dựng đầu vào để đạt được đầu ra hay ho nhất.

Kỹ năng thứ hai được gọi là “prompt engineering” (tạm dịch: kỹ thuật lời nhắc): kỹ thuật sắp xếp các hướng dẫn theo cách mà hệ thống hiểu rõ nhất, do đó, nó trả về kết quả phù hợp nhất với mong đợi – hoặc vượt quá mong đợi. Các nhà bình luận công nghệ đã dự đoán rằng prompt engineering sẽ nhanh chóng trở thành hạng mục nằm trong những công việc được săn đón và lương cao trong một tương lai “không lập trình”, nơi mà cách tương tác hiệu quả nhất với các hệ thống thông minh là dùng ngôn ngữ của con người. Chúng ta không còn cần phải biết cách vẽ hay cách viết mã: chúng ta chỉ cần thì thầm mong muốn của mình với máy và nó sẽ làm phần còn lại. Giới hạn đối với sự sáng tạo của AI là giới hạn trong trí tưởng tượng của chính chúng ta.

Những kẻ bắt chước nhưng còn tiến bộ hơn Dall-E đã nhanh chóng nối đuôi. Dall-E mini (sau này được đổi tên thành Craiyon) đã mang đến cho những người không được mời sử dụng các dịch vụ riêng tư của OpenAI có cơ hội thử nghiệm một công cụ tương tự, kém mạnh mẽ hơn nhưng vẫn ấn tượng. Trong khi đó, nỗ lực thương mại độc lập Midjourney và Stable Diffusion mã nguồn mở đã sử dụng một cách tiếp cận khác để phân loại và tạo hình ảnh cho cùng một mục đích. Trong vòng vài tháng, lĩnh vực này đã nhanh chóng phát triển thành dạng video ngắn và mô hình 3D, với các công cụ mới xuất hiện hàng ngày từ giới học thuật và lập trình viên có hứng thú, cũng như những gã khổng lồ truyền thông xã hội và giờ là AI: Facebook (hay còn gọi là Meta), Google, Microsoft và những người khác. Một lĩnh vực nghiên cứu, phần mềm và cuộc đua mới đã mở ra.

Cái tên Dall-E ghép từ tên chú người máy Wall-E trong bộ phim cùng tên của Disney, với nghệ sĩ trường phái siêu thực người Tây Ban Nha, Dali. Một mặt, bạn có hình dáng của một cỗ máy nhỏ bé dũng cảm, tự động và đáng yêu đang quét dọn những mảnh vụn của nền văn minh nhân loại đã sụp đổ, mặt khác là một người đàn ông có một châm ngôn được phát biểu lặp đi lặp lại là, “Những kẻ không muốn bắt chước bất cứ thứ gì sẽ chẳng tạo ra được gì” và “lan tỏa sự bối rối còn quan trọng hơn là loại bỏ nó.” Cả hai đều tạo ra những cái tên đáng ngưỡng mộ cho một loạt các công cụ được gọi là trình tạo hình ảnh AI.

Trong năm qua, làn sóng AI tiêu dùng mới này, bao gồm cả tạo hình ảnh và các công cụ như ChatGPT, đã chiếm lĩnh trí tưởng tượng của nhiều người. Nó cũng giúp các công ty công nghệ lớn ngày một giàu có, những công ty vốn đã từng không thuyết phục được hầu hết chúng ta rằng blockchain hoặc thực tế ảo (“metaverse”) là tương lai mà bất kỳ ai trong chúng ta mong muốn. Ít nhất lần này có vẻ khiến ta thích thú hơn, trong tầm 5 phút; và “AI” vẫn mang thứ màu sắc khoa học viễn tưởng lấp lánh, phảng phất hình bóng của những người máy khổng lồ và bộ não siêu phàm, giống như trong các bộ tiểu thuyết. Tất nhiên, những gì đang diễn ra bên dưới thì không hề mới mẻ gì.

Trí thông minh nhân tạo (AI) thực ra là gì?

Các khái niệm cơ bản về trí tuệ nhân tạo hàn lâm không thay đổi trong vài thập kỷ qua. Công nghệ cơ bản của mạng thần kinh – một phương pháp học máy dựa trên cách thức hoạt động của bộ não con người – đã được lý thuyết hóa và thậm chí được đưa vào thực tế từ những năm 1990. Khi đó, bạn cũng có thể sử dụng chúng để tạo ra hình ảnh, nhưng chủ yếu là những hình ảnh trừu tượng mờ ảo, những đốm màu phản ánh một chút cảm xúc hoặc thẩm mỹ. Các chatbot AI đạt chuẩn đầu tiên có từ trước nữa kìa. Năm 1964, Joseph Weizenbaum, một nhà khoa học máy tính tại Viện Công nghệ Massachusetts, đã phát triển một chatbot có tên là Eliza. Eliza được mô phỏng theo một nhà trị liệu tâm lý “lấy con người làm trung tâm”: bất cứ điều gì bạn nói, nó sẽ phản chiếu lại bạn. Nếu bạn nói “Tôi cảm thấy buồn”, Eliza sẽ trả lời “Tại sao bạn cảm thấy buồn?”, v.v. (Weizenbaum thực sự muốn dự án của mình thể hiện sự hời hợt trong giao tiếp của con người, chứ không phải là bản thiết kế cho các sản phẩm trong tương lai.)

Các AI đời đầu không biết gì mấy về thế giới, còn các trung tâm học thuật lại thiếu năng lực về cơ sở vật chất để triển khai diện rộng. Sự khác biệt của thời điểm này không phải là trí tuệ mà là dữ liệu và năng lực. Các công ty công nghệ lớn đã dành 20 năm để thu thập lượng dữ liệu khổng lồ từ văn hóa và cuộc sống hàng ngày, đồng thời xây dựng các trung tâm dữ liệu rộng lớn, ngốn năng lượng khủng khiếp vì chứa đầy các máy tính mạnh hơn bao giờ hết để xử lý dữ liệu. Những gì đã từng là mạng lưới thần kinh cũ kỹ ọp ẹp nay đã trở nên siêu mạnh mẽ và kết quả là sự bùng nổ của AI mà chúng ta đang thấy.

Việc tạo hình ảnh AI dựa trên việc ghép nối và phân tích hàng triệu hàng triệu hình ảnh được gắn thẻ, tức là hình ảnh đi chung với một số mô tả về nội dung được đính kèm. Những hình ảnh và mô tả này sau đó được xử lý thông qua các mạng thần kinh, những mạng này học cách liên kết các tiêu chí cụ thể và mang sắc thái sâu của hình ảnh như hình dạng, màu sắc, bố cục – với các từ và cụm từ nhất định. Những tiêu chí này được xếp chồng lên nhau để tạo ra sự sắp xếp mới về hình dạng, màu sắc và bố cục, dựa trên hàng tỷ liên kết có trọng số khác nhau được tạo ra bởi một prompt (lời nhắc) đơn giản. Nhưng tất cả những hình ảnh gốc đó đến từ đâu?

Các bộ dữ liệu do LAION, một tổ chức phi lợi nhuận của Đức, phát hành là một ví dụ điển hình về bộ sưu tập văn bản hình ảnh được sử dụng để dạy các mô hình AI lớn (chúng cung cấp cơ sở dữ liệu cho cả Stable Diffusion và Imagen của Google, và cả những mô hình khác). Trong hơn một thập kỷ, một tổ chức web phi lợi nhuận khác, Common Crawl, đã lập chỉ mục và lưu trữ tối đa số lượng các web công khai trên toàn thế giới mà nó có thể truy cập, con số lên tới 3 tỷ trang mỗi tháng. Các nhà nghiên cứu tại LAION đã dùng một đoạn dữ liệu Common Crawl và lấy ra mọi hình ảnh có thẻ “alt”, một dòng văn bản được dùng để mô tả hình ảnh trên các trang web. Sau khi cắt bớt, các liên kết đến hình ảnh gốc và văn bản mô tả chúng sẽ được phát hành trong các bộ sưu tập lớn: LAION-5B vào tháng 3 năm 2022, chứa hơn năm tỷ cặp văn bản-hình ảnh. Những hình ảnh này “công khai” theo nghĩa rộng nhất: bất kỳ hình ảnh nào từng được xuất bản trên internet đều có thể được tập hợp vào đó, bạn muốn kiểu dáng kỳ lạ gì cũng có.

Vào tháng 9 năm 2022, một nghệ sĩ kỹ thuật số tại San Francisco tên là Lapine sử dụng một công cụ có tên Have I Been Trained, cho phép các nghệ sĩ xem liệu tác phẩm của họ có đang được dùng để tạo các mô hình tạo hình ảnh AI hay không. Have I Been Trained được tạo ra bởi nghệ sĩ Mat Dryhurst và Holly Herndon, những người đã bị AI dùng chính tác phẩm của mình, nhờ đó mà phát hiện cách thức AI chiếm dụng sức lao động của các nghệ sĩ. Khi Lapine sử dụng nó để quét cơ sở dữ liệu LAION, cô ấy đã tìm thấy hình ảnh khuôn mặt của chính mình. Cô truy ngược lại và phát hiện hình ảnh này là do bác sĩ chụp khi cô đang điều trị một bệnh di truyền hiếm gặp. Những bức ảnh như một phần trong tài liệu lâm sàng của cô và cô đã ký đủ giấy tờ để hạn chế việc sử dụng chúng ngoài phạm vi y tế. Bác sĩ có liên quan đã qua đời vào năm 2018. Bằng cách nào đó, những hình ảnh y tế riêng tư này đã lưu lạc trên mạng, sau đó nằm trong kho lưu trữ của Common Crawl và bộ dữ liệu của LAION, cuối cùng được đưa vào mạng thần kinh khi chúng tìm hiểu về ý nghĩa của hình ảnh và cách tạo hình ảnh mới. Đối với tất cả những gì chúng ta biết, kết cấu màu hồng lốm đốm của con lợn kiểu Saint-Exupéry ta thấy lúc nãy có thể đã được pha trộn, một cách tinh tế, từ máu thịt của một bệnh nhân ung thư.

“Điều đó tương đương với việc tiếp nhận tài sản bị đánh cắp nhưng ở thế giới kỹ thuật số. Ai đó đã đánh cắp hình ảnh từ hồ sơ của bác sĩ quá cố của tôi và nó lưu lạc ở đâu đó trên mạng, sau đó nó được đưa vào tập dữ liệu này,” Lapine nói với trang web Ars Technica. “Việc một bức ảnh bị rò rỉ đã đủ tệ rồi, nhưng bây giờ nó là một phần của sản phẩm khác. Và điều này áp dụng cho hình ảnh, hồ sơ y tế của bất kỳ ai. Và khả năng lạm dụng trong tương lai là rất cao.” (Theo tài khoản Twitter của cô ấy, Lapine tiếp tục sử dụng các công cụ như Dall-E để tạo tác phẩm nghệ thuật của riêng mình.)

Toàn bộ kiểu hình AI có sẵn công khai này, cho dù nó hoạt động với hình ảnh hay từ ngữ, cũng như nhiều ứng dụng dựa trên dữ liệu giống nó, đều dựa trên sự chiếm đoạt toàn bộ nền văn hóa hiện có này, phạm vi mà chúng ta hầu như không thể hiểu được. Công khai hay riêng tư, hợp pháp hay không, hầu hết văn bản và hình ảnh do các hệ thống này thu thập đều tồn tại trong miền mơ hồ về “sử dụng hợp lý” (được phép ở Hoa Kỳ, nhưng ở diện nghi vấn nếu không muốn nói là hoàn toàn bất hợp pháp ở Liên minh Châu Âu). Giống như hầu hết những gì diễn ra bên trong các mạng lưới thần kinh tiên tiến, thực sự không thể hiểu cách chúng hoạt động từ bên ngoài, khó lắm mới có những cuộc gặp gỡ hiếm hoi như của Lapine. Nhưng chúng ta có thể chắc chắn rằng: sáng tạo của những cỗ máy thông minh này không hề kỳ diệu mới mẻ gì cả, mà đầu ra của kiểu hình AI này hoàn toàn phụ thuộc vào công sức không được công nhận và không được trả thù lao của các thế hệ nghệ sĩ loài người.

Việc tạo văn bản và hình ảnh AI hoàn toàn là sự tích lũy mà thôi: chiếm đoạt sức lao động của nhiều người để làm giàu và phát triển cho một số công ty công nghệ ở Thung lũng Silicon và các chủ sở hữu tỷ phú của họ. Những công ty này kiếm tiền bằng cách đưa chính họ vào mọi khía cạnh của cuộc sống hàng ngày, bao gồm cả những lĩnh vực cá nhân và sáng tạo nhất trong cuộc sống của chúng ta: những đam mê thầm kín, những cuộc trò chuyện riêng tư, những điểm giống nhau và những giấc mơ của chúng ta. Họ bao vây trí tưởng tượng của chúng ta theo cách giống như địa chủ và trùm cướp bóc bao vây những vùng đất từng là của chung. Họ hứa rằng khi làm như vậy, họ sẽ mở ra những lĩnh vực trải nghiệm mới cho con người, cho phép chúng ta tiếp cận với tất cả kiến thức của nhân loại và tạo ra những kiểu kết nối mới giữa người với người. Thay vào đó, họ bán lại cho chúng ta những giấc mơ được đóng gói dưới dạng sản phẩm của máy móc, với lời hứa duy nhất là họ sẽ kiếm được nhiều tiền hơn nữa khi dán thêm quảng cáo ở mặt sau.

Sự kỳ quặc trong việc sáng tạo hình ảnh bằng trí tuệ nhân tạo xuất hiện cả trong đầu vào và đầu ra. Một người dùng đã thử gõ các cụm từ vô nghĩa và bối rối xen lẫn khó chịu khi phát hiện ra rằng Dall-E mini dường như tự có ý tưởng về “Crungus”, một cụm từ không rõ nghĩa, rồi liên tục tạo ra hình ảnh một con quái vật trần trụi, cau có. Crungus đủ rõ ràng trong trí tưởng tượng của chương trình để có thể biến hóa đủ kiểu: các người dùng khác nhanh chóng đưa ra các hình ảnh của những tấm thảm Crungus cổ đại, tranh mosaic Crungus theo kiểu La Mã, bức tranh sơn dầu Crungus, ảnh của Crungus ôm lấy các ngôi sao nổi tiếng khác nhau và cả Crungus “gợi cảm”.

Vậy, Crungus là ai hay là cái gì? Người dùng Twitter đã nhanh chóng gọi nó với tên “sinh vật bí ẩn AI đầu tiên”, một sinh vật giống như Bigfoot nhưng trường hợp này là trong địa hạt chưa được khám phá thuộc về trí tưởng tượng của AI. Và đây là câu trả lời rõ ràng nhất mà chúng ta có được vào thời điểm này, do sự hiểu biết hạn chế về cách thức hoạt động của hệ thống. Chúng ta không thể nhìn vào bên trong quá trình ra quyết định của nó bởi vì cách mà các mạng thần kinh này “suy nghĩ” vốn đã không phải như con người. Nó là sản phẩm của một trật tự toán học vô cùng phức tạp của thế giới, trái ngược với cách thức thường hằng, cảm tính mà con người sắp xếp suy nghĩ của họ. Crungus là một giấc mơ xuất hiện từ mô hình thế giới của AI, được tổng hợp từ hàng tỷ tài liệu tham khảo đã thoát khỏi nguồn gốc của chúng và hợp nhất thành một nhân vật thần thoại không bị ràng buộc bởi kinh nghiệm của con người. Điều đó tốt, thậm chí là tuyệt vời – nhưng nó khiến người ta phải đặt câu hỏi, giấc mơ của ai đang được vẽ đây? Hợp chất nào của văn hóa loài người, quan điểm nào về nó, đã tạo ra cơn ác mộng này?

Một trải nghiệm tương tự cũng xảy ra với một nghệ sĩ kỹ thuật số khác đang thử nghiệm các negative prompt (tạm dịch: lời nhắc tiêu cực), một kỹ thuật để tạo ra thứ mà hệ thống coi là đối cực với những gì được mô tả. Khi nghệ sĩ nhập “Brando::-1”, hệ thống trả về thứ gì đó trông hơi giống logo của một công ty trò chơi điện tử có tên là DIGITA PNTICS. Dựa trên góc nhìn của hệ thống này đối với Thế Giới thì kết quả đối lập cho Marlon Brando như vậy dường như cũng hợp lý. Nhưng khi họ kiểm tra xem liệu nó có đi theo hướng khác hay không, bằng cách gõ “DIGITA PNTICS skyline logo::-1”, một điều kỳ lạ hơn đã xảy ra: tất cả các hình ảnh đều mô tả một người phụ nữ trông đáng sợ với đôi mắt trũng sâu và đôi má ửng đỏ, người mà nghệ sĩ được đặt tên là Loab. Sau khi được phát hiện, Loab giữ mãi dáng vẻ bất biến đáng lo ngại đó. Gửi hình ảnh trở lại chương trình, kết hợp với các lời nhắc bằng văn bản khác nhau, tiếp tục tạo lại Loab mới thì hình dáng của nó ngày càng như ác mộng, trong đó kiểu máu me và bạo lực chiếm ưu thế.

Loab, và có thể là cả Crungus, được giải thích như sau: mặc dù rất, rất khó để nắm rõ cách trí tưởng tượng của cỗ máy hoạt động, nhưng có thể hình dung nó có hình dạng như thế nào. Hình dạng này sẽ không bao giờ trơn tru hoặc tròn trịa: thay vào đó, nó sẽ có các điểm trũng và đỉnh cao, dãy núi và thung lũng, các khu vực đầy đủ thông tin và các khu vực thiếu. Những khu vực chứa nhiều thông tin đó tương ứng với các mạng lưới liên kết mà hệ thống “biết” rất nhiều. Ví dụ,các khu vực thông tin liên quan đến khuôn mặt người, ô tô và mèo khá dày đặc, dựa trên sự phân bố các hình ảnh mà người ta tìm thấy trong một cuộc khảo sát trên toàn bộ internet.

Chính những khu vực này là nơi trình tạo hình ảnh AI sẽ sử dụng nhiều nhất khi làm nhiệm vụ. Nhưng có những nơi khác, ít được truy cập hơn, phát huy tác dụng khi negative prompt – hoặc những cụm từ vô nghĩa – được áp dụng. Để đáp ứng những yêu cầu như vậy, cỗ máy phải dựa trên những kết nối bí ẩn hơn, ít chắc chắn hơn và thậm chí có thể suy ra từ tổng thể những gì mà nó biết là đối lập. Ở đây, trong những xứ sở hoang vắng, Loab và Crungus được tìm thấy.

Đó là một lý thuyết xuôi tai, nhưng nó đặt ra một số câu hỏi nhức nhối về lý do tại sao Crungus và Loab trông giống như vậy; tại sao chúng có xu hướng kinh dị và bạo lực, tại sao chúng ám chỉ những cơn ác mộng. Các trình tạo hình ảnh AI, trong nỗ lực tìm hiểu và tái tạo toàn bộ văn hóa hình ảnh của con người, dường như cũng đã tái tạo lại những nỗi sợ hãi đen tối nhất. Có lẽ đây chỉ là một dấu hiệu cho thấy những hệ thống này thực sự rất giỏi trong việc bắt kịp ý thức của con người, cho đến tận cùng nỗi kinh hoàng ẩn sâu trong sự tồn tại: nỗi sợ hãi về sự bẩn thỉu, chết chóc và thối nát của chúng ta. Và nếu vậy, chúng ta cần thừa nhận rằng đây sẽ là những thành phần bền bỉ của cỗ máy mà chúng ta xây dựng theo hình ảnh của chính mình. Không có cách nào thoát khỏi những ám ảnh và mối nguy hiểm như vậy, không có cách điều chỉnh hay kỹ thuật nào để loại bỏ thực tế về thân phận con người. Sự ghê tởm bẩn thỉu của cuộc sống và cái chết sẽ ở lại với chúng ta và cần được giải quyết, giống như hy vọng, tình yêu, niềm vui và sự khám phá.

Điều này quan trọng bởi vì các trình tạo hình ảnh AI sẽ làm những gì mà tất cả các công nghệ trước đây đã làm, nhưng còn tiến xa hơn. Chúng sẽ tái tạo những thành kiến và định kiến của những người sinh ra chúng, chẳng hạn như webcam chỉ nhận ra những khuôn mặt da trắng hoặc hệ thống cảnh sát dự đoán bao vây các khu dân cư có thu nhập thấp. Và họ cũng sẽ nâng cấp trò chơi: tiêu chuẩn về hiệu suất của AI đang chuyển từ phạm vi hẹp của các câu đố và thử thách – chơi cờ vua hoặc cờ vây, hoặc tuân thủ luật giao thông – sang phạm vi rộng lớn hơn nhiều của trí tưởng tượng và sự sáng tạo.

Mặc dù những tuyên bố về “sức sáng tạo” của AI có thể bị thổi phồng – không có sự độc đáo đích thực trong việc tạo hình ảnh, chỉ có sự bắt chước và mô phỏng rất điêu luyện – điều đó không có nghĩa là nó không có khả năng đảm nhận nhiều nhiệm vụ “nghệ thuật” phổ biến từ lâu chỉ dành riêng cho những công nhân lành nghề, họa sĩ minh họa, nhà thiết kế đồ họa đến nhạc sĩ, nhà quay phim và nhất là nhà văn. Đây là một sự thay đổi lớn. AI hiện đang tương tác với trải nghiệm cơ bản về cảm giác, cảm xúc và tâm trạng, và điều này sẽ cho phép nó định hình và ảnh hưởng đến thế giới ở mức độ sâu sắc hơn và thuyết phục hơn.

ChatGPT được OpenAI giới thiệu vào tháng 11 năm 2022 và tiếp tục thay đổi hiểu biết của chúng ta về cách AI và khả năng sáng tạo của con người có thể tương tác với nhau. Được cấu trúc như một chatbot – một chương trình mô phỏng cuộc trò chuyện của con người – ChatGPT có nhiều khả năng hơn là hàn huyên tâm sự. Khi được yêu cầu đúng cách, nó có khả năng viết mã máy tính, giải các bài toán và bắt chước các tác vụ viết thông thường, từ đánh giá sách đến bài báo học thuật, diễn văn đám cưới và hợp đồng pháp lý.

Với những người thấy việc viết email hoặc tiểu luận quá khó khăn thì chương trình này đúng là cứu cánh, cũng như với các trình tạo hình ảnh, nó có thể được sử dụng để thay thế những người kiếm sống từ công việc đó. Nhiều trường học đã thực hiện chính sách cấm sử dụng ChatGPT vì lo ngại sinh viên sẽ sử dụng nó để viết luận, trong khi tạp chí học thuật Nature đã phải công bố chính sách giải thích lý do tại sao chương trình này không thể được liệt kê là tác giả của các bài báo nghiên cứu (nó không thể đưa ra sự đồng ý và chịu trách nhiệm). Nhưng bản thân các tổ chức cũng không tránh khỏi việc sử dụng công cụ này trái lẽ thường: vào tháng 2, Trường Cao đẳng Giáo dục và Phát triển Con người Peabody, thuộc Đại học Vanderbilt ở Tennessee, đã khiến sinh viên bị sốc khi gửi thư chia buồn và lời khuyên sau vụ xả súng trường học ở Michigan. Mặc dù bức thư nói về giá trị của cộng đồng, sự tôn trọng lẫn nhau và sự gắn kết với nhau, nhưng một ghi chú ở cuối nói rằng nó được viết bởi ChatGPT – điều mà nhiều người cảm thấy vừa sai về mặt đạo đức vừa kỳ cục về ứng xử. Hẳn là có nhiều lĩnh vực trong cuộc sống đòi hỏi suy nghĩ sâu sắc hơn nếu muốn sử dụng công nghệ..

Nếu việc thay thế cách thức giao tiếp với số đông của chúng ta bằng ChatGPT là không phù hợp, thì để nó trở thành một loại trợ lý thông minh hướng dẫn chúng ta vượt qua vô số kiến thức sẵn có để tìm kiếm thông tin ta cần cũng khá hợp lý. Microsoft đã sớm đi đầu trong xu hướng này, và cấu hình lại công cụ tìm kiếm Bing thường bị chê bai của mình thành một chatbot hỗ trợ ChatGPT, nhờ vậy mà khiến nó phổ biến hơn. Nhưng bất chấp việc cộng đồng mạng (và báo chí) đổ xô tham khảo ChatGPT về hầu hết mọi vấn đề có thể hiểu được, thì bản thân mối quan hệ của nó với kiến thức cũng lung lay.

Một tương tác cá nhân gần đây với ChatGPT đã diễn ra như thế này. Tôi yêu cầu nó gợi ý một số cuốn sách nên đọc dựa trên một lĩnh vực mới được quan tâm: nền dân chủ đa loài, ý tưởng đưa các sinh vật không phải con người vào quá trình ra quyết định chính trị. Đây gần như là ứng dụng hữu ích nhất của công cụ: “Này, đây là điều tôi đang nghĩ đến, bạn có thể cho tôi biết thêm không?” Và ChatGPT đưa cho tôi một danh sách gồm nhiều cuốn sách có kiến thức sâu về lĩnh vực mới lạ mà tôi quan tâm, và mô tả bằng ngôn ngữ đời thường để thuyết phục tại sao tôi nên đọc chúng. Điều này thật tuyệt vời! Ngoại trừ, hóa ra chỉ có một trong bốn cuốn sách được liệt kê thực sự tồn tại và một số khái niệm mà ChatGPT nghĩ rằng tôi nên khám phá đã được loại bỏ hoàn toàn khỏi tuyên truyền cánh hữu: ví dụ, nó giải thích rằng phong trào “sử dụng khôn ngoan” thúc đẩy quyền động vật, trong khi thực tế đó là một khái niệm tự do, chống lại môi trường thúc đẩy việc mở rộng quyền sở hữu.

Bây giờ, điều này đã không xảy ra vì ChatGPT vốn dĩ là cánh hữu. Đó là bởi vì nó vốn dĩ ngu ngốc. Nó đã đọc hầu hết internet và biết nói sao cho tự nhiên, dù không liên quan gì đến thực tế. Đó không hơn gì những lời trong mộng, và nghe nó nói chuyện cũng thú vị như ai đó nói về giấc mơ. Nó rất giỏi trong việc tạo ra những thứ nghe có vẻ hợp lý, và giỏi nhất trong việc tạo ra những điều sáo rỗng và tầm thường, thứ chiếm phần lớn trong chế độ ăn uống của nó, nhưng nó vẫn không có khả năng liên hệ một cách có ý nghĩa với thế giới thực tế. Hãy nghi ngờ bất cứ ai giả vờ rằng đây là tiếng vang, thậm chí là sự gần đúng của ý thức. (Khi bài báo này sắp được đăng, OpenAI đã phát hành một phiên bản mới của hệ thống hỗ trợ ChatGPT và cho biết nó “ít có khả năng bịa đặt sự thật”.)

Cơn hoang tưởng về Trí thông minh nhân tạo

Niềm tin rằng loại AI này có hiểu biết hoặc có ích là cực kỳ nguy hiểm. Nó có khả năng đầu độc giếng tư duy tập thể và khả năng suy nghĩ của chúng ta. Như đề xuất của các công ty công nghệ, nếu kết quả của các truy vấn ChatGPT được cung cấp dưới dạng câu trả lời cho những người tìm kiếm kiến thức trực tuyến và nếu như một số nhà bình luận đề xuất, ChatGPT được sử dụng trong lớp học như một trợ lý giảng dạy, thì những thông tin sai lệch mà nó đưa ra dần trở thành tiêu chuẩn, xuất hiện một cách hiệu quả giữa chúng ta và các nguồn thông tin hợp pháp, có thể kiểm chứng được, cho đến khi ranh giới giữa hai bên mờ nhạt đến mức không thể nhìn thấy. Hơn nữa, chưa bao giờ mà khả năng tự mình nghiên cứu và đánh giá kiến thức của con người lại cần thiết hơn lúc này, nhất là vì những thiệt hại mà các công ty công nghệ đã gây ra đối với cách thức phổ biến thông tin. Đặt tất cả niềm tin của chúng ta vào giấc mơ về những cỗ máy được lập trình tệ hại sẽ đồng nghĩa với việc từ bỏ hoàn toàn tư duy phản biện.

Công nghệ AI cũng có hại cho hành tinh. Đào tạo một mô hình AI – theo nghiên cứu được công bố vào năm 2019 – có thể thải ra lượng khí thải tương đương hơn 284 tấn carbon dioxide, gần gấp năm lần so với toàn bộ vòng đời của một chiếc ô tô trung bình của Mỹ, bao gồm cả quá trình sản xuất. Lượng khí thải này dự kiến sẽ tăng gần 50% trong vòng 5 năm tới, trong khi hành tinh tiếp tục nóng lên, axit hóa các đại dương, cháy rừng, siêu bão và các loài bị tuyệt chủng. Thật khó để nghĩ ra điều gì ngu ngốc hơn trí tuệ nhân tạo, khi nó được thực hiện trong thời đại hiện nay.

Vậy nên, chúng ta hãy lùi lại một bước. Nếu những hóa thân hiện tại của “trí thông minh” “nhân tạo” quá chán, thì đâu là những lựa chọn thay thế? Liệu một mai có công nghệ truyền thông và sắp xếp thông tin mạnh mẽ nào mà không khai thác, lạm dụng, đánh lừa và thay thế chúng ta không? Vâng, có thể – một khi chúng ta bước ra khỏi mạng lưới quyền lực của công ty đã định hình làn sóng AI hiện tại.

Trên thực tế, đã có những ví dụ về AI được sử dụng để mang lại lợi ích cho các cộng đồng cụ thể bằng cách bỏ qua quyền lực cố hữu của các tập đoàn. Các ngôn ngữ bản địa đang bị đe dọa trên khắp thế giới. Liên hợp quốc ước tính rằng cứ hai tuần lại có một người biến mất, và cùng với sự biến mất đó là hàng thế hệ kiến thức và kinh nghiệm. Vấn đề này, kết quả của chủ nghĩa thực dân và các chính sách đồng hóa phân biệt chủng tộc trong nhiều thế kỷ, càng trầm trọng hơn do sự thống trị ngày càng tăng của các mô hình ngôn ngữ máy học, đảm bảo rằng các ngôn ngữ phổ biến sẽ tăng sức mạnh của chúng, trong khi những ngôn ngữ ít được biết đến hơn không được ai tiếp cận và phát triển.

Ở Aotearoa New Zealand, một đài phát thanh phi lợi nhuận nhỏ tên là Te Hiku Media, phát sóng bằng ngôn ngữ Māori, đã quyết định giải quyết sự khác biệt này giữa việc thể hiện các ngôn ngữ khác nhau trong công nghệ. Kho lưu trữ khổng lồ của nó trong hơn 20 năm phát sóng, đại diện cho một loạt các thành ngữ, tục ngữ và cụm từ độc đáo, nhiều thành phần trong số chúng không còn được sử dụng bởi bất kỳ ai đang sống, nhưng nó đang được số hóa, tuy cần được phiên âm để sử dụng cho các nhà nghiên cứu ngôn ngữ và cộng đồng người Maori. Đổi lại, đài phát thanh đã quyết định đào tạo mô hình nhận dạng giọng nói của riêng mình để có thể “nghe” kho lưu trữ của mình và tạo ra các bản phiên âm.

Trong vài năm tới, Te Hiku Media, sử dụng các công nghệ mã nguồn mở cũng như các hệ thống mà nó tự phát triển, đã đạt được điều gần như không thể: một hệ thống nhận dạng giọng nói có độ chính xác cao cho ngôn ngữ Māori, được xây dựng và sở hữu bởi cộng đồng ngôn ngữ của chính nó. Đây không chỉ là một nỗ lực về phát triển phần mềm. Nhà phá thanh đã liên hệ với mọi nhóm cộng đồng người Maori có thể và yêu cầu họ ghi âm lại những câu nói được viết sẵn để cung cấp một tập hợp các đoạn nói chuyện có chú thích, một điều kiện tiên quyết để đào tạo mô hình của họ.

Có một giải thưởng tiền mặt cho ai gửi nhiều câu nhất – một nhà hoạt động, Te Mihinga Komene, đã ghi lại 4.000 cụm từ – nhưng ban tổ chức nhận thấy rằng động lực lớn nhất cho những người đóng góp là tầm nhìn chung về việc hồi sinh ngôn ngữ trong khi vẫn giữ nó thuộc sở hữu của cộng đồng. Trong vòng vài tuần, nó đã tạo ra một mô hình nhận dạng giọng nói được ghi âm với độ chính xác 86% – quá đủ để bắt đầu sao chép toàn bộ kho lưu trữ của nó.

Thành tựu của Te Hiku Media đã dọn đường cho các nhóm bản địa khác noi theo, với các dự án tương tự hiện đang được thực hiện bởi người Mohawk ở đông nam Canada và người Hawaii bản địa. Nó cũng thiết lập nguyên tắc chủ quyền dữ liệu xung quanh các ngôn ngữ bản địa và mở rộng ra là các dạng kiến thức bản địa khác. Khi các công ty vì lợi nhuận quốc tế bắt đầu tiếp cận những người nói tiếng Māori để xây dựng mô hình của riêng họ, Te Hiku Media đã vận động chống lại những nỗ lực này, lập luận rằng: “Họ đàn áp ngôn ngữ của chúng tôi và đánh bại ông bà của chúng tôi về thể chất, và giờ họ muốn biến ngôn ngữ của chúng tôi thành một dịch vụ và bán lại cho chúng tôi.”

Keoni Mahelona, một người Hawaii bản địa và là một trong những người đồng sáng lập Te Hiku Media, viết: “Dữ liệu là biên giới cuối cùng của quá trình thuộc địa hóa. Tất cả công trình của Te Hiku được phát hành theo cái mà nó đặt tên là Giấy phép Kaitiakitanga, một đảm bảo pháp lý về quyền giám hộ và giám sát để đảm bảo rằng tất cả dữ liệu được đưa vào mô hình ngôn ngữ và các dự án khác vẫn là tài sản của cộng đồng đã tạo ra nó – trong trường hợp này , những người nói tiếng Māori đã đề nghị giúp đỡ – và họ có quyền cấp phép hay không, khi họ cho là phù hợp theo tikanga (phong tục và nghi thức của người Māori) của họ. Bằng cách này, ngôn ngữ Māori được hồi sinh, đồng thời chống lại và thay đổi các hệ thống của chủ nghĩa thực dân kỹ thuật số tiếp tục lặp lại hàng thế kỷ áp bức.

Điều tôi học được về làn sóng “trí thông minh” “nhân tạo” hiện nay là, trí thông minh nằm trong tưởng tượng của các tập đoàn thật ra chẳng hề thông minh. Nếu quan điểm của bạn về thế giới là tối đa hóa lợi nhuận được ưu tiên hàng đầu, và tất cả mọi thứ sẽ được tuân theo tiêu chuẩn giá trị của cổ đông, thì tất nhiên những sáng tạo nghệ thuật, trí tưởng tượng, thẩm mỹ và cảm xúc của bạn sẽ trở nên nghèo nàn một cách đáng tiếc. Chúng ta xứng đáng nhận được những điều tốt hơn từ những công cụ, phương tiện chúng ta sử dụng và cộng đồng chúng ta sống trong đó và ta sẽ chỉ đạt được điều đó khi chúng ta có khả năng tham gia trọn vẹn vào chúng. Và đừng sợ chúng – chúng thực sự không phức tạp lắm đâu. Như huyền thoại khoa học viễn tưởng Ursula K Le Guin đã viết: “Công nghệ là thứ chúng ta có thể học cách làm.”

Bài viết này đã được sửa đổi vào ngày 17 tháng 3 năm 2023, để làm rõ quan điểm của tác giả rằng mặc dù AI ngày nay dựa trên nhiều ý tưởng đã được lý thuyết hóa từ nhiều thập kỷ trước, nhưng điều đó không có nghĩa là những tiến bộ công nghệ gần đây hơn không cần thiết cho việc phát triển các chương trình như ChatGPT.

James Bridle

Yến Nhi dịch

Nguồn: The stupidity of AI | Artificial intelligence (AI) | The Guardian