ChatGPT là gì: Giải thích dễ hiểu cho người không biết công nghệ

Theo Nguyễn Hồng Phúc (Vietnamnet)

Theo dõi Báo Nghệ An trên Google News
0:00 / 0:00
0:00
Với một người dùng bình thường, ChatGPT đơn giản là một trang web để chat, nói chuyện được đủ thứ chủ đề với một con bot ảo.

ChatGPT đang là một trong những từ khoá “hot” nhất hiện này trên mạng xã hội. Tuy nhiên, không phải ai cũng có thể hiểu rõ bản chất của chương trình A.I này là gì. Sau đây Báo VietNamNet xin gửi đến độc giả bài viết của chuyên gia bảo mật Nguyễn Hồng Phúc về ChatGPT, với mục đích giải thích dễ hiểu cho người không biết công nghệ.

Hiểu một cách đơn giản về ChatGPT

Với một người dùng bình thường, ChatGPT đơn giản là một trang web để chat, nói chuyện được đủ thứ chủ đề với một con bot ảo.

Con bot này do công ty OpenAI được Elon Musk thành lập từ năm 2015, ban đầu với một sứ mệnh là "ngăn chặn sự nguy hiểm của A.I".

ChatGPT được tạo nên như thế nào?

ChatGPT là một chương trình máy tính trí thông minh nhân tạo. Chuyên môn thì người ta hay gọi là Model A.I, tiếng Việt là "mô hình dữ liệu trí thông minh nhân tạo", nhưng thực chất nó vẫn là dữ liệu dạng số chạy trên máy tính nên gọi là chương trình cũng không sai.

Chữ Model A.I gồm 2 phần: Model (Mô hình dữ liệu) và A.I (Trí thông minh nhân tạo - artificial intelligence). Chiết tự nghĩa là Trí thông minh đến từ dữ liệu, suy ra là có nhiều dữ liệu thì nó sẽ phát sinh sự thông minh.

Quá trình tạo nên Model A.I là một quá trình gồm những bước: Thu thập dữ liệu, chọn lọc dữ liệu, gắn nhãn dữ liệu để huấn luyện, huấn luyện.

Về căn bản thì việc dạy A.I rất dễ, chẳng hạn như đoạn hội thoại sau:

Câu hỏi: Bạn tên gì ?

Trả lời: Tôi tên ChatGPT

Câu hỏi: VietNamNet là gì?

Trả lời: VietNamNet là một tờ báo điện tử tại Việt Nam.

Xong chúng ta dạy cho con A.I ghi nhớ cái thông tin này (training), rồi lưu cái não đã ghi nhớ của con A.I lại, thành Model A.I (model checkpoint). Sau này khi sử dụng thì load cái não với trí nhớ chứa các thông tin trên (inference) vào máy tính, bạn chỉ việc hỏi câu hỏi tương ứng, thì con A.I sẽ nhớ lại kiến thức đã được dạy và trả lời "y chang những gì nó được dạy"..

Thực ra là hàng chục năm qua A.I bị chuyên biệt hóa vô nhiều công việc cụ thể như: A.I hỗ trợ làm máy bay, A.I mô phỏng chiến đấu, A.I trong game... nhưng hầu như không có công ty lớn nào đầu tư cho A.I mảng ngôn ngữ, mãi cho tới 2017 thì mới có một sự đột phá về công nghệ khiến cho việc huấn luyện A.I hiệu quả hơn đột biến, nhất là A.I ngôn ngữ.

Ngôn ngữ cụ thể là chữ viết là thành tựu kiến tạo nên văn minh loài người, loài người chứa kiến thức của mình trong chữ viết, hiểu ngôn ngữ (chữ viết) là hiểu được kiến thức của loài người, đây chính là điểm cốt lõi tạo nên A.I ngôn ngữ, mà trước 2017 con người rất khó khăn để khiến máy tính hiểu được ý nghĩa của một câu có nghĩa.

Vậy năm 2017 có gì?

Tháng 8 năm 2017 các nhà khoa học tại Google, cụ thể là đơn vị Google Brain, đơn vị nghiên cứu chuyên sâu về A.I của Google từ 2011, đã phát minh ra một thuật toán gọi là Transformer (tên thuật toán rất giống bộ phim nổi tiếng trong lĩnh vực điện ảnh là Đại chiến Robot).

Thuật toán Transformer rất đột phá, cụ thể là đột phá về huấn luyện A.I ngôn ngữ. Trước khi có thuật toán này, con người muốn dạy A.I, thì phải làm chuyện tạo tập dữ liệu huấn luyện sẵn theo cặp câu hỏi-trả lời (labeling data) như ở trên đã đề cập, và máy móc thực ra chỉ ghi nhớ cặp câu hỏi-trả lời chứ không "hiểu" được ý nghĩa của câu văn đó, khác nhau rất lớn giữa học vẹt và học hiểu.

Dễ hiểu hơn nữa là sau năm 2017 chúng ta chỉ việc đổ dữ liệu chữ vào càng nhiều càng tốt, máy tính sẽ tự tìm hiểu cái thứ mình đổ vào nó nghĩa là gì thay vì mình phải chỉ cho chúng nó ý nghĩa.

Trích nguyên văn trong tài liệu công bố về Transformer của google: "With transformers, computers can see the same patterns humans see" (Với transfomer, máy tính có thể nhìn thấy những mẫu như con người nhìn thấy).

Google rất nhân văn khi công bố tài liệu chi tiết về thuật toán Transformer công khai cho tất cả mọi người truy cập được. Đồng thời cung cấp quyền sử dụng mở (Open-Source) đối với thuật toán này. Thế là toàn bộ giới khoa học làm A.I được hưởng lợi từ phát minh của Google. Trong đó có OpenAI, một công ty thành lập năm 2015 và không có thành tựu gì nổi bật cho tới sau 2017.

Sau khi Google công bố Transformer, thì sau đó vài tháng những con A.I ngôn ngữ đầu tiên dựa trên thuật toán mới này ồ ạt ra đời. Tháng 1/2018 thì OpenAI cho ra đời con A.I đầu tiên dựa trên Transformer là GPT-1, họ ứng dụng rất nhanh, nhanh hơn cả chính Google.

GPT viết tắt của Generative Pre-trained Transformer nghĩa là "chương trình Sinh Chữ đã được huấn luyện theo phương pháp Transformer"

Con A.I GPT này được tạo ra với mục đích chính là để "Sinh Chữ". Cụ thể là bạn sẽ chơi trò nối từ với nó, bạn viết một câu, nó sẽ đọc câu đó rồi dựa trên kiến thức nó đang lưu trữ trong bộ nhớ của nó mà "sinh ra chữ" nối tiếp cái câu mà bạn viết.

Chẳng hạn:

Bạn nhập: Việt Nam là

ChatGPT: Việt Nam là một nước nằm ở khu vực Đông Nam Á...

Đây chính là cái thứ trông có vẻ "vi diệu" của việc: Bạn chat một câu với ChatGPT và nó nói lại được một câu. Thực chất không phải là nó đang trả lời bạn mà là nó đang chơi nối từ bằng cách "Sinh Chữ" để nối tiếp ý nghĩa của câu mà bạn nhập vô chat với nó.

ChatGPT là gì: Giải thích dễ hiểu cho người không biết công nghệ ảnh 1

GPT-1 chính là đời đầu của ChatGPT. GPT-1 này là một con A.I khá là bé, bé đúng nghĩa về kích thước cũng như độ phức tạp.

Trong thế giới A.I Ngôn Ngữ thì người ta đo độ phức tạp - tương ứng với mức độ "thông minh" của con A.I - bằng một đơn vị là Hyper Parameters - Siêu Tham Số, cái khái niệm này có thể giải thích nôm na là con A.I này hiểu được ý nghĩa của tất cả các văn bản được dùng để dạy nó sâu tới bao nhiêu tầng ý nghĩa.

Để có được những câu trả lời như thế này, các khoa học gia tại OpenAI thu thập 1 lượng lớn văn bản chữ viết của con người

Để huấn luyện con A.I GPT này thì các khoa học gia tại OpenAI thu thập 1 lượng lớn văn bản chữ viết của con người, đa phần là từ Wikipedia, bách khoa toàn thư, các tờ báo lớn và công khai, khối lượng đâu đó khoảng hàng trăm GB vài trăm triệu văn bản. Họ thu thập xong thì làm sạch, chọn lọc nội dung. Rồi đem các văn bản đó cho con A.I đọc, bắt nó đọc rất rất nhiều lần, mỗi lần đọc cái khối dữ liệu đó nó lại nhìn thấy một tầng ý nghĩa đằng sau những con chữ đó, càng nhiều lần thì càng nhiều tầng ý nghĩa.

Các con A.I được huấn luyện đạt tới mức độ hiểu sâu sắc ngôn ngữ chữ viết của con người, dẫn tới một vấn đề rất nghiêm trọng mà đến hiện tại chưa một nhà khoa học nào làm về A.I có giải pháp.

Tính "Đúng" hay "Sai" (True or False). A.I không thể hiểu được đâu là "Đúng" hay "Sai".

A.I có thể nhìn thấy được rất nhiều tầng ý nghĩa của một câu, nhưng không thể "hiểu được ý nghĩa đó đúng hay là sai". Vì đúng - sai là tương đối, đối với con người nó còn mong manh và gây tranh cãi thậm chí đánh nhau giữa con người và con người.

Bên cạnh đó, lượng dữ liệu văn bản rất lớn mà các nhà khoa học tại OpenAI thu thập để huấn luyện cho A.I không phải tất cả đều thiên hướng "đúng" và chứa những thông tin "đúng" với chuẩn mực của xã hội con người, do lượng dữ liệu đã quá lớn ngoài khả năng chọn lọc của họ rồi.

Ví dụ họ có thể thu thập phải những văn bản ghi là trái đất tròn, đồng thời cũng có thể thu thập trúng những văn bản ghi trái đất phẳng. Dữ liệu, chúng chứa cả thông tin đúng lẫn sai trong đó. Rồi khi A.I đọc đi đọc lại các văn bản đó để tìm các tầng ý nghĩa thì nó cũng đồng thời tìm ra luôn các ý nghĩa "đúng" lẫn ý nghĩa "sai", nhưng A.I không có ý thức để nhận biết được ý nghĩa nào - thông tin nào là đúng và ý nghĩa - thông tin nào là sai. A.I chỉ đơn thuần là ghi nhớ hết tất cả. Đến khi sau này được hỏi, nó cũng chỉ đơn thuần trả lời lại từ trí nhớ của nó những thông tin đó, không phân biệt đúng - sai.

Các công ty như Google, Facebook, IBM, Microsoft đã nhiều lần công bố các con A.I Ngôn Ngữ đột phá trong việc trả lời câu hỏi con người nhập vào, nhưng lại mau chóng xóa luôn con A.I đó đi. Bạn có thể search thấy các bài báo về việc này trên internet từ các tờ báo lớn. Hầu như là do con A.I đó trả lời một số câu hỏi bị thiên hướng tới một ý nghĩa "Sai" không thể chấp nhận được về mặt chuẩn mực xã hội hiện tại của con người như tôn trọng giới tính, tôn trọng tôn giáo, tôn trọng sắc tộc, tính chính xác của sự kiện đã xảy ra, các chân lý mà con người đã đồng thuận là đúng...

Các công ty lớn đều tuân theo chuẩn mực về độ chính xác về thông tin, họ đánh giá A.I chưa thể giải quyết được việc nhận thức Đúng - Sai thì tốt nhất không nên đi ra công chúng.

ChatGPT là gì: Giải thích dễ hiểu cho người không biết công nghệ ảnh 2

GPT-3 cũng như vậy, nó cũng tạo ra những đoạn văn vi phạm tới chuẩn mực về tính "Đúng- Sai" của con người, thậm chí sai đến nỗi không thể chấp nhận được.

GPT-3 đang trên đà trở nên phổ dụng thì đại dịch Covid-19 bùng nổ toàn cầu, tình hình bệnh dịch càng lúc càng căng từ giữa năm 2020, dòng thông tin đại dịch nhấn chìm luôn thông tin về GPT-3.

Con A.I GPT-3 và OpenAI bị công chúng quên lãng cho tới cuối năm 2022. OpenAI quyết định làm một chương trình marketing xem có vực dậy được hứng thú với A.I Ngôn Ngữ nữa không ?

Vậy là họ chỉnh sửa con A.I GPT-3 thành ChatGPT, làm cho nó dễ dùng hơn, thay vì đến với hình dạng là một trang web mà người ta gõ chữ vô, chỉnh sửa tham số, rồi nhận lại một đoạn văn nối từ, thì ChatGPT đến với hình dạng của một chương trình Chat, với một khung chat để nhập câu hỏi, con A.I ChatGPT lại chơi trò Sinh Chữ nối từ với câu hỏi đó, nhưng dưới dạng một câu trả lời.

Tóm lại công thức thành công của ChatGPT trong 01 tháng qua: Một con A.I Ngôn Ngữ được huấn luyện đủ sâu để sinh ra những câu chữ có ý nghĩa đủ thuyết phục người đọc + sự bất chấp đạo đức của một công ty công nghệ A.I + UI/UX phù hợp (Chat) = ChatGPT.

A.I có thể nhìn thấy được rất nhiều tầng ý nghĩa của một câu, nhưng không thể "hiểu được ý nghĩa đó đúng hay là sai".

(Chuyên gia Nguyễn Hồng Phúc)

Tin mới

Huy chương Vàng

Tấm Huy chương Vàng Khoa học kỹ thuật quốc tế của thầy và trò trường nội trú tỉnh

(Baonghean.vn) - Năm 2023, lần đầu tiên học sinh Nghệ An vinh dự được chọn tham dự Cuộc thi Khoa học kỹ thuật phát minh sáng chế quốc tế INTARG tổ chức tại Ba Lan và xuất sắc giành được Huy chương Vàng và giải Đặc biệt. Người đem về chiến thắng là các học sinh lớp 10 của Trường THPT DTNT tỉnh.
Khi các tuyển thủ đồng loạt lên tiếng

Khi các tuyển thủ đồng loạt lên tiếng

(Baonghean.vn) - Hai vòng đấu mới nhất V-League 1 và V-League 2, Giải hạng Nhì quốc gia mới khởi tranh vòng 1…đang cung cấp những “dữ liệu” mới nhất về sự trở lại, lên tiếng của hàng loạt tuyển thủ quốc gia và các ứng viên mới trước đợt tập trung của Đội tuyển Việt Nam vào đầu tháng 6 tới đây.
Các bệnh nhân trong vụ ngộ độc rượu ngâm dược liệu xảy ra ở Quỳnh Lưu. Ảnh: Tư liệu

Báo động về tình trạng tự ý dùng thuốc, dược liệu để điều trị bệnh

(Baonghean.vn) -  Đã có rất nhiều người dân bị ngộ độc phải nhập viện cấp cứu, thậm chí tử vong do tự ý sử dụng thuốc Nam, thuốc Đông y để điều trị bệnh; do sử dụng rượu ngâm dược liệu không rõ nguồn gốc; tin lời các “thần y” trên mạng internet nên sử dụng các sản phẩm thuốc hoàn tán tự chế…
Bệnh viện Sản Nhi Nghệ An tổ chức Hội thi Sản Nhi Nghệ An Kid's Got Talent năm 2023. Ảnh Đình Tuyên.jpg

Không khí Ngày Quốc tế thiếu nhi nơi bệnh viện

(Baonghean.vn) - Những ngày này, các bệnh viện trong tỉnh đang có nhiều hoạt động hướng tới trẻ em. Các y, bác sĩ và các nhà hảo tâm đã thăm hỏi, tặng quà và tổ chức các hoạt động vui chơi giúp cho các cháu bệnh nhi được hòa chung với không khí vui tươi, phấn khởi cùng thiếu nhi cả nước…
Tình báo Anh xem Nga là 'mối đe dọa lớn nhất'

Tình báo Anh xem Nga là 'mối đe dọa lớn nhất'

(Baonghean.vn) - Trong một lần xuất hiện hiếm hoi trước công chúng tại một sự kiện của Viện nghiên cứu RUSI ngày 30/5, người đứng đầu Cơ quan Tình báo quốc phòng (DI) Anh, ông Adrian Bird cho biết, Moskva sẽ vẫn là mối đe dọa chính đối với London cho đến cuối thập kỷ này. 
Đại biểu Quốc hội đoàn Nghệ An: Nhân dân đang trông đợi những việc cần làm, phải làm khẩn trương hơn, quyết liệt hơn của hệ thống chính trị

Đại biểu Quốc hội đoàn Nghệ An: Nhân dân đang trông đợi những việc cần làm, phải làm khẩn trương hơn, quyết liệt hơn của hệ thống chính trị

(Baonghean.vn) - Đại biểu đoàn Nghệ An Đặng Xuân Phương cho rằng: Điều cấp bách, thuyết phục nhất lúc này là đường lối giải quyết đúng đắn bài toán kinh tế đất nước, làm sao để việc thực thi các chính sách kinh tế - xã hội phải được cân nhắc hợp lý giữa các mục tiêu ngắn hạn và dài hạn.
Ca sĩ Đinh Trang: Lấp lánh ánh Sao Mai

Ca sĩ Đinh Trang: Lấp lánh ánh Sao Mai

(Baonghean.vn) - Đinh Trang nổi lên từ cuộc thi Sao Mai danh giá nhờ tài năng thực sự với chất giọng opera hiếm có. Kể từ đó, người ta thấy ngôi sao mai lấp lánh này xuất hiện trên các sân khấu lớn nhỏ, những ca khúc đậm chất nhạc thính phòng được cô chuyển tải hết sức mượt mà, thiết tha.
Trận đấu giữa CAHN vs Khánh Hoà được bù giờ đến 11 phút.

Vì sao trận Công an Hà Nội vs Khánh Hòa được bù giờ… 11 phút?; Kết quả Bình Định 1-1 Hải Phòng: Trận hòa đẳng cấp cao ở V.League

(Baonghean.vn) - Trận đấu giữa Công an Hà Nội vs Khánh Hòa ở loạt đấu sớm vòng 10 V.League 2023 lại được bù giờ đến 11 phút; Hòa chung cuộc 1-1 với 2 hiệp đấu chất lượng được chia đều cho cả đôi bên, Bình Định tạm thời xếp thứ 4. Đó là thông tin thể thao nổi bật trong 24h qua.