Bài #2: Machine learning, deep learning và dữ liệu huấn luyện
Ở bài trước, ta đã phân biệt AI với phần mềm thông thường: phần mềm thường làm theo luật do con người viết sẵn, còn AI hiện đại thường học mẫu từ dữ liệu. Bài này đi vào phần lõi của ý đó: machine learning là gì, deep learning khác gì, và vì sao dữ liệu huấn luyện quyết định rất nhiều đến chất lượng của một hệ thống AI.
Nếu ví AI như một học sinh, thì dữ liệu huấn luyện giống như sách vở, bài tập, ví dụ mẫu và lời sửa sai. Học sinh đọc tài liệu tốt, làm bài đa dạng, được sửa lỗi đúng thì tiến bộ nhanh. Ngược lại, nếu học từ tài liệu sai, thiếu ví dụ hoặc toàn ví dụ lệch, kết quả sẽ yếu dù phương pháp học nghe có vẻ hiện đại.
Mục tiêu bài học
Sau bài này, bạn cần nắm được 5 ý chính: machine learning là cách để máy học từ ví dụ; deep learning là một nhánh dùng mạng nơ-ron nhiều lớp; dữ liệu huấn luyện là nguyên liệu đầu vào; mô hình cần được kiểm tra bằng dữ liệu mới; và dữ liệu sai hoặc lệch có thể làm AI trả lời sai một cách rất tự tin.
Machine learning là gì?
Machine learning, hay học máy, là cách xây dựng hệ thống để máy tính học quy luật từ dữ liệu thay vì chỉ làm theo từng luật viết tay. Ta đưa vào nhiều ví dụ gồm đầu vào và kết quả mong muốn, sau đó thuật toán tìm ra mẫu chung. Khi gặp trường hợp mới, mô hình dùng mẫu đã học để dự đoán.
Ví dụ trong giáo dục: nếu ta có dữ liệu bài làm của nhiều học sinh, hệ thống có thể học rằng học sinh hay sai dạng toán phân số thường cũng dễ sai bài rút gọn biểu thức; học sinh đọc hiểu tiếng Anh yếu có thể mất điểm ở câu hỏi suy luận. Từ đó, hệ thống gợi ý bài ôn phù hợp hơn thay vì chỉ đưa cùng một danh sách bài cho tất cả mọi người.
Machine learning không phải phép màu. Nó cần dữ liệu đủ tốt, mục tiêu rõ, cách đánh giá hợp lý và người thiết kế hiểu vấn đề. Nếu dữ liệu đầu vào sai, thiếu hoặc không đại diện cho thực tế, mô hình rất dễ học sai.
Deep learning là gì?
Deep learning, hay học sâu, là một nhánh của machine learning. Điểm nổi bật của deep learning là dùng các mạng nơ-ron nhiều lớp để học các mẫu phức tạp. Một lớp có thể nhận tín hiệu đơn giản, lớp sau kết hợp chúng thành mẫu lớn hơn, và nhiều lớp chồng lên nhau giúp mô hình xử lý hình ảnh, âm thanh, văn bản hoặc ngôn ngữ tự nhiên tốt hơn.
Hãy tưởng tượng việc nhận diện ảnh mèo. Một lớp có thể học cạnh và đường cong; lớp tiếp theo học tai, mắt, râu; lớp sâu hơn học hình dáng khuôn mặt hoặc tư thế. Với văn bản, các lớp có thể học mối quan hệ giữa từ, cụm từ, câu và ngữ cảnh. Đây là lý do deep learning trở thành nền tảng quan trọng của nhiều hệ thống AI hiện đại, trong đó có mô hình ngôn ngữ lớn.
Với bài toán nhỏ, một mô hình đơn giản đôi khi đủ tốt, dễ giải thích và rẻ hơn. Chọn công nghệ phù hợp không phải lúc nào cũng là chọn thứ phức tạp nhất.
Dữ liệu huấn luyện là gì?
Dữ liệu huấn luyện là tập ví dụ dùng để mô hình học. Với bài toán phân loại email rác, dữ liệu có thể là nhiều email đã được gắn nhãn “rác” hoặc “không rác”. Với bài toán nhận diện ảnh, dữ liệu là ảnh kèm nhãn. Với mô hình ngôn ngữ, dữ liệu thường là lượng văn bản rất lớn để mô hình học cách ngôn ngữ được dùng trong nhiều tình huống.
Dữ liệu tốt không chỉ là dữ liệu nhiều. Dữ liệu tốt cần đúng, đa dạng, được làm sạch và phù hợp với mục tiêu. Nếu bạn muốn AI hỗ trợ học sinh Việt Nam, dữ liệu nên có tiếng Việt chuẩn, ví dụ gần chương trình học, dạng câu hỏi quen thuộc và cả những lỗi học sinh thường mắc.
Train, validation và test khác nhau ra sao?
Khi huấn luyện mô hình, người ta thường chia dữ liệu thành nhiều phần. Phần train dùng để mô hình học. Phần validation dùng để điều chỉnh trong quá trình phát triển. Phần test dùng để kiểm tra cuối cùng trên dữ liệu mô hình chưa từng dùng để học.
Lý do phải tách ra rất đơn giản: một học sinh có thể thuộc lòng đáp án của bộ đề đã luyện nhưng vẫn làm sai đề mới. Mô hình AI cũng vậy. Nếu chỉ kiểm tra trên dữ liệu đã học, ta dễ tưởng rằng mô hình rất giỏi. Kiểm tra trên dữ liệu mới giúp phát hiện mô hình có thật sự học được quy luật hay chỉ ghi nhớ ví dụ.
Ví dụ kỹ thuật đơn giản
Giả sử ta muốn dự đoán học sinh có cần ôn lại chủ đề “phương trình bậc nhất” hay không. Dữ liệu đầu vào có thể gồm số câu làm đúng, thời gian làm bài, số lần xem gợi ý, số lỗi ở dạng chuyển vế và kết quả bài kiểm tra gần nhất. Nhãn kết quả có thể là “cần ôn” hoặc “chưa cần ôn”.
Mô hình học từ nhiều học sinh trước đó. Nếu học sinh mới làm đúng ít câu, dùng nhiều gợi ý và sai nhiều ở bước chuyển vế, mô hình có thể dự đoán rằng bạn ấy nên ôn lại. Đây không phải là AI “hiểu” học sinh như giáo viên, nhưng nó có thể hỗ trợ giáo viên bằng cách phát hiện tín hiệu từ dữ liệu.
Hiểu nhầm thường gặp
Hiểu nhầm 1: Cứ có nhiều dữ liệu là tốt. Nhiều dữ liệu sai có thể làm mô hình tệ hơn. Chất lượng, độ đa dạng và cách gắn nhãn thường quan trọng không kém số lượng.
Hiểu nhầm 2: Deep learning luôn tốt hơn machine learning đơn giản. Deep learning mạnh với dữ liệu lớn và mẫu phức tạp, nhưng không phải bài toán nào cũng cần. Với dữ liệu nhỏ hoặc yêu cầu dễ giải thích, mô hình đơn giản có thể hợp lý hơn.
Hiểu nhầm 3: Mô hình học xong là dùng mãi. Thực tế thay đổi theo thời gian. Cách người dùng hỏi, nội dung học, hành vi gian lận hoặc dạng lỗi mới đều có thể đổi. Mô hình cần được theo dõi, đánh giá lại và cập nhật khi cần.
Bài tập nhanh
Hãy chọn một việc trong đời sống và thử viết ra dữ liệu cần có để AI học việc đó. Ví dụ: muốn AI gợi ý bài học tiếp theo cho học sinh, bạn sẽ cần điểm số, thời gian học, dạng câu sai, chủ đề đã học và phản hồi của giáo viên. Sau đó tự hỏi: dữ liệu nào dễ bị sai, dữ liệu nào cần xin phép, dữ liệu nào không nên thu thập vì quá nhạy cảm?
Ghi nhớ
Machine learning là cách để máy học quy luật từ ví dụ. Deep learning là một nhánh dùng mạng nơ-ron nhiều lớp để học mẫu phức tạp. Dữ liệu huấn luyện là nguyên liệu chính của mô hình AI, nhưng dữ liệu nhiều chưa chắc tốt nếu không đúng, không đa dạng hoặc không phù hợp mục tiêu. Một hệ thống AI đáng tin cần dữ liệu tốt, cách học phù hợp và kiểm tra trên dữ liệu mới.






