Machine learning là gì?

Nội dung bài viết được sự được chấp nhận của tác giả Khiêm Lê

Machine learning là một chủ đề được nhắc đến rất nhiều trong thời kì trở lại đây bên cạnh trí tuệ tự tạo, nó được ứng dụng cực kỳ nhiều ở thời khắc ngày nay trong hồ hết tất cả những nghành. Trong nội dung bài viết hôm nay, tất cả chúng ta sẽ cùng tìm hiểu xem machine learning là gì, các khái niệm cơ bản và vì sao nó lại được ứng dụng rỗng rãi như vậy?

Lưu ý trước lúc đọc bài: mình mới vừa tìm hiểu về machine learning không lâu nên sơ sót là điều không thể tránh khỏi. Các độc giả bài nếu thấy sai nhớ là góp ý dưới phần comment để mình hoàn thiện nội dung bài viết tốt hơn nha!

Machine learning là gì?

Tính đến thời khắc ngày nay, có rất nhiều khái niệm về machine learning, nếu khách hàng nào từng google thì hẳn các các bạn sẽ biết. Tôi đã đọc và tổng hợp lại sau đó rút ra khái niệm như sau:

Machine learning (ML) hay máy học là một nhánh của trí tuệ tự tạo (AI), nó là một nghành nghiên cứu được chấp nhận máy tính có khả năng cải thiện chính bản thân mình chúng dựa trên tài liệu mẫu (training data) hoặc dựa vào kinh nghiệm (những gì đã được học). Machine learning có thể tự dự đoán hoặc quyết định mà không cần được lập trình cụ thể.

Bài toán machine learning thường được chia làm hai loại là dự đoán (prediction) và phân loại (classification). Các bài toán dự đoán như dự đoán giá nhà, giá xe… Các bài toán phân loại như nhận diện chữ viết tay, nhận diện đồ vật…

Tham khảo thêm các vị trí tuyển dụng Machine Learning lương cao cho bạn.

Machine learning Workflow

Machine learning workflow sẽ cho bạn thấy quy trình để thao tác làm việc với machine learning ra sao. Hãy nhìn vào sơ đồ phía bên dưới:

Cụ thể từng bước trong machine learning workflow như sau như sau:

  1. Data collection – thu thập tài liệu: để máy tính có thể học được bạn cần phải có một bộ tài liệu (dataset), bạn cũng có thể tự thu thập chúng hoặc lấy các bộ tài liệu đã được công bố trước đó. Lưu ý là bạn phải thu thập từ nguồn chính thống, có như vậy tài liệu mới chuẩn xác và máy có thể học một cách đúng đắng và đạt hiệu quả lơn hơn.
  2. Preprocessing – tiền xử lý: bước này dùng để làm chuẩn hóa tài liệu, loại bỏ các tính chất không cấp thiết, gán nhãn tài liệu, mã hóa một số đặc trưng, trích xuất đặc trưng, rút gọn tài liệu nhưng vẫn đảm bảo kết quả… Bước này tốn thời kì nhất tỉ lệ thuận với số lượng tài liệu bạn có. Bước 1 và 2 thường chiếm hơn 70% tổng thời kì thực hiện.
  3. Training model – huấn luyện mô hình: bước này là bước bạn huấn luyện cho mô hình hay đó chính là cho nó học trên tài liệu bạn đã thu thập và xử lý ở hai bước đầu.
  4. Evaluating model – xếp loại mô hình: sau thời điểm đã huấn luyện mô hình xong, tất cả chúng ta cần dùng các độ đo để xếp loại mô hình, tùy vào từng độ đo khác nhau mà mô hình cũng được xếp loại tốt hay là không khác nhau. Độ chuẩn xác của mô hình đạt trên 80% được cho là tốt.
  5. Improve – cải thiện: sau thời điểm đã xếp loại mô hình, các mô hình đạt độ chuẩn xác không tốt thì nên cần được train lại, tất cả chúng ta sẽ tái diễn từ bước 3, cho đến lúc đạt độ chuẩn xác như kỳ vọng. Tổng thời kì của 3 bước cuối rơi vào khoảng chừng 30% tổng thời kì thực hiện.

Phân loại Machine learning

Có rất vô số cách thức phân loại machine learning, thông thường thì machine learning sẽ tiến hành phân làm hai loại chính sau:

  • Supervised learning: học có giám sát
  • Unsupervised learning: học không giám sát

Ngoài ra, machine learning còn tồn tại thể phân làm các loại sau:

  • Semi-supervised learning: học bán giám sát
  • Deep learning: học sâu (về một vấn đề nào đó)
  • Reinforce learning: học củng cố/tăng cường

Mình sẽ chỉ đề cập đến cách phân loại phổ quát nhất là phân làm hai nhóm: học có giám sát và học không giám sát.

Supervised learning

Supervised learning là việc cho máy tính học trên tài liệu đã được gán nhãn (label), hay nói cách khác, với mỗi nguồn vào Xi, tất cả chúng ta sẽ sở hữu được nhãn Yi tương ứng.

Unsupervised learning

Unsupervised learning là cho máy tính học trên tài liệu mà không được gán nhãn, các thuật toán machine learning sẽ tìm ra sự tương quan tài liệu, mô hình hóa tài liệu hay đó chính là làm cho máy tính có tri thức, hiểu về tài liệu, từ đó chúng có thể phân loại các tài liệu về sau thành các nhóm, lớp (clustering) giống nhau mà chúng đã được học hoặc giảm số chiều tài liệu (dimension reduction).

Môt số khái niệm cơ bản

Dataset (còn gọi là data corpus hay data stock): là tập tài liệu ở dạng nguyên thủy chưa qua xử lý mà bạn đã thu thập được ở bước data collection. Một dataset sẽ gồm có nhiều data point.

Data point: là vấn đề tài liệu, mỗi điểm tài liệu trình diễn cho một quan sát. Mỗi data point có nhiều đặc trưng hay tính chất khác nhau, được chia làm hai loại: tài liệu số (numerical) và tài liệu không phải số (ví dụ như chuỗi) (non-numerical/categorical). Data point được trình diễn thành dòng tương ứng, mỗi dòng có thể có một hoặc nhiều tài liệu (đó chính là các đặc trưng).

Training data và test data: dataset thường sẽ tiến hành chia làm 2 tập này, training data dùng để làm huấn luyện cho mô hình, test data dùng để tham gia đoán kết quả và xếp loại mô hình. Có bài toán người ta sẽ cho sẵn hai tập này thì bạn không cần thiết phải chia nữa, khi đối chiếu với bài toán chỉ cho từng dataset thôi thì phải chia ra. Thường tỷ lệ giữa tập train và test sẽ là 8/2.

Features vector: là vector đặc trưng, mỗi vector này sẽ trình diễn cho một điểm tài liệu trong dataset. Mỗi vector có n chiều trình diễn các đặc trưng của điểm tài liệu, mỗi đặc trưng là một chiều và phải là tài liệu số. Các mô hình chỉ có thể huấn luyện được từ các vector đặc trưng này, do đó dataset cần phải chuyển về dạng một tập các vector đặc trưng (features vectors).

Model: là các mô hình được dùng để làm training trên một training data theo thuật toán của mô hình đó. Sau đó mô hình có thể dự đoán hoặc đưa ra các quyết định dựa trên những gì chúng đã được học.

Ứng dụng của Machine learning

Machine learning được ứng dụng cực kỳ nhiều trong đời sống hiện nay trong mọi nghành:

  • Tài chính – nhà băng
  • Sinh vật học
  • Nông nghiệp
  • Tìm kiếm, trích xuất thông tin
  • Tự động hóa hóa
  • Robotics
  • Hóa học
  • Mạng máy tính
  • Khoa học vũ trụ
  • Quảng cáo
  • Xử lý tiếng nói tự nhiên
  • Thị giác máy tính

Và còn rất rất nhiều nghành mà machine learning có thể được ứng dụng, machine learning tỏ ra cực kỳ hiệu quả, hơn nhiều con người trong cụ thể các nghành mà chúng được ứng dụng.

Ví dụ đơn giản như dự báo thời tiết, người ta sẽ dùng các phép tính và những quan sát, ghi nhận về thời tiết trong quá khứ để tham gia báo về thời tiết của những ngày kế tiếp. Tuy nhiên sẽ thế nào nếu như có cực kỳ nhiều quan sát được thực hiện, có thể lên mức hàng triệu, hàng tỉ quan sát, lúc đó con người không thể nào thực hiện được việc tính toán trên tài liệu lớn như vậy. Hơn nữa, việc tính toán với tài liệu lớn như vậy có thể gặp sơ sót và dẫn đến kết quả dự đoán bị sai.

Khi này, việc ứng dụng machine learning vào để cho máy tính học các quan sát được ghi nhận trong quá khứ, chúng có thể dự đoán được thời tiết trong tương lai với độ chuẩn xác lơn hơn rất nhiều so với con người dự đoán.

Chính vì sự phổ quát và hiệu quả của machine learning, việc bạn biết và học về machine learning vững chắc là một lợi thế lớn trong thời đại công nghệ 4.0 như ngày này.

Tổng kết

Vậy là trong bài này, tôi đã cùng các bạn tìm hiểu qua về machine learning là gì, các khái niệm cơ bản và ứng dụng của nó. Nếu như bạn thấy nội dung bài viết này hay hoặc có đóng góp về nội dung bài viết, nhớ là phản hồi phía phía bên dưới để giúp mình hoàn thiện nội dung bài viết tốt hơn nha.

Cảm ơn các bạn đã theo dõi nội dung bài viết!

Có thể bạn quan tâm:

  • Machine Learning trên Quora hỏi gì đáp nấy
  • Sự khác nhau giữa AI, Machine Learning và Deep Learning
  • Hiểu sâu về trí tuệ tự tạo & Machine Learning tại Apple

Xem thêm IT Jobs for Developer quyến rũ trên TopDev

You May Also Like

About the Author: v1000