Học máy (ML) đã xuất hiện về mặt khái niệm từ năm 1959, khi Arthur Samuel , một người tiên phong trong lĩnh vực trò chơi máy tính và trí tuệ nhân tạo, đặt ra thuật ngữ này. Samuel cho biết học máy “mang lại cho máy tính khả năng học mà không cần được lập trình rõ ràng”. Khi còn làm việc tại IBM, ông đã viết một chương trình để chơi Checkers, chương trình này đã trở thành chương trình tự học đầu tiên được biết đến.
Học máy nằm trong phạm vi của trí tuệ nhân tạo (AI). ML cho phép các thuật toán máy tính tự động cải thiện thông qua kinh nghiệm và bằng cách xử lý lượng lớn dữ liệu.
Dữ liệu mẫu, được gọi là dữ liệu đào tạo , được các thuật toán học máy sử dụng để xây dựng mô hình. Dữ liệu đào tạo cho phép các thuật toán ML tìm ra mối quan hệ và mẫu, đưa ra kết luận và xác định điểm tin cậy. ML được sử dụng trong nhận dạng hình ảnh, tính toán bất thường và hành vi mạng, và nhận dạng thư rác.
Giới thiệu về Đào tạo và Suy luận
Đào tạo
Quá trình đào tạo tạo ra các thuật toán học máy, trong đó ứng dụng ML nghiên cứu lượng dữ liệu khổng lồ để tìm hiểu về một kịch bản cụ thể. Đào tạo sử dụng một khuôn khổ học sâu, chẳng hạn như Google TensorFlow , PyTorch hoặc Apache Spark .
Đào tạo là một nỗ lực nhị phân, có/không. Khi bạn đào tạo một mô hình để học cách nhận dạng hình ảnh của một chiếc ô tô, câu hỏi cần trả lời là: Hình ảnh có chứa một chiếc ô tô hay không ? Đào tạo dạy hệ thống tìm kiếm các đặc điểm của một chiếc ô tô: lốp xe, đèn pha, cửa ra vào, cửa sổ, v.v.
Có bốn loại mô hình học tập: có giám sát , không giám sát , bán giám sát và củng cố . Việc lựa chọn mô hình học tập nào để sử dụng phụ thuộc vào mục tiêu mà nhóm của bạn đang cố gắng đạt được.
- Học có giám sát : Phương pháp này yêu cầu tập dữ liệu đầu vào được gắn nhãn hoặc phân loại. Điều này cho phép thuật toán tìm hiểu xem “câu trả lời đúng” nên là gì khi đưa ra dự đoán về dữ liệu đầu vào. Đây là phương pháp phổ biến nhất của ML.
- Bán giám sát : Mô hình này sử dụng một lượng nhỏ dữ liệu được gắn nhãn với phần còn lại của dữ liệu không được gắn nhãn. Vì một tập dữ liệu được gắn nhãn có thể tốn kém để có được, cách tiếp cận này hoạt động tốt khi bạn chỉ có quyền truy cập vào một lượng tối thiểu dữ liệu được gắn nhãn. Bạn có thể sử dụng tập dữ liệu được gắn nhãn nhỏ của mình để hỗ trợ mô hình khi tạo danh mục từ dữ liệu không được gắn nhãn.
- Học không giám sát: Trong mô hình này, tập dữ liệu không được gắn nhãn. Mục tiêu của thuật toán này là kiểm tra cấu trúc hoặc phân phối cơ bản của dữ liệu để khám phá các mẫu ẩn hoặc nhóm dữ liệu mà không cần sự can thiệp của con người. Đây là một dạng phân tích khám phá nhằm tìm ra điểm tương đồng và khác biệt trong thông tin. Nó được gọi là học không giám sát vì không có câu trả lời đúng. Thuật toán được giao nhiệm vụ tìm và trình bày cấu trúc thú vị trong dữ liệu.
- Học tăng cường : Phương pháp này sử dụng thử nghiệm và sai sót để tạo ra đầu ra dựa trên hiệu quả cao nhất của hàm. Đầu ra được tạo ra được phân tích để tìm lỗi và cung cấp phản hồi. Thông tin này được đưa trở lại hệ thống để cải thiện hoặc tối đa hóa hiệu suất của hệ thống. Phương pháp này được sử dụng trong một tiểu thể loại của ML được gọi là học sâu .
Suy luận
Sau khi mô hình học máy được đào tạo, bạn có thể chuyển sang giai đoạn thứ hai, đó là suy luận học máy. Trong quá trình suy luận học máy, các mô hình đã đào tạo được sử dụng để rút ra kết luận từ dữ liệu mới. Ví dụ, trong quá trình suy luận, một nhà phát triển hoặc nhà khoa học dữ liệu có thể cung cấp cho các mô hình ML đã đào tạo một số bức ảnh về ô tô mà nó chưa từng thấy trước đây để khám phá những gì nó có thể suy ra từ những gì nó đã học được.
Học máy: Đám mây so với Tại chỗ
Đào tạo và suy luận khác nhau về yêu cầu xử lý. Đào tạo đòi hỏi bộ xử lý rất mạnh, với CPU và GPU máy chủ cao cấp ; trong khi suy luận thường có thể thực hiện trên thiết bị, thậm chí là điện thoại di động. Bộ lọc Instagram thay đổi ngoại hình của một người là một ví dụ. Điện thoại nhận dạng các đặc điểm trên khuôn mặt của bạn và gợi ý thay đổi.
Đối với đào tạo, không hiếm khi các hệ thống sử dụng hàng chục hoặc thậm chí hàng trăm triệu ví dụ về tập dữ liệu. Câu hỏi sau đó là tích lũy tất cả dữ liệu của bạn ở đâu. Nếu dữ liệu nằm tại cơ sở, thì việc tải dữ liệu lên nhà cung cấp dịch vụ đám mây (CSP) là không hợp lý. Bạn chỉ nên xử lý dữ liệu tại nơi dữ liệu nằm.
Lý lẽ tốt nhất cho việc lưu trữ dữ liệu tại chỗ là tính nhạy cảm của dữ liệu. Tuân thủ quy định là lý do chính để duy trì tại chỗ. Nếu bạn đang xử lý dữ liệu tài chính của khách hàng thì tốt nhất là chuyển dữ liệu lên đám mây được quản lý chặt chẽ, tệ nhất là không được phép.
Tuy nhiên, khi đám mây phát triển, ngày càng có nhiều dữ liệu được thu thập trên đám mây và lưu lại ở đó. Nếu một công ty đã có kho dữ liệu phong phú với nhà cung cấp đám mây, thì việc tải xuống tại chỗ là vô nghĩa. Tuy nhiên, nếu dữ liệu đám mây và kho lưu trữ tại chỗ khớp với các tập dữ liệu, bạn có thể tải xuống dữ liệu một lần và không bao giờ tải xuống nữa.
Nếu một công ty đột nhiên mua hoặc yêu cầu petabyte dữ liệu, việc lưu trữ tại chỗ có nghĩa là mua ổ đĩa hoặc mảng lưu trữ mới, chờ đợi dữ liệu đến, thiết lập, thử nghiệm và triển khai, tất cả có thể mất nhiều tuần. Với đám mây, người ta yêu cầu nhiều dung lượng hơn và nó sẽ thuộc về bạn trong vài phút.
Lưu trữ đám mây cho dữ liệu học máy có nhiều lợi ích và ưu điểm. Ưu điểm chính của đào tạo ML dựa trên đám mây là những gì đám mây mang lại trong mọi vấn đề: khả năng mở rộng theo yêu cầu. Nó chia nhỏ theo nhiều cách:
- Sử dụng tài nguyên linh hoạt : Đám mây là lựa chọn tốt nhất cho nhu cầu tài nguyên phần cứng theo mùa hoặc thỉnh thoảng. Phần cứng đào tạo AI đắt tiền và có thể lên tới hàng triệu đô la. Nếu bạn chỉ thỉnh thoảng cần đến nó, thì khoản đầu tư lớn thường không được sử dụng.
- Truy cập vào phần cứng mới nhất : Các nhà cung cấp dịch vụ đám mây luôn mua và triển khai phần cứng mới nhất. Các cân nhắc về ngân sách có thể hạn chế bạn nâng cấp phần cứng AI tại chỗ thường xuyên như CSP có thể làm.
- Kiến trúc tách rời bị ràng buộc với phần cứng cụ thể : Trong tình huống tại chỗ, một công ty có khả năng bị ràng buộc với phần cứng của mình. Khi công ty nâng cấp phần cứng, họ cũng phải trải qua quá trình viết lại phần mềm lớn. Đào tạo dựa trên đám mây có một lớp trừu tượng từ phần cứng, vì vậy khi phần cứng được nâng cấp, các thuật toán đào tạo có thể không cần phải viết lại.
Đào tạo ML là nơi GPU thực sự tỏa sáng , nhưng phải trả giá bằng phần cứng đắt tiền và hóa đơn tiền điện lớn. Nếu bạn chỉ đào tạo vài lần một năm, thì lý lẽ cho đào tạo dựa trên đám mây là rõ ràng. Bạn có thực sự muốn đầu tư hàng triệu đô la vào các máy chủ dựa trên GPU cao cấp mà bạn có thể sử dụng nửa tá lần một năm không? Đưa dữ liệu của bạn lên đám mây để đào tạo và sử dụng các mô hình bạn tạo trên đám mây hoặc tại cơ sở.
Mẹo cho Machine Learning trên Đám mây
- Khi nào bạn nên thực hiện đào tạo máy học trên đám mây? Nếu dữ liệu của bạn đã có sẵn và nếu bạn thực hiện không thường xuyên đến mức nhà cung cấp dịch vụ đám mây rẻ hơn so với việc mua phần cứng.
- Danh sách sau đây bao gồm một số mẹo bổ sung:
- Tìm một CSP có chính sách bảo mật dữ liệu và tuân thủ quy định phù hợp nhất với lợi ích kinh doanh của bạn.
- Đảm bảo dữ liệu trên nền tảng đám mây nằm trong cùng một trung tâm dữ liệu đám mây với phép tính mà phần mềm sử dụng. Không lý tưởng khi để dữ liệu nằm trong trung tâm dữ liệu Bờ Đông trong khi mọi phép tính được thực hiện ở Bờ Tây.
- Đảm bảo nền tảng ML tách biệt phần cứng khỏi các mô hình. Các nhà khoa học dữ liệu không cần phải lo lắng về việc có phần cứng phù hợp.
- Cập nhật các mô hình ML và chương trình tính toán. Chúng luôn có thể được cải thiện và hiệu quả hơn.
- Nhiều khuôn khổ không yêu cầu tính toán GPU hàng đầu. Tính toán tốt nhất được gọi là tính toán độ chính xác kép hoặc xử lý 64 bit, nhưng đây là phương pháp chậm nhất và do đó tốn kém nhất. Trong nhiều trường hợp, độ chính xác đơn (xử lý 32 bit) hoặc thậm chí độ chính xác một nửa (16 bit) cũng chính xác như vậy và xử lý nhanh hơn rất nhiều.
- Hãy chuyển sang phương án lai nếu bạn có thể. Nếu bạn có phần cứng tại chỗ, hãy bắt đầu từ đó và chuyển lên đám mây nếu cần. Vì chi phí của bạn được đo lường trên đám mây, nên việc thử nghiệm tốn thời gian có thể tích lũy chi phí của bạn nhanh hơn.
Thông tin thêm
Bạn có thể muốn tham khảo các nguồn sau để biết thêm thông tin về chủ đề này. Mặc dù chúng tôi cung cấp với hy vọng rằng chúng sẽ hữu ích, nhưng xin lưu ý rằng chúng tôi không thể đảm bảo tính chính xác hoặc tính kịp thời của các tài liệu được lưu trữ bên ngoài.
- Làm thế nào để di chuyển mô hình học máy của bạn vào sản xuất
- Các trường hợp sử dụng cho các phiên bản GPU Linode
Nguồn : https://www.linode.com/docs/guides/introduction-to-machine-learning-training-and-inference/