Phân tích dữ liệu là gì? – Giải thích về Phân tích dữ liệu – AWS
Phân tích dữ liệu lớn tuân theo năm bước để phân tích bất kỳ tập dữ liệu lớn nào:
- Thu thập dữ liệu
- Lưu trữ dữ liệu
- Xử lý dữ liệu
- Làm sạch dữ liệu
- Phân tích dữ liệu
Mục Lục
Thu thập dữ liệu
Bước này bao gồm việc xác định nguồn dữ liệu và thu thập dữ liệu từ những nguồn này. Việc thu thập dữ liệu tuân theo quá trình ETL hoặc ELT.
ETL – Trích xuất, chuyển đổi, tải
Trong ETL, trước tiên, dữ liệu đã tạo được chuyển đổi thành định dạng tiêu chuẩn và sau đó được tải vào kho lưu trữ.
ELT – Trích xuất, tải, chuyển đổi
Trong ELT, trước tiên, dữ liệu được tải vào kho lưu trữ và sau đó được chuyển đổi thành định dạng yêu cầu.
Lưu trữ dữ liệu
Dựa trên sự phức tạp của dữ liệu, dữ liệu có thể được di chuyển tới kho lưu trữ như kho dữ liệu hoặc hồ dữ liệu đám mây. Các công cụ nghiệp vụ thông minh có thể truy cập kho lưu trữ đó khi cần.
So sánh giữa hồ dữ liệu và kho dữ liệu
Kho dữ liệu là cơ sở dữ liệu được tối ưu hóa để phân tích dữ liệu quan hệ đến từ hệ thống giao dịch và ứng dụng kinh doanh. Cấu trúc dữ liệu và lược đồ được xác định trước để tối ưu hóa việc tìm kiếm và báo cáo nhanh. Dữ liệu sẽ được dọn dẹp, làm phong phú và biến đổi để đóng vai trò “nguồn thông tin sự thật duy nhất” mà người dùng có thể tin tưởng. Các ví dụ về dữ liệu bao gồm hồ sơ khách hàng và thông tin sản phẩm.
Hồ dữ liệu thì khác vì có thể lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc mà không cần xử lý thêm. Cấu trúc của dữ liệu hoặc lược đồ không được xác định khi thu thập dữ liệu; tức là, bạn có thể lưu trữ mọi dữ liệu mà không cần thận trọng thiết kế, điều này đặc biệt hữu ích khi chưa xác định được mục đích sử dụng dữ liệu trong tương lai. Các ví dụ về dữ liệu bao gồm nội dung truyền thông xã hội, dữ liệu thiết bị IoT và dữ liệu phi quan hệ từ các ứng dụng di động.
Các tổ chức thường đòi hỏi cả hồ dữ liệu và kho dữ liệu để phân tích dữ liệu. AWS Lake Formation và Amazon Redshift có thể đáp ứng nhu cầu dữ liệu của bạn.
Xử lý dữ liệu
Khi đã có sẵn dữ liệu, dữ liệu phải được chuyển đổi và tổ chức để thu được kết quả chính xác từ các truy vấn phân tích. Hiện có các tùy chọn xử lý dữ liệu khác nhau để thực hiện bước này. Việc lựa chọn cách tiếp cận phụ thuộc vào tài nguyên điện toán và phân tích sẵn có để xử lý dữ liệu.
Xử lý tập trung
Toàn bộ quá trình xử lý diễn ra trên một máy chủ trung tâm chuyên dụng lưu trữ tất cả dữ liệu.
Xử lý phân tán
Dữ liệu được phân tán và lưu trữ trên các máy chủ khác nhau.
Xử lý lô dữ liệu
Các phần dữ liệu tích lũy theo thời gian và được xử lý theo lô.
Xử lý theo thời gian thực
Dữ liệu được xử lý liên tục, trong đó, các tác vụ điện toán hoàn thành trong vài giây.
Làm sạch dữ liệu
Quá trình làm sạch dữ liệu bao gồm việc xóa bất kỳ lỗi nào như trùng lặp, không nhất quán, dư thừa hoặc định dạng sai. Bước này cũng được sử dụng để lọc bất kỳ dữ liệu nào không mong muốn đối với quá trình phân tích.
Phân tích dữ liệu
Đây là bước chuyển đổi dữ liệu thô thành thông tin chuyên sâu hữu ích. Sau đây là bốn loại phân tích dữ liệu:
1. Phân tích mô tả
Các nhà khoa học dữ liệu phân tích dữ liệu để nắm bắt những sự kiện đã hoặc đang xảy ra trong môi trường dữ liệu. Đặc trưng của phương pháp này là sự trực quan hóa dữ liệu, chẳng hạn như bằng biểu đồ tròn, biểu đồ cột, đồ thị đường, bảng hoặc văn bản thuyết minh.
2. Phân tích chẩn đoán
Phân tích chẩn đoán là một quá trình phân tích chuyên sâu hoặc chi tiết dữ liệu để nắm được nguyên nhân khiến một sự kiện xảy ra. Đặc trưng của phương pháp này là các kỹ thuật như truy sâu, khám phá dữ liệu, khai thác dữ liệu và đối chiếu. Trong từng kỹ thuật này, nhiều hoạt động và thao tác biến đổi dữ liệu được sử dụng để phân tích dữ liệu thô.
3. Phân tích dự đoán
Phân tích dự đoán sử dụng dữ liệu lịch sử để đưa ra các dự báo chính xác về xu hướng trong tương lai. Đặc trưng của phương pháp này là các kỹ thuật như máy học, dự báo, so khớp mẫu và lập mô hình dự đoán. Trong từng kỹ thuật này, các máy tính được đào tạo để thiết kế ngược các kết nối nhân quả trong dữ liệu.
4. Phân tích theo quy định
Phân tích theo quy định đưa dữ liệu dự đoán lên một tầm cao mới. Phương pháp này không chỉ dự đoán sự kiện gì sẽ xảy ra mà còn đề xuất một phản ứng tối ưu cho kết quả đó. Nó có thể phân tích tác động tiềm ẩn của các lựa chọn khác nhau và đề xuất hướng hành động tốt nhất. Đặc trưng của phương pháp này là phân tích đồ thị, mô phỏng, xử lý sự kiện phức tạp, mạng nơ-ron và công cụ đề xuất.