Sao lưu và lưu trữ có phải là một?

Sao lưu dữ liệu nghe có vẻ là một công việc gì đó cao cấp và khó khăn. Và có lẽ bạn còn đang không hiểu sao lưu dữ liệu là cái gì, và nếu đúng như vậy thì trong trường hợp này, lỗi là do tôi đã không nói rõ chứ không phải do bạn đâu. Vì sự thật là, nó không hề phức tạp như bạn nghĩ!

Các hoạt động sao lưu và lưu trữ dữ liệu đều hàm chứa những chức năng riêng biệt. Sẽ có những rắc rối và thậm chí cả những vấn đề về mặt pháp lý xảy ra nếu người sử dụng không nắm rõ được bản chất của chúng.

Sao lưu là gì?

Nói một cách đơn giản nhất, sao lưu dữ liệu chính là tạo ra một bản sao của chính dữ liệu đó. Chọn bất kỳ một tập tin nào trong hệ thống của bạn, nhấn Ctrl C để sao chép nó, sau đó nhấn Ctrl V để dán, tạo ra một bản sao chính xác của tập tin đó. Dù mục đích để làm gì đi nữa, thì với hành động vừa rồi, bạn đã tạo một bản sao lưu của tệp đó.

Sao lưu là bản sao của dữ liệu, được tạo ra với mục đích khôi phục lại dữ liệu đó trong trường hợp chúng bị hư hại hoặc mất mát. Dữ liệu gốc sẽ không bị xóa đi sau khi quá trình sao lưu được thực hiện.

Các ví dụ thường thấy của hoạt động sao lưu dữ liệu có thể kể đến như các tệp trên laptop hay máy tính để bàn của bạn được sao lưu mỗi đêm. Hay việc tất cả ảnh trong iPhone của bạn đều được sao chép sang iCloud phòng khi bạn gặp vấn đề với chiếc điện thoại của mình.

Chúng ta cũng thường sao lưu các máy chủ tệp (các dữ liệu phi cấu trúc) và các cơ sở dữ liệu (dữ liệu có cấu trúc). Một bản sao lưu có thể tập trung vào các dữ liệu, tương tự như một kho chứa cơ sở dữ liệu. Hoặc cũng có thể tập trung vào hệ điều hành của máy chủ, tương tự như một bản sao lưu ảo hóa. Hoặc cũng có thể tập trung vào cả dữ liệu cũng như hệ điều hành với file .VMDK của phần mềm VMware.

Về bản chất, định nghĩa của hoạt động sao lưu gắn liền với mục đích mà nó được tạo ra và mục đích của một mỗi bản sao lưu luôn giống nhau: Nhằm khôi phục dữ liệu trong các trường hợp cần thiết. Giả sử một hệ thống đĩa dự phòng RAID 6 có thể bị lỗi ở ba đĩa và các dữ liệu trong đĩa cần phải được khôi phục. Hay một hoặc một số máy ảo VMware, Hyper-V và AWS EC2 của bạn bị ai đó vô tình hoặc cố ý xóa mất, và bạn cần phải khôi phục lại chúng. Cũng có thể một ngày nào đó bạn chợt phát hiện ra rằng tất cả các tệp tin của mình đã bị ransomware mã hóa. Nếu không sở hữu một hệ thống sao lưu tốt, bạn sẽ chỉ có một lựa chọn duy nhất đó là rút hầu bao để chuộc lại dữ liệu của chính mình. Nhưng ngược lại, với một hệ thống sao lưu hiệu quả, bạn hoàn toàn có thể tìm ra được gốc rễ của phần mềm tống tiền, vô hiệu hóa nó, sau đó khôi phục lại toàn bộ dữ liệu của mình mà không phải mất một đồng nào cho các hacker.

Quan trọng nhất, sao lưu thật sự không chỉ là di chuyển các tệp tin lên một phương tiện lưu trữ khác – như một ổ đĩa ngoài – và hy vọng nó sẽ mãi an toàn ở đó. Bạn phải thực hiện nhiều bản sao ở nhiều nơi. Rốt cuộc, nếu tất cả các bản sao lưu của bạn nằm trên một ổ cứng ngoài và tự nhiên nó bị hỏng, tất cả các bản sao lưu của bạn cũng đều sẽ biến mất theo.

Nói chung, có hai loại lưu trữ cho dữ liệu backup: sao lưu cục bộ và sao lưu trực tuyến. Mỗi cách đều có ưu và nhược điểm riêng, có nghĩa là chúng đều quan trọng theo những cách khác nhau. Lý tưởng là bạn nên sử dụng cả hai phương pháp.

Các bản sao lưu cục bộ được lưu trữ ở nơi bạn có quyền truy cập thực. Ví dụ như máy tính để bàn, máy tính xách tay, ổ cứng gắn ngoài, hoặc thậm chí là một ổ USB. Sao lưu cục bộ có ưu điểm là giúp bạn có khả năng truy cập dữ liệu vào mọi lúc và bạn hoàn toàn có thể kiểm soát chúng.

Thêm vào đó, phương pháp lưu trữ cục bộ thường có dung lượng lớn hơn nhiều so với phương pháp lưu trữ trực tuyến. Nhược điểm là nếu bạn muốn có nhiều không gian hơn, bạn sẽ cần đầu tư vào các ổ đĩa lưu trữ mới và có thể khiến bạn tốn khá nhiều tiền.

Sao lưu trực tuyến là lưu trữ ở đâu đó trên Internet, thường là trong một trung tâm dữ liệu mà bạn sẽ không bao giờ có thể truy cập vào đó theo cách cơ học. Đối với những người dùng thông thường như bạn và tôi, các bản sao lưu trực tuyến thường sẽ được lưu giữ trong các tài khoản lưu trữ trên mây (Cloud) như Dropbox hoặc Google Drive, điều này tiện lợi ở chỗ bạn có thể truy cập chúng từ bất cứ đâu.

Nhưng có hai nhược điểm. Một là, tải các tệp tin lên Internet chậm hơn nhiều so với việc chuyển trực tiếp vào ổ đĩa, điều này có thể gây phiền toái nếu bạn muốn sao lưu những file lớn. Hai là, dữ liệu của bạn phụ thuộc vào dịch vụ lưu trữ trực tuyến. Nếu có sự vi phạm, dữ liệu của bạn sẽ dễ bị đánh cắp và bạn sẽ hoàn toàn bất lực, không thể làm được bất cứ điều gì để lấy lại nó.

Đề xuất của riêng tôi là sử dụng bộ nhớ cục bộ cho dữ liệu nhạy cảm và các bộ sưu tập lớn. Đối với những thứ khác, tôi nghĩ rằng lưu trữ trên Cloud là khá tốt.

Lưu trữ là gì?

Bản lưu trữ là bản sao dữ liệu được tạo ra phục vụ mục đích tham khảo. Và bản gốc thường bị xóa sau khi lưu trữ mặc dù không bắt buộc.

Nếu một bản sao lưu dùng để khôi phục lại hiện trạng của dữ liệu, thường là trạng thái dữ liệu của ngày trước đó, thì một bản lưu trữ có thể được sử dụng với nhiều mục đích hơn. Một trong những chức năng phổ biến nhất của một bản lưu trữ đó là giúp người dùng tìm thấy tìm thấy những dữ liệu được lưu trữ trong khoảng thời gian dài trước đây. Đó có thể là một tập tin độc bản chứa thông tin quan trọng, chẳng hạn như một hợp đồng được ký từ vài năm trước. Hay cũng có thể là một nhóm các dữ liệu có liên quan đến nhau, chẳng hạn như toàn bộ các bản vẽ cấu trúc của một tòa nhà vừa bị sập. Hoặc các bản vẽ CAD về các tiện ích mà công ty của bạn đã từng sử dụng, chúng tưởng như đã lỗi thời nhưng bỗng nhiên lại phù hợp trở lại.

Cũng có thể là các dữ liệu liên quan như toàn bộ email/tệp tin có thể dùng chứng minh một vấn đề nào đó. Chẳng hạn như một nhân viên tin rằng họ đã được phép làm đêm ngoài giờ, nhưng sau đó bị sa thải vì lý do đó. Trong vụ kiện, một cuộc điều tra điện tử có thể được tiến hành liên quan đến các email đến và đi có chứa từ khóa “làm đêm ngoài giờ”, “sau giờ làm”, hay tên của công ty mà các nhân viên đó đang làm thêm ngoài ca. Ngoài ra, một người nào đó muốn chứng minh rằng anh ta đang làm việc trong một môi trường không thân thiện và muốn được xem toàn bộ email từ một nhóm những người quản lý cụ thể có chứa những từ ngữ nhất định mô tả cho điều đó.

Các vấn đề nêu trên sẽ được giải quyết nếu bạn có trong tay một kho lưu trữ. Bạn có thể sở hữu bản lưu trữ các đơn hàng, hóa đơn hoặc hợp đồng mà công ty của bạn đã thực hiện. Bạn có thể lưu trực tuyến các hợp đồng và đơn đặt hàng hiện tại, nhưng việc giữ tất cả chúng trong kho lưu trữ sẽ giúp bạn có chỉ mục cụ thể để truy xuất đơn đặt hàng và hợp đồng thông qua nội dung của các đơn đặt hàng đó. Bạn cũng có thể lưu trữ tất cả các email mà công ty của bạn gửi hoặc nhận.

Một số hệ thống lưu trữ email có thể lọc từ máy chủ các email đã được lưu trữ có kích cỡ lớn hơn một kích cỡ nhất định và/hoặc chưa được truy cập trong một khoảng thời gian hơn n ngày. Điều này không chỉ giúp tiết kiệm tài nguyên lưu trữ và giúp giữ cho hệ thống email gọn gàng hơn mà còn khiến cho việc sao lưu trở nên dễ dàng hơn.

Khôi phục và truy xuất    

Ngay cả khi mục đích của một kho lưu trữ là để tiết kiệm không gian trên kho lưu trữ chính, thì việc có thể thực hiện truy xuất so với khôi phục là vô cùng cần thiết đối với mỗi kho lưu trữ. Hệ thống sao lưu giúp khôi phục và hệ thống lưu trữ giúp truy xuất.

Dữ liệu được khôi phục thường là một tập tin đơn lẻ, máy chủ hoặc cơ sở dữ liệu. Còn thông tin được truy xuất thường là một tập hợp các dữ liệu liên quan, có thể có hoặc không được lưu trữ trên cùng một máy chủ hoặc thậm chí ở cùng một định dạng. Việc khôi phục cũng chỉ được áp dụng cho một thời điểm nhất định chẳng hạn như khôi phục cơ sở dữ liệu trở về với hiện trạng của ngày hôm trước. Còn việc truy xuất được áp dụng cho một khoảng thời gian, ví dụ như truy xuất tất cả các email trong ba năm qua.

Để phục hồi dữ liệu, bạn cần phải nắm được vị trí các tập tin/dữ liệu được sao lưu, nếu không bạn không thể tìm thấy chúng. Ngoài ra bạn cũng cần phải biết được tên của máy chủ mà cơ sở dữ liệu hoặc thư mục mà dữ liệu đó được lưu, tên của tập tin hoặc bảng biểu mà bạn muốn khôi phục và ngày cuối cùng nó được mở.

Trong khi đó việc truy xuất hoàn toàn không cần đến các thông tin trên, người dùng chỉ cần tất cả các tệp hoặc bản ghi khớp với một tập hợp các tham số, hoặc toàn bộ email chứa các cụm từ nhất định hoặc được gửi từ một người cụ thể trong vòng ba năm qua.