Dữ liệu là gì? Dữ liệu máy tính là gì? Tầm quan trọng của dữ liệu?
1. Dữ liệu là gì?
– Dữ liệu (Data) được sử dụng trong nghiên cứu khoa học , quản lý doanh nghiệp (ví dụ: dữ liệu bán hàng, doanh thu, lợi nhuận, giá cổ phiếu ), tài chính , quản trị (ví dụ: tỷ lệ tội phạm , tỷ lệ thất nghiệp , tỷ lệ biết chữ ) và hầu như trong mọi hình thức hoạt động tổ chức khác của con người ( ví dụ, điều tra dân số về số lượng người vô gia cư bởi các tổ chức phi lợi nhuận). Dữ liệu được đo lường , thu thập, báo cáo và phân tích , đồng thời được sử dụng để tạo trực quan hóa dữ liệu như đồ thị, bảng hoặc hình ảnh. Dữ liệu là một khái niệm chung đề cập đến thực tế là một số thông tin hoặc kiến thức hiện có được biểu diễn hoặc mã hóa ở một số hình thức phù hợp để sử dụng hoặc xử lý tốt hơn .
– Dữ liệu thô (“dữ liệu chưa được xử lý”) là tập hợp các số hoặc ký tự trước khi được các nhà nghiên cứu “làm sạch” và sửa chữa. Dữ liệu thô cần được chỉnh sửa để loại bỏ các yếu tố ngoại laihoặc các lỗi nhập dữ liệu hoặc dụng cụ rõ ràng (ví dụ: đọc nhiệt kế từ một vị trí Bắc Cực ngoài trời ghi nhiệt độ nhiệt đới). Quá trình xử lý dữ liệu thường xảy ra theo từng giai đoạn và “dữ liệu đã xử lý” từ một giai đoạn có thể được coi là “dữ liệu thô” của giai đoạn tiếp theo. Dữ liệu hiện trường là dữ liệu thô được thu thập trong môi trường ” tại chỗ ” không được kiểm soát . Dữ liệu thực nghiệm là dữ liệu được tạo ra trong bối cảnh của một cuộc điều tra khoa học bằng cách quan sát và ghi lại.
– Dữ liệu thường được coi là khái niệm trừu tượng nhất, thông tin là ít nhất và tri thức là khái niệm trừu tượng nhất. Theo quan điểm này, dữ liệu trở thành thông tin bằng cách diễn giải; Ví dụ: độ cao của Đỉnh Everest thường được coi là “dữ liệu”, một cuốn sách về đặc điểm địa chất của Đỉnh Everest có thể được coi là “thông tin” và sách hướng dẫn của người leo núi có chứa thông tin thực tế về cách tốt nhất để đạt đến đỉnh của Đỉnh Everest có thể được coi là “kiến thức” .
– “Thông tin” mang nhiều ý nghĩa khác nhau, từ cách sử dụng hàng ngày đến sử dụng kỹ thuật. Tuy nhiên, quan điểm này cũng đã được lập luận để đảo ngược cách dữ liệu xuất hiện từ thông tin và thông tin từ tri thức. Nói chung, khái niệm thông tin liên quan chặt chẽ đến các khái niệm về ràng buộc, giao tiếp, kiểm soát, dữ liệu, hình thức, hướng dẫn, kiến thức, ý nghĩa, kích thích tinh thần, khuôn mẫu, nhận thức và đại diện. Beynon-Davies sử dụng khái niệm dấu hiệu để phân biệt giữa dữ liệu và thông tin; dữ liệu là một loạt các ký hiệu, trong khi thông tin xảy ra khi các ký hiệu được sử dụng để chỉ một cái gì đó.
2. Dữ liệu máy tính là gì?
– Trong máy tính, dữ liệu là thông tin đã được chuyển sang dạng có hiệu quả để di chuyển hoặc xử lý. Liên quan đến máy tính và phương tiện truyền dẫn ngày nay, dữ liệu là thông tin được chuyển đổi thành dạng kỹ thuật số nhị phân. Có thể chấp nhận dữ liệu được sử dụng làm chủ ngữ số ít hoặc chủ ngữ số nhiều. Dữ liệu thô là một thuật ngữ được sử dụng để mô tả dữ liệu ở định dạng kỹ thuật số cơ bản nhất của nó.
– Khái niệm dữ liệu trong bối cảnh máy tính có nguồn gốc từ công trình nghiên cứu của Claude Shannon, một nhà toán học người Mỹ được mệnh danh là cha đẻ của lý thuyết thông tin. Ông đã mở ra các khái niệm kỹ thuật số nhị phân dựa trên việc áp dụng logic Boolean hai giá trị cho các mạch điện tử. Các định dạng chữ số nhị phân làm nền tảng cho CPU , bộ nhớ bán dẫn và ổ đĩa, cũng như nhiều thiết bị ngoại vi phổ biến trong máy tính ngày nay. Đầu vào của máy tính ban đầu cho cả điều khiển và dữ liệu có dạng thẻ đục lỗ , sau đó là băng từ và đĩa cứng.
– Ngay từ sớm, tầm quan trọng của dữ liệu trong máy tính kinh doanh đã trở nên rõ ràng bởi sự phổ biến của thuật ngữ “xử lý dữ liệu” và “xử lý dữ liệu điện tử”, trong một thời gian, nó bao hàm toàn bộ thứ mà ngày nay được gọi là công nghệ thông tin . Trong lịch sử của máy tính doanh nghiệp, sự chuyên môn hóa đã xuất hiện và một nghề dữ liệu riêng biệt xuất hiện cùng với sự phát triển của quá trình xử lý dữ liệu của công ty.
– Cách dữ liệu được lưu trữ trong máy tính: Máy tính biểu diễn dữ liệu, bao gồm video, hình ảnh, âm thanh và văn bản, dưới dạng giá trị nhị phân bằng cách sử dụng các mẫu chỉ của hai số: 1 và 0. Bit là đơn vị dữ liệu nhỏ nhất và chỉ biểu thị một giá trị duy nhất. Một byte dài tám chữ số nhị phân. Bộ nhớ và lưu trữ được đo bằng megabyte và gigabyte . Các đơn vị đo lường dữ liệu tiếp tục phát triển khi lượng dữ liệu được thu thập và lưu trữ ngày càng tăng. Ví dụ, thuật ngữ tương đối mới ” brontobyte ” là lưu trữ dữ liệu bằng 10 đến sức mạnh thứ 27 của byte .
– Dữ liệu có thể được lưu trữ ở các định dạng tệp, như trong các hệ thống máy tính lớn sử dụng ISAM và VSAM . Các định dạng tệp khác để lưu trữ, chuyển đổi và xử lý dữ liệu bao gồm các giá trị được phân tách bằng dấu phẩy . Các định dạng này tiếp tục được sử dụng trên nhiều loại máy khác nhau, ngay cả khi các phương pháp tiếp cận theo hướng dữ liệu có cấu trúc hơn đã tạo được chỗ đứng trong máy tính doanh nghiệp. Chuyên môn hóa lớn hơn được phát triển như cơ sở dữ liệu , hệ quản trị cơ sở dữ liệu và sau đó phát sinh công nghệ cơ sở dữ liệu quan hệ để tổ chức thông tin.- Các loại dữ liệu trong máy tính: Sự phát triển của web và điện thoại thông minh trong thập kỷ qua đã dẫn đến sự gia tăng đột biến trong việc tạo dữ liệu kỹ thuật số. Dữ liệu hiện bao gồm thông tin văn bản, âm thanh và video, cũng như các bản ghi hoạt động web và nhật ký. Phần lớn trong số đó là dữ liệu phi cấu trúc.
– Thuật ngữ dữ liệu lớn đã được sử dụng để mô tả dữ liệu trong phạm vi petabyte hoặc lớn hơn. Một phép viết tắt mô tả dữ liệu lớn với 3V – khối lượng, sự đa dạng và tốc độ. Khi thương mại điện tử dựa trên web lan rộng, các mô hình kinh doanh dựa trên dữ liệu lớn đã phát triển, coi dữ liệu như một tài sản tự thân. Những xu hướng như vậy cũng tạo ra mối quan tâm lớn hơn đến việc sử dụng dữ liệu và quyền riêng tư dữ liệu trên mạng xã hội .
3. Tầm quan trọng của dữ liệu:
– Dữ liệu có vai trò vô cùng quan trọng, ngoài việc sử dụng nó trong các ứng dụng máy tính hướng tới xử lý dữ liệu. Ví dụ, trong kết nối thành phần điện tử và truyền thông mạng, thuật ngữ dữ liệu thường được phân biệt với “thông tin điều khiển”, “bit điều khiển” và các thuật ngữ tương tự để xác định nội dung chính của đơn vị truyền . Hơn nữa, trong khoa học, thuật ngữ dữ liệu được sử dụng để mô tả một tập hợp các sự kiện. Đó cũng là trường hợp của các lĩnh vực như tài chính, tiếp thị, nhân khẩu học và sức khỏe.
– Với sự gia tăng của dữ liệu trong các tổ chức, người ta đã nhấn mạnh thêm vào việc đảm bảo chất lượng dữ liệu bằng cách giảm sự trùng lặp và đảm bảo sử dụng các bản ghi hiện tại, chính xác nhất. Nhiều bước liên quan đến quản lý dữ liệu hiện đại bao gồm làm sạch dữ liệu , cũng như các quy trình trích xuất, chuyển đổi và tải (ETL) để tích hợp dữ liệu. Dữ liệu để xử lý đã được bổ sung bởi siêu dữ liệu, đôi khi được gọi là “dữ liệu về dữ liệu”, giúp quản trị viên và người dùng hiểu cơ sở dữ liệu và các dữ liệu khác.
– Phân tích kết hợp dữ liệu có cấu trúc và dữ liệu phi cấu trúc đã trở nên hữu ích khi các tổ chức tìm cách tận dụng thông tin đó. Các hệ thống phân tích như vậy ngày càng cố gắng đạt được hiệu suất theo thời gian thực, vì vậy chúng được xây dựng để xử lý dữ liệu đến được tiêu thụ ở tốc độ nhập cao và xử lý các luồng dữ liệu để sử dụng ngay lập tức trong các hoạt động. Theo thời gian, ý tưởng về cơ sở dữ liệu cho các hoạt động và giao dịch đã được mở rộng sang cơ sở dữ liệu để báo cáo và phân tích dữ liệu dự đoán . Một ví dụ chính là kho dữ liệu, được tối ưu hóa để xử lý các câu hỏi về hoạt động cho các nhà phân tích kinh doanh và lãnh đạo doanh nghiệp. Sự chú trọng ngày càng tăng vào việc tìm kiếm các mẫu và dự đoán kết quả kinh doanh đã dẫn đến sự phát triển của các kỹ thuật khai thác dữ liệu .- Dữ liệu có vai trò vô cùng quan trọng do đó nghề quản trị cơ sở dữ liệu là một nhánh của CNTT. Các chuyên gia cơ sở dữ liệu này làm việc về thiết kế, điều chỉnh và duy trì cơ sở dữ liệu. Nghề dữ liệu bắt nguồn từ việc hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) được sử dụng rộng rãi trong các công ty, bắt đầu từ những năm 1980. Sự gia tăng của cơ sở dữ liệu quan hệ đã được kích hoạt một phần bởi Ngôn ngữ truy vấn có cấu trúc (SQL) . Sau đó, cơ sở dữ liệu không phải SQL, được gọi là cơ sở dữ liệu NoSQL , xuất hiện như một sự thay thế cho các RDBMS đã được thiết lập.
– Ngày nay, các công ty tuyển dụng các chuyên gia quản lý dữ liệu hoặc giao cho công nhân vai trò quản lý dữ liệu , liên quan đến việc thực hiện các chính sách bảo mật và sử dụng dữ liệu như được nêu trong các sáng kiến quản trị dữ liệu . Một chức danh khác biệt – nhà khoa học dữ liệu – đã xuất hiện để mô tả các chuyên gia tập trung vào khai thác và phân tích dữ liệu. Lợi ích của việc trình bày khoa học dữ liệu theo cách gợi mở thậm chí đã làm tăng giá trị của nghệ sĩ dữ liệu ; nghĩa là, một cá nhân thành thạo trong việc vẽ đồ thị và trực quan hóa dữ liệu theo những cách sáng tạo.