Giới thiệu về Big Data

1. BIG DATA là gì?

Vài năm trở lại đây, cụm từ “big data” được nhắc rất nhiều trong các bài báo dự đoán về xu hướng công nghệ cũng như các cuộc hội thảo. Nó bắt đầu xuất hiện khi có sự ra đời của điện toán đám mây.
 “Big data” tạm dịch là dữ liệu khổng lồ, chỉ gọi là dữ liệu lớn thì chưa diễn tả đủ mức độ lớn của nó.
Xin trích nguyên văn bằng tiếng Anh định nghĩa về “big data” của Gartner đưa ra vào năm 2012: “Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization [Gartner, 2012]. Tạm dịch như sau: “Big data” là những tài sản thông tin có dung lượng lớn, phát triển nhanh chóng dưới nhiều hình thức khác nhau, đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa quy trình. 
Như vậy, Big Data gồm 3 yếu tố: dung lượng lớn, phát triển nhanh chóng và nhiều nguồn khác nhau.
Dung lượng dữ liệu tạo ra nhanh chóng tới mức, trong 2 năm gần đây lượng dữ liệu tạo ra chiếm 90% dung lượng dữ liệu từ trước tới nay. Dữ liệu này được tạo ra mọi lúc mọi nơi: từ những chiếc cảm biến để thu thập thông tin về thời tiết, những thông tin được đưa lên các trang mạng xã hội, diễn đàn, báo chí, … Dữ liệu được đưa ra dưới mọi hình thức khác nhau: văn bản, hình ảnh, video, audio…. Đó chính là “big data”.

2. “Big data” đến từ đâu?

Theo IBM, “big data” đến từ các nguồn sau:

Tùy vào đơn vị tổ chức khác nhau mà nguồn dữ liệu cũng khác nhau, ví dụ: dữ liệu của Facebook đến từ việc chia sẽ hình ảnh, video… của người dùng mạng xã hội.

3. Các giải pháp cho “big data”

Các nhà cung cấp khác nhau có những giải pháp khác nhau cho “big data”. Sau đây xin giới thiệu một giải pháp của Oracle, giải pháp tôi thấy tâm đắc nhất:

Trong giải pháp này, “big data” được xử lý thông qua 4 giai đoạn: thu thập (acquire), tổ chức (organize), phân tích (analyze), quyết định (decide).
·        Giai đoạn thu thập: hầu hết đã có giải pháp, ví dụ: Oracle đưa ra NoSQL Database, Google có Google Big table…
·        Giai đoạn tổ chức: có thể lưu trữ dữ liệu ở dạng phân tán, song song… nhưng phổ biến nhất vẫn là Hadoop/MapReduce.
·        Giai đoạn phân tích: với các dữ liệu truyền thống, các công ty lớn đều đã có giải pháp. Ví dụ: Oracle có Oracle Data warehousing, IBM có InfoSphere warehouse…

4. Khó khăn khi nghiên cứu về “big data”

Như đã nói ở trên, “big data” là những dữ liệu cực kì lớn, vượt ngoài khả năng xử lý truyền thống. Do đó, để nghiên cứu về “big data” phải có lượng dữ liệu cực kì lớn, hơn thế nữa phải có chỗ để lưu trữ. Hiện tại, chỉ có hạ tầng về CNTT tại các công ty lớn trog nước mới đáp ứng được về mặt lưu trữ cũng như lượng dữ liệu, ví dụ: FPT, VCCorp, CoopMart… Hạ tầng CNTT tại các trường đại học hầu như không đủ mạnh để nghiên cứu về “big data”. Xuất hiện một nghịch lý ở đây, các đơn vị nghiên cứu như trường đại học thì không có dữ liệu thực để nghiên cứu, trong khi đó các đơn vị có dữ liệu lại không có đủ chuyên gia[theo Lê Đình Duy Blog].