Dữ liệu lớn (Big Data) là gì

Trong rất nhiều các định nghĩa khác nhau thì có vẻ định nghĩa của Google bao phủ tất cả các ý:

Dữ liệu truyền thống khi bùng nổ về kích thước thì việc lưu trữ, quản lý và phân tích theo các hệ truyền thống sẽ rất đắt đỏ. Ví dụ Hệ quản trị Cơ Sở Dữ Liệu Quan Hệ. Bên cạnh đó là tính kém linh hoạt với các dữ liệu phi cấu trúc như hình ảnh, văn bản và video. Big Data sẽ giúp giải quyết các vấn đề trên, cung cấp truy cập dữ liệu tốc độ cao theo thời gian thực với quy mô lớn (tới petabyte).

Còn hiểu một cách đơn giản thì Big Data là khái niệm đề cập đến việc thu thập, lưu trữ, xử lý “dữ liệu lớn” mà các hệ thống truyền thống không thể xử lý được.

Theo truyền thống, Big data = 3V (Volume, Variety, Velocity), đến SAS định nghĩa Big Data = 5V (3V + Variability, Veracity), rồi khi dữ liệu bắt đầu trở thành “mỏ vàng”, thành nguồn doanh thu mới của mỗi doanh nghiệp thì Big Data = 6V (5V + Value)

Đặc tính của Big Data

Đặc tính của Big Data
Đặc tính của Big Data
  • Volume: khối lượng dữ liệu được tạo ra, lưu trữ và xử lý. Bao nhiêu thì là lớn? Ít nhất nó nên được tính bằng hàng tram Terabyte, còn thông thường thì nó là Petabyte hoặc Exabyte, thậm chí Zettabyte. Một số ví dụ: Facebook tạo ra khoảng 500TB dữ liệu mỗi ngày, con số này ở Twitter là khoảng 8TB.
  • Velocity: tốc độ dữ liệu được tạo ra. Câu hỏi cũ, bao nhiêu thì là lớn? Câu trả lời thì rất đa dạng, vì nó phụ thuộc vào loại dữ liệu mà bạn đang xử lý, nhưng có thể lấy một vài ví dụ trực quan của các tên tuổi lớn như 90 triệu bức ảnh được upload lên Facebook mỗi ngày, con số cho Twitter là 500 triệu tweets được post, 0.4 triệu giờ video được upload lên Youtube hay 3.5 tỷ lượt tìm kiếm được thực hiện mỗi ngày trên Google.
  • Variety: tính đa dạng của dữ liệu. Cái này chắc dễ hiểu rồi, Big Data là không ngán dạng nào, từ dữ liệu có cấu trúc (structure) như các bảng nơi có hàng và cột trong cơ sở dữ liệu quan hệ RDBMS hay bảng tính excel; đến dữ liệu phi cấu trúc (unstructured) như văn bản (text), ảnh (pictures), video, audio, …; và thậm chí cả dữ liệu bán cấu trúc (semi-structure) như file json hay file xml.
  • Variability: tính biến thiên của dữ liệu phản ánh sự không nhất quán trong dữ liệu, đặc biệt là trong xử lý ngôn ngữ tự nhiên, cùng một từ vựng nhưng trong các ngữ cảnh khác nhau nó sẽ mang các ý nghĩa khác nhau. Tính biến thiên của dữ liệu cũng còn được thể hiện qua sự biến thiên về kích thước và tốc độ dữ liệu được sinh ra, do dữ liệu được thu thập từ nhiều nguồn khác nhau.
  • Veracity : mức độ tin cậy của dữ liệu. Đặc tính này đi ngược chiều với các đặc tính khác của Big Data, khi khối lượng dữ liệu ngày càng tăng, tính đa dạng của dữ liệu ngày càng phong phú và tính biến thiên của dữ liệu ngày càng lớn thì mức độ tin cậy của dữ liệu ngày càng giảm xuống.
  • Value: giá trị của dữ liệu. Sẽ không thể nhắc đến Big Data nếu không thể get value từ dữ liệu. Hàng loạt các công ty đã khai thác “mỏ vàng mới” dữ liệu và phát triển mạnh mẽ: Google, Facebook, Amazon, …

Theo thời gian, chắc chắn sẽ còn có thể có nhiều đặc tính của Big data được định nghĩa thêm, có thể là 7V, 8B hay thậm chí là 10V nữa, nhưng ở thời điểm viết bài này, con số 6 khá là "lộc"

Ứng dụng của Big Data

Chúng ta sẽ xem Big Data được sử dụng như thế nào trong các lĩnh vực khác nhau thông qua các use case phổ biến trong các ngành khác nhau như viễn thông, tài chính ngân hàng, y tế, bán lẻ, sản xuất, …

Ứng dụng của Big Data

Viễn thông (Telecomunications)

Một trong số những ngành có lượng dữ liệu khổng lồ từ người dùng dịch vụ, với sự bùng nổ của smartphone trong những năm gần đây. Các ứng dụng Big Data trong viễn thông có thể kể đến như:

  • Tối ưu mạng lưới (Optimize Network Capacity): bằng việc phân tích lưu lượng sử dụng từ hàng tỷ cuộc gọi, tin nhắn, sử dụng dữ liệu mỗi ngày các nhà mạng có thể xác định các khu vực, vị trí có dung lượng vượt mức và định tuyến lại băng thông khi cần thiết nhằm đảm bảo chất lượng dịch vụ, tăng mức độ hài lòng của khách hàng. Ngoài ra, việc phân tích dữ liệu còn có thể giúp nhà mạng lập kế hoạch đầu tư cơ sở hạ tầng phù hợp nhất với nhu cầu của khách hàng, giảm chi phí đầu tư cho nhà mạng.
  • Dự đoán thuê bao có khả năng rời bỏ dịch vụ (Telecom Customer Churn): với sự hỗ trợ của các công nghệ Big Data, các nhà mạng có thể phân tích dữ liệu về chất lượng dịch vụ (cuộc gọi nghe có rõ ràng không, người dùng xem video trên mạng di động có bị giật không, ….), sự tiện lợi của dịch vụ, mức độ tiêu dùng của khách hàng dành cho viễn thông, … để dự đoán mức độ hài lòng của khách hàng. Khi mức độ hài lòng của khách hàng thấp dẫn có khả năng dẫn đến việc rời bỏ dịch vụ trong tương lai, các nhà mạng có thể chủ động thực hiện các chiến dịch chăm sóc khách hàng một cách chủ động để lấy lại mức độ hài lòng của khách hàng.
  • Khuyến nghị sản phẩm mới (New Product Offerings): tương tự như 2 use case trên, các nhà mạng có thể dựa trên sở thích, hành vi của khách hàng để xây dựng thiết kế các sản phẩm có các đặc tính phù hợp với mối quan tâm của từng lớp khách hàng. Xây dựng các mô hình dự đoán để có thể cung cấp cho khách hàng đúng cái họ cần vào đúng thời điểm trên đúng kênh họ mong muốn (right customer, right product, right time, right channel)

Dịch vụ tài chính, ngân hàng (Financial Services)

Có thể khối lượng dữ liệu của các tổ chức tài chính, ngân hàng không thực sự lớn như dữ liệu viễn thông tuy nhiên dữ liệu của các tổ chức tài chính lại có chất lượng tốt và có mức độ tin tưởng cao hơn (chữ V thứ 5 trong đặc tính 6Vs của Big Data – Veracity):

  • Phát hiện gian lận (Fault Detection): bằng việc sử dụng Big Data, các công ty/ tổ chức tài chính có thể xác định được các mẫu (pattern) biểu thị hành vi gian lận trong giao dịch tài chính từ đó áp dụng các biện pháp cần thiết để chống lại các hành vi gian lận này.
  • Quản lý rủi ro (Risk Management): là một trong số các yếu tố vô cùng quan trọng đối với các tổ chức tài chính, ngân hàng, hệ thống quản lý rủi ro dựa trên Big Data để phát hiện rủi ro, gian lận tiềm ẩn trong thời gian thực sẽ giúp các tổ chức tài chính, ngân hàng không phải chịu tổn thất về doanh thu. UOB một ngân hàng của Singapore đã sử dụng các công nghệ Big Data trong hệ thống quản lý rủi ro để giảm thời gian tính toán rủi ro từ 20 giờ xuống vài phút, điều này giúp cho các quyết định của UOB mang lại lợi nhuận rất cao và giảm thiểu tổn thất.

Y tế, chăm sóc sức khỏe (Healthcare)

Cùng với viễn thông, y tế và chăm sóc sức khỏe là lĩnh vực có nguồn dữ liệu khổng lồ. Sử dụng Big Data, các tổ chức y tế và chăm sóc sức khỏe đã có thể dự đoán được các xu hướng bệnh, phát hiện sớm các biểu hiện các bệnh hiểm nghèo cũng như cung cấp cho bệnh nhân các dịch vụ y tế và chăm sóc sức khỏe tốt hơn:

  • Nghiên cứu gen (Genomic Research): Big Data đóng một vai trò rất quan trọng trong nghiên cứu bộ gen. Thông qua sử dụng lượng dữ liệu khổng lồ từ các nguồn khác nhau, các nhà nghiên cứu có thể xác định được các gen bệnh cũng như các dấu hiệu lâm sàng để giúp bệnh nhân xác định được chính xác các vấn đề sức khỏe mà họ có thể gặp phải trong tương lai. Các kết quả dự đoán này có thể cho phép các tổ chức y tế và chăm sóc sức khỏe thiết kế phương pháp điều trị sớm cho cá nhân.
  • Dự đoán số lượng bệnh nhân (Patients Predictions): bằng cách thu thập dữ liệu đầy đủ dữ liệu quá khứ thông qua các công nghệ Big Data, các tổ chức y tế và chăm sóc sức khỏe có thể dự báo được số lượng bệnh nhân có thể có trong tương lai thông qua các kỹ thuật “time series analysis”. Việc dự đoán chính xác số lượng bệnh nhân có thể giúp các tổ chức quy hoạch cơ sở hạ tầng, cung ứng thuốc, vật tư, đội ngũ y bác sỹ phù hợp với từng địa bàn trong từng thời điểm, nhằm tối ưu chi phí đầu tư.
  • Tăng mức độ hài lòng của bệnh nhân (Patient Experience): tương tự như các ngành kinh doanh lấy khách hàng làm trọng tâm (Customer Centric), các tổ chức y tế và chăm sóc sức khỏe cũng có thể sử dụng Big Data để cung cấp các cách điều trị tốt hơn và cải thiện chất lượng chăm sóc bệnh nhân mà không làm tăng chi phí thông qua những hệ thống như Patient 360 để cung cấp một cái nhìn đa chiều của từng bệnh nhân.

Kết luận

Không chỉ có 3 use cases ở trên, Big data thực sự đã len lỏi đến khắp mọi ngóc ngách của cuộc sống, trên đây mới chỉ giới thiệu các use cases có tầm ảnh hưởng lớn với human. Trong các bài viết sau, tôi sẽ giới thiệu về cách implement Big Data trong Retail Industry.

Hãy đăng ký nhận tin để là người đầu tiên đọc bài viết mới nhất từ chúng tôi nhé

Posted 
Apr 15, 2020
 in 
Tech
 category

Bài viết khác từ

Tech

category

View All