Ra mắt hệ thống phân tích dữ liệu mới của IBM

Chia sẻ
Ngày 18/9/2018, Synnex FPT đã tổ chức sự kiện ra mắt công nghệ mới IBM Sailfish (IIS) - Giải pháp phân tích dữ liệu và quản trị kinh doanh cho doanh nghiệp.

Phát triển hệ thống xử lí dữ liệu tất cả trong một qua Integrated Analytics System

Hệ thống Phân tích Tích Hợp (Integrated Analytics System) là hệ thống dữ liệu mới nhất của IBM được thiết kế giúp người dùng có thể dễ dàng và nhanh chóng để truy cập vào các dữ liệu khoa học tân tiến, nâng cao khả năng làm việc qua các dữ liệu lưu trữ trên đám mây cá nhân, công cộng hoặc môi trường đám mây lai.

Ra mắt hệ thống phân tích dữ liệu mới của IBM ảnh 1
Đây là hệ thống được tích hợp bởi nhiều công cụ phân tích dữ liệu, cho phép các nhà quản trị có thể phát triển và ứng dụng mô hình phân tích nâng cao này vào trực tiếp hệ thống cơ sở dữ liệu lưu trữ tại doanh nghiệp nhằm mang đến hiệu suất kinh doanh cao hơn. Do hoạt động dựa trên công cụ IBM common SQL nên khách hàng có thể dễ dàng di chuyển các dữ liệu tới đám mây công cộng, từ đó bắt đầu tự động hóa hệ thống phân tích với nhờ công cụ Machine Learning. Trên thực tế, dữ liệu thông thường được doanh nghiệp sử dụng trên cả hệ thống lưu trữ và ngay trên cả đám mây. Vì thế, công nghệ mới này vẫn cho phép người dùng dễ dàng dịch chuyển và truy vấn dữ liệu giữa các môi trường với nhau qua kho lưu trữ DB2 Warehouse on Cloud, hoặc nền tảng dữ liệu Hortonworks.

Nằm tại trung tâm hệ thống Phân tích Tích hợp Integrated Analytics System là IBM Data Science Experience, Apache Spark và kho lưu trữ Db2 Warehouse, tất cả đều được tối ưu hóa để có thể cùng kết hợp với nhau nhằm quản lý hệ thống hiệu quả hơn.

Data Science Experience cung cấp một không gian làm việc bao gồm nhiều công cụ cộng tác và mã nguồn mở để sử dụng trong môi trường lưu trữ dữ liệu. Với Data Science Experience, nhà quản trị có thể tạo một dự án dữ liệu làm việc với một nhóm cộng tác viên, tất cả đều có quyền truy cập vào các mô hình phân tích khác nhau và sử dụng các ngôn ngữ khác nhau (R / Python / Scala).  Giống như MapReduce, Apache Spark hoạt động để phân phối dữ liệu trên một cụm và xử lý dữ liệu đó song song. Spark là một công cụ phân tích dữ liệu nguồn mở, sẽ cho phép xử lý song song tại dữ liệu phân vùng và bộ nhớ trong tại Spark, giúp đưa ra các dự đoán, phân tích ngay thởi điểm đó. Nó đã nhanh chóng trở nên phổ biến bởi tốc độ xử lí, khả năng tính toán thông minh, và truy cập dữ liệu tốt hơn với bộ nhớ đệm. Sự khác biệt là, không giống như MapReduce — làm xáo trộn các tệp xung quanh trên đĩa — Spark hoạt động trong bộ nhớ, giúp xử lý dữ liệu nhanh hơn MapReduce.

Một điểm mới của hệ thống này, đó là khả năng tự học hỏi nhờ Machine Learning, đi cùng với Data Science Experience và Spark trở thành bộ ba sức mạnh mới, giúp doanh nghiệp có được cỗ máy phân tích, xử lí dữ liệu chính xác và hiệu quả hơn. Giờ đây, dữ liệu không cần phải chuyển tới bộ xử lý phân tích, nhờ đó có thể cắt giảm một số quy trình và thời gian chờ việc phân tích, phản hồi. Điều này giúp đơn giản hóa quy trình xử lí dữ liệu hơn bởi mọi thứ đã được hoàn thành ngay trong một hệ thống duy nhất.

Ra mắt hệ thống phân tích dữ liệu mới của IBM ảnh 2
Hỗ trợ kết nối liền mạch tới đám mây

Cơ sở hạ tầng tích hợp của hệ thống mới được kết hợp với những cải tiến phần mềm như Asymmetric Massively Parallel Processing (AMPP), IBM Power® technology và phần cứng lưu trữ bộ nhớ flash, chúng được xây dựng dựa trên IBM PureData System for Analytics và các kho dữ liệu IBM Netezza trước đó. Nó cũng hỗ trợ nhiều loại và dịch vụ dữ liệu, bao gồm mọi thứ từ nền tảng dữ liệu Watson và kho lưu trữ IBM Db2, tới Hadoop và IBM BigSQL. Ngoài ra, Integrated Analytics System được xây dựng với IBM Common SQL Engine, cho phép người dùng dễ dàng tích hợp liền mạch với các giải pháp lưu trữ đám mây. Đặc biệt, hệ thống còn hỗ trợ thêm các công cụ tiêu chuẩn, bao gồm cả công cụ SQL giúp người dùng có thêm lựa chọn di chuyển các khối lượng công việc này tới đám mây cá nhân và công cộng một cách liền mạch với Spark- tùy theo nhu cầu của người dùng tại thời điểm đó.

Giống như các sản phẩm lưu trữ dữ liệu hiện tại của IBM, Integrated Analytics System được thiết kế để cung cấp môi trường ảo hóa dữ liệu tích hợp và khả năng tương thích với Netezza®, Db2®, và IBM PureData System for Analytics. Hệ thống mới này cũng tỏ ra linh động hơn khi được kết hợp với Hybrid Transactional Analytical Processing (HTAP). Trái ngược với các mô hình kinh doanh truyền thống mà trong đó, các xử lý và phân tích giao dịch chạy trên các cấu trúc riêng biệt. HTAP là một kiến trúc “phá vỡ bức tường” giữa xử lí và giao dịch, cho phép tổng hợp các dữ liệu, phân tích dự đoán và đánh giá lịch sử giao dịch trên cùng một cơ sở dữ liệu với thời gian phản hồi nhanh chóng. Tương lai không xa, IBM sẽ tiếp tục hỗ trợ thêm HTAP cùng với IBM Db2 Analytics Accelerator cho z/OS.

Anh Vũ

Tin liên quan

Chia sẻ

Bạn đọc bình luận

Vui lòng nhập tiếng Việt có dấu
Nhập mã bảo mật (*)    Refresh

Cùng chuyên mục