Giới thiệu về Hive

Chúng tôi rất vui mừng được chia sẻ kiến thức sâu sắc về từ khóa Hive la gi để tối ưu hóa nội dung trang web và tiếp thị trực tuyến. Bài viết cung cấp phương pháp tìm kiếm, phân tích từ khóa và chiến lược hiệu quả. Cảm ơn sự quan tâm và hãy tiếp tục theo dõi để cập nhật kiến thức mới.

Thuật ngữ Big Data được sử dụng cho những bộ tập tài liệu khổng lồ gồm có khối lượng lớn, tốc độ cao và nhiều loại tài liệu đang tăng lên từng ngày. Sử dụng các mạng lưới hệ thống quản lý tài liệu truyền thống, rất khó để xử lý Big data. Do đó, Quỹ phần mềm Apache (Apache Software Foundation) đã giới thiệu một framework tên là Hadoop để xử lý các thử thách quản lý và xử lý Big data.

Bạn Đang Xem: Giới thiệu về Hive

Hadoop là một framework open-source để lưu trữ và xử lý Big data trong môi trường tự nhiên phân tán. Nó chứa hai mô-đun, một là MapReduce và một mô-đun khác là Khối hệ thống tệp phân tán Hadoop (Hadoop Distributed File System – HDFS).

  • MapReduce: Đây là mô hình lập trình song song để xử lý một lượng lớn tài liệu có cấu trúc, bán cấu trúc và không cấu trúc trên các cụm lớn của phần cứng thương nghiệp (commodity hardware).
  • HDFS: Khối hệ thống tệp phân tán Hadoop là một phần của framework Hadoop, được sử dụng để lưu trữ và xử lý các bộ tài liệu. Nó cung cấp một mạng lưới hệ thống tập tin chịu lỗi để chạy trên phần cứng thương nghiệp.

Xem Thêm : Cấu tạo vị trí vai trò và một số bệnh thường gặp ở bàng quang

Hệ sinh thái xanh Hadoop chứa các sub-project (tool) khác nhau như Sqoop, Pig và Hive được sử dụng để trợ giúp các mô-đun Hadoop.

  • Sqoop: Nó được sử dụng để nhập và xuất tài liệu đến và đi giữa HDFS và RDBMS.
  • Pig: Đây là một nền tảng tiếng nói thủ tục được sử dụng để phát triển tập lệnh cho những hoạt động của MapReduce.
  • Hive: Đây là một nền tảng được sử dụng để phát triển các tập lệnh loại SQL để thực hiện những hoạt động MapReduce.

Lưu ý: Có vô số cách khác nhau để thực hiện những hoạt động MapReduce:

  • Cách tiếp cận truyền thống sử dụng Khóa học Java MapReduce cho tài liệu có cấu trúc, bán cấu trúc và không cấu trúc.
  • Cách tiếp cận dùng câu lệnh cho MapReduce để xử lý tài liệu có cấu trúc và bán cấu trúc bằng Pig.
  • Tiếng nói truy vấn Hive (HiveQL hoặc HQL) cho MapReduce để xử lý tài liệu có cấu trúc bằng Hive.

Hive là một dụng cụ hạ tầng kho tài liệu để xử lý tài liệu có cấu trúc trong Hadoop. Nó nằm trên đỉnh Hadoop để tóm tắt Tài liệu lớn và giúp truy vấn và phân tích dễ dàng.

Xem Thêm : Trần Đức Bo là ai? Tiểu sử và những scandal “dậy sóng” chưa hồi kết

Thuở đầu Hive được phát triển bởi Facebook, sau đó Quỹ Phần mềm Apache đã lấy và phát triển nó thành một nguồn mở dưới tên Apache Hive. Nó được sử dụng bởi các đơn vị khác nhau. Ví dụ: Amazon sử dụng nó trong Amazon Elastic MapReduce.

Hive không phải là:

  • Một CSDL quan hệ
  • Một thiết kế để xử lý thanh toán giao dịch Trên Internet (OnLine Transaction Processing – OLTP)
  • Một tiếng nói cho những truy vấn thời kì thực và update cấp hàng
  • Nó lưu trữ sơ đồ trong cơ sở tài liệu và xử lý tài liệu vào HDFS.
  • Nó được thiết kế cho OLAP.
  • Nó cung cấp tiếng nói kiểu SQL để truy vấn được gọi là HiveQL hoặc HQL.
  • Nó là thân thuộc, nhanh chóng, có khả năng mở rộng.

Sơ đồ sau đây mô tả kiến trúc của Hive: Sơ đồ thành phần này chứa các đơn vị khác nhau.

  • User Interface: Hive là một phần mềm hạ tầng kho tài liệu có thể tạo ra sự tương tác giữa người dùng và HDFS. Các giao diện người dùng mà Hive tương trợ là Hive Web UI, Hive command line và Hive HD Insight (Trong sever Windows).
  • Meta Store: Hive chọn các sever cơ sở tài liệu tương ứng để lưu trữ sơ đồ hoặc metadata của rất nhiều bảng, cơ sở tài liệu, các cột trong một bảng, các loại tài liệu của chúng và ánh xạ HDFS.
  • HiveQL Process Engine: HiveQL tương tự như SQL để truy vấn thông tin sơ đồ trên Metastore. Đây là một trong những thay thế của phương pháp truyền thống cho Khóa học MapReduce. Thay vì viết Khóa học MapReduce bằng Java, tất cả chúng ta có thể viết một truy vấn cho công việc MapReduce và xử lý nó.
  • Execution Engine: Phần phối hợp của dụng cụ xử lý HiveQL và MapReduce là Phương tiện thực thi Hive (Hive Execution Engine). Phương tiện thực thi xử lý truy vấn và tạo kết quả giống như kết quả MapReduce.
  • HDFS hoặc HBASE: Khối hệ thống tệp phân tán Hadoop hoặc HBASE là các kỹ thuật lưu trữ tài liệu để lưu trữ tài liệu vào mạng lưới hệ thống tệp.

Sơ đồ sau mô tả quy trình thao tác giữa Hive và Hadoop.

Cách Hive tương tác với framework Hadoop:

  1. Thực thi query: Giao diện Hive như Command line hoặc Giao diện người dùng web gửi truy vấn đến Trình tinh chỉnh và điều khiển (bất kỳ trình tinh chỉnh và điều khiển cơ sở tài liệu nào như JDBC, ODBC, v.v.) để thực thi.
  2. Nhận kế hoạch: Trình tinh chỉnh và điều khiển có sự trợ giúp của trình biên dịch truy vấn để phân tích cú pháp truy vấn để kiểm tra cú pháp và kế hoạch truy vấn hoặc yêu cầu của truy vấn.
  3. Nhận metadata: Trình biên dịch gửi yêu cầu metadata đến Metastore (bất kỳ cơ sở tài liệu nào).
  4. Gửi metadata: Metastore gửi metadata như một phản hồi cho trình biên dịch.
  5. Gửi kế hoạch: Trình biên dịch kiểm tra yêu cầu và gửi lại kế hoạch cho trình tinh chỉnh và điều khiển. Đến đây, việc phân tích cú pháp và biên dịch một truy vấn đã hoàn thành.
  6. Kế hoạch thực hiện: Trình tinh chỉnh và điều khiển gửi kế hoạch thực hiện đến dụng cụ thực thi.
  7. Thực thi công việc: Trong nội bộ, quá trình thực thi công việc là một công việc MapReduce. Phương tiện thực thi gửi công việc đến JobTracker, trong node Name và nó gán công việc này cho TaskTracker, trong node Data. Ở đây, truy vấn thực thi công việc MapReduce. Hoạt động metadata: Trong lúc thực hiện, dụng cụ thực thi có thể thực thi những hoạt động metadata với Metastore.
  8. Lấy kết quả: Phương tiện thực thi nhận kết quả từ các node Data.
  9. Gửi kết quả: Phương tiện thực thi gửi các giá trị kết quả đó đến trình tinh chỉnh và điều khiển.
  10. Gửi kết quả: Trình tinh chỉnh và điều khiển gửi kết quả đến Giao diện Hive.

You May Also Like

About the Author: v1000