Chuỗi thời gian là gì? What is time series?

Chuỗi thời kì (time series) là một chuỗi những điểm tài liệu xẩy ra theo trật tự liên tục trong một khoảng tầm thời kì. Một chuỗi thời kì sẽ theo dõi chuyển động của những điểm tài liệu đã chọn (ví như giá của sàn chứng khoán) trong một khoảng tầm thời kì xác định. Ứng dụng của chuỗi thời kì trải khắp các ngành công nghiệp khác nhau như: quan sát hoạt động sóng điện trong não, đo lượng mưa, dự báo giá cổ phiếu, theo dõi doanh thu bán lẻ thường niên, người đăng ký hàng tháng, nhịp tim mỗi phút,… Tài liệu chuỗi thời kì là tập hợp các quan sát thu được thông qua các phép đo tái diễn theo thời kì. Tài liệu chuỗi thời kì ở khắp mọi nơi, vì thời kì là thành phần của mọi thứ mà tất cả chúng ta có thể nhận diện được.

Sự khác biệt giữa tài liệu chuỗi thời kì và tài liệu chuỗi phi thời kì là gì?

Tài liệu chuỗi không theo thời kì là bất kỳ tài liệu nào độc lập với mọi thứ liên quan đến thời kì như tài liệu Địa lý. Trong những khi đó, trong tài liệu chuỗi thời kì, thành phần phụ thuộc là yếu tố thời kì, tức là biến độc lập là thời kì và có ít nhất một biến phụ thuộc phụ thuộc vào biến thời kì đó. Tài liệu thời tiết là một ví dụ tiêu biểu về tài liệu chuỗi thời kì.

Các thành phần của chuỗi thời kì

Một tài liệu chuỗi thời kì thường được phân rã thành 4 thành phần con sau:

  • Xu hướng (trend): thành phần này chỉ ra xu hướng tổng quan của tài liệu theo thời kì: lên hoặc xuống, tăng hoặc giảm. Ví dụ như lạm phát kinh tế làm giá cả trung bình luôn có xu hướng tăng.
  • Mùa vụ (seasonality): thành phần chỉ ra các xu hướng theo mùa, theo tháng, theo quý,… Ví dụ: – Các sự kiện xẩy ra tự nhiên, như biến động thời tiết – Thủ tục kinh doanh hoặc hành chính, như mở màn hoặc kết thúc năm tài chính. – Các sự kiện trên lịch, ví như số ngày thứ Hai mỗi tháng hoặc các ngày lễ thay đổi theo từng năm.
  • Chu kì (cycle): thành phần chu kỳ luân hồi, nó khác yếu tố mùa vụ ở đoạn thành phần này còn có sự vận động trong khoảng tầm thời kì dài hơn nữa (nhiều năm).
  • Yếu tố thất thường (Irregular remainder): hay còn gọi là nhiễu trắng (white noise) thành phần nhiễu còn sót lại sau thời điểm trích xuất hết các thành phần ở trên, nó chỉ ra sự thất thường của những điểm tài liệu. image.png

Thay vì đưa ra dự báo trên tài liệu gốc, là một đường nhìn rất khấp khểnh và khó dự đoán, ta thực hiện trên các thành phần con nhìn có tính quy luật với xu hướng vận động rõ ràng hơn rồi phối hợp các thành phần này lại với nhau. Cycle chỉ ra xu hướng vận động trong một khoảng tầm thời kì dài (thông thường chu kỳ luân hồi rơi vào 7 năm hoặc hơn), do tài liệu của tất cả chúng ta không trải đủ rộng nên tất cả chúng ta sẽ chỉ với quan tâm đến 3 thành phần còn sót lại là Trend, Seasonality và Irregular remainder.

Ví dụ về tài liệu chuỗi thời kì

Quan sát biểu đồ sự thay đổi giá cổ phiếu sau này: Trong biểu đồ trên, thời kì là trục giám sát sự thay đổi giá cổ phiếu. Trong góp vốn đầu tư, một chuỗi thời kì theo dõi chuyển động của những điểm tài liệu, ví như giá của sàn chứng khoán trong một khoảng tầm thời kì xác định với những điểm tài liệu được ghi lại theo những khoảng tầm thời kì đều đặn. Điều này còn có thể được theo dõi trong thời kì ngắn (ví như giá sàn chứng khoán vào khung giờ trong suốt một ngày thao tác) hoặc dài hạn (ví như giá sàn chứng khoán vào lúc kết thúc ngày cuối cùng của mỗi tháng trong suốt 5 năm).

Một ví dụ thân thuộc khác về tài liệu chuỗi thời kì là theo dõi sức khỏe của bệnh nhân, ví như trong điện tâm đồ (ECG), theo dõi hoạt động của tim để đã cho thấy liệu nó có hoạt động thường nhật hay là không.

Ngoài việc được ghi lại theo những khoảng tầm thời kì thông thường, tài liệu chuỗi thời kì có thể được ghi lại bất luận khi nào một sự kiện nào đó xẩy ra, ví như việc ghi logs trong lập trình. Logs sẽ lưu lại các sự kiện, quy trình, thông tin và giao tiếp giữa các ứng dụng phần mềm và hệ điều hành. image.png

Tài liệu chuỗi thời kì được thu thập, lưu trữ, trực quan hóa và phân tích cho những mục tiêu khác nhau trên các ngành nghề khác nhau:

  • Trong khai phá tài liệu, nhận dạng mẫu và học máy, phân tích chuỗi thời kì được sử dụng để phân cụm, phân loại, truy vấn theo nội dung, phát hiện thất thường và những hoạt động dự báo.
  • Trong xử lý tín hiệu, kỹ thuật điều khiển và tinh chỉnh và kỹ thuật truyền thông, tài liệu chuỗi thời kì được sử dụng để phát hiện và ước tính tín hiệu.
  • Trong thống kê, tài chính lượng, tài chính định lượng, động đất học, khí tượng học và địa vật lý, phân tích chuỗi thời kì được sử dụng để tham gia báo.

Tài liệu chuỗi thời kì có thể được hiển thị trực quan trong các loại biểu đồ khác nhau để tạo xét tuyển khai thác thông tin chuyên sâu, phân tích xu hướng và phát hiện thất thường. Tài liệu chuỗi thời kì được sử dụng trong phân tích chuỗi thời kì (theo lịch sử hào hùng hoặc thời kì thực) và dự báo chuỗi thời kì để phát hiện và dự đoán các mẫu. Sau đây là tổng quan ngắn gọn về từng loại.

Phân tích chuỗi thời kì

Phân tích chuỗi thời kì (time series analysis) là một phương pháp phân tích một loạt những điểm tài liệu được thu thập trong một khoảng tầm thời kì. Trong phân tích chuỗi thời kì, những điểm tài liệu được ghi lại theo những khoảng tầm thời kì đều đặn trong một thời đoạn nhất định, thay vì ngắt quãng hoặc tình cờ. Phân tích chuỗi thời kì là việc sử dụng các phương pháp thống kê để phân tích tài liệu; trích xuất các thống kê và đặc điểm có ý nghĩa về tài liệu. Điều này giúp xác định các xu hướng, chu kỳ luân hồi và sự khác biệt theo mùa để tương trợ dự đoán một sự kiện trong tương lai.

Để tìm hiểu thêm về việc phân tích chuỗi thời kì, các chúng ta có thể tham khảo thêm ở đây: https://machinelearningcoban.com/tabml_book/ch_data_processing/timeseries_data.html

Dự báo chuỗi thời kì

Dự báo chuỗi thời kì sử dụng thông tin liên quan tới những giá trị lịch sử hào hùng và các mẫu liên quan để tham gia đoán hoạt động trong tương lai. Để tham gia báo được, mô hình chuỗi thời kì (time series modeling) liên quan đến việc thao tác trên tài liệu thời kì để rút ra những tri thức giúp quyết định hành động. Các mô hình chuỗi thời kì là các mô hình rất hữu ích khi tất cả chúng ta có tài liệu thời kì tương quan. Dự báo chuỗi thời kì sẽ tiến hành đề cập cụ thể trong nội dung bài viết tiếp theo.

Vì sao cần cơ sở tài liệu chuỗi thời kì?

Những lý do sau đây làm cho cơ sở tài liệu chuỗi thời kì (Time Series Database – TSDB) trở thành danh mục cơ sở tài liệu nhanh nhấtvà mạnh nhất:

  1. Quy mô: Cơ sở tài liệu chuỗi thời kì (cả NoSQL và SQL) có thể hiệu quả nếu thời kì được xem là first-class citizen. Điều này sẽ được cho phép tất cả chúng ta cung cấp được tài liệu quy mô lớn từ việc cải thiện hiệu suất ví như truy vấn nhanh hơn và tỷ lệ nhập mạnh hơn để tăng cường nén tài liệu.
  2. Khả năng sử dụng: Cơ sở tài liệu chuỗi thời kì thường có những hàm được tích hợp sẵn như phân tích tài liệu gồm có truy vấn tổng hợp liên tục, chính sách lưu trữ tài liệu và nhóm thời kì linh hoạt. Các tính năng này còn có thể cải thiện trải nghiệm người dùng và giúp các tác vụ phân tích tài liệu mượt mà hơn trước đây.

Do đó, các nhà phát triển thích ứng dụng TSDB hơn và sử dụng chúng cho những trường hợp sử dụng khác nhau:

  • Theo dõi tài liệu hành vi khách hàng.
  • Giám sát máy móc, thiết bị được kết nối và thiết bị.
  1. Investopedia. What Is a Time Series and How Is It Used to Analyze Data?
  2. influxdata. What is time series data?
  3. Nathan. Cơ Bản Về Lớp Giải Thuật Time Series Forecasting.
  4. Phạm Đình Khánh. Khoa học tài liệu.

Series này mình dịch và viết với mục tiêu học tập của mình nên sẽ không còn tránh khỏi sơ sót. Mình sẽ rất vui nếu nó có ích, còn nếu có ở chỗ nào chưa xác thực thì những bạn góp ý giúp mình với nhé. Cảm ơn mọi người 😄

You May Also Like

About the Author: v1000