Chuyện nghề: Data Scientist là gì? Và hành trình để trở thành Data Scientist

Chúng tôi rất vui mừng được chia sẻ kiến thức sâu sắc về từ khóa Data scientist la gi để tối ưu hóa nội dung trang web và tiếp thị trực tuyến. Bài viết cung cấp phương pháp tìm kiếm, phân tích từ khóa và chiến lược hiệu quả. Cảm ơn sự quan tâm và hãy tiếp tục theo dõi để cập nhật kiến thức mới.

Vào năm 2018, Harvard Business Review đã bình chọn nghề Data Scientist – Nhà khoa học tài liệu công việc “hot” nhất thế kỷ 21 để nhấn mạnh vấn đề sự thành công và sức ảnh hưởng tác động của Tài liệu đến thị trường thế giới. Tuy nhiên, ngành nghề này chưa hoàn toàn lớn mạnh như kỳ vọng, cũng như còn nhiều hiểu nhầm – hiểu sai về công việc data scientist là gì. Nó xuất hiện với nhiều người như một thứ “kỹ thuật mờ”, có thể có khả năng triển khai sản phẩm hoặc dịch vụ của họ.

Bạn Đang Xem: Chuyện nghề: Data Scientist là gì? Và hành trình để trở thành Data Scientist

Sự hiểu nhầm này còn có thể dẫn đến thất bại trong việc sử dụng tốt các nguồn lực. Hãy cùng lùi lại một bước để sở hữu cái nhìn rõ ràng và cụ thể hơn về nghề Data Scientist, cùng như giải thuật phương pháp để chúng ta có thể “dấn thân” theo hàng phố này.

Data Scientist là gì?

Data Scientist (kỹ sư khoa học tài liệu) là những người dân phân tích, sắp xếp và thay tài liệu “kể chuyện”, bất kể nó có cấu trúc hay là không. Công việc của họ sẽ cần phối hợp giữa cả khoa học máy tính, thống kê và toán học. Họ sẽ là người phân tích, xử lý và “mô hình hóa” các tài liệu, sau đó diễn giải các kết quả để tạo ra các kế hoạch hoạt động cho team và doanh nghiệp.

Nói một cách dễ hiểu, nghề data scientist thao tác làm việc cũng tài liệu và cho ra các insight mang tính phân tích. Họ sẽ truyền đạt các phát hiện và insight này với những bên liên quan – từ lãnh đạo cấp cao, quản lý đến khách hàng. Từ đó các tổ chức có thể trực tiếp hưởng lợi từ việc đưa ra các quyết định sáng suốt nhất để xúc tiến tăng trưởng kinh doanh và lợi nhuận của họ (tức là, phụ thuộc vào toàn cảnh của nhiều ngành công nghiệp).

Tại Việt Nam, ngành công nghệ thông tin cũng đang tận mắt chứng kiến sự tăng trưởng tiềm năng của ngành Khoa học tài liệu. Ngày càng có nhiều doanh nghiệp quan tâm hơn tới ngành khoa học tài liệu và sẵn sàng đổ tiền cho việc nghiên cứu và phát triển. Không sai khi nói nghề Data Scientist đang là một trong những ngành hot nhất trên thị trường Việt Nam, liệu bạn làm rõ về nó?

Công việc của một Data Scientist

Data Science là gì ?

Credit: Matt Dancho

Mục tiêu của phòng ban Data Science là làm thế nào để các phòng ban các tại Doanh nghiệp có thể đưa ra các quyết định dựa trên tài liệu tốt hơn. Vì thế Data Science có vai trò tương trợ (tương tự như công nghệ thông tin) được chấp nhận tổ chức hoạt động tốt hơn và tăng giá trị nhanh hơn thông qua việc ra quyết định tốt hơn.

Luồng công việc của phòng ban Data Science sẽ gồm các Cột mốc quan trọng (đám mây), các thời đoạn (đường kẻ đứt nét) và các bước (box màu xám). Quy trình khởi nguồn từ một vấn đề cụ thể (Cột mốc 1) – doanh nghiệp sẽ ưu tiên đưa vấn đề này đến nhóm khoa học tài liệu và họ sẽ mở màn vào quy trình quản lý dự án.

Chu trình Data Science có 3 thời đoạn:

  1. Chuẩn bị sẵn sàng – Tài liệu được thu thập và làm sạch. Điều này cần một lượng thời kì đáng kể vì hồ hết tài liệu còn nhiễu, có tức thị cần thực hiện các bước để cải thiện chất lượng sản phẩm và dịch vụ và chuyển nó sang thành định dạng mà máy có thể hiểu và đọc.
  2. Thử nghiệm – Đây là nơi các giả thuyết được tạo ra, tài liệu được trực quan hóa và các mô hình được tạo ra. Điều này mất ít thời kì hơn so với khâu Chuẩn bị sẵn sàng.
  3. Phân phối – Giải trình kết quả được ghi lại thành tài liệu, slideshow trình bày cho quản lý và một khi quản lý thông qua, các quyết định sẽ tiến hành truyền tải xuống để thay đổi.

Khi kết thúc quy trình, phần triển khai này sẽ là lúc một Business Value (cột mốc) mới cho doanh nghiệp được tạo ra.

Phân biệt Data Scientist vs Data Engineer vs Data Analyst

công việc data scientist

“Tháp workflow” của phòng ban Data Science

Tuỳ thuộc vào quy mô và mô hình doanh nghiệp, mỗi vị trí tại mỗi tổ chức sẽ sở hữu được vai trò và trách nhiệm khác nhau. Tuy nhiên, mô hình tổng quan nhất về việc khác nhau của cục ba Data như sau:

  • Data Scientist sẽ phân tích, kiểm tra, tổng hợp, tối ưu hóa tài liệu và trình bày nó cho tổ chức. Các nhà khoa học tài liệu thường có 4 nhiệm vụ chính trong một tổ chức: Phân tích, kiểm tra, tạo và trình bày chúng cho nhóm.

Xem Thêm : Mục lục

Các nhà khoa học tài liệu phải có một nền tảng toán học và thống kê. Họ cũng hiểu và thành thục việc tạo ra các mô hình máy học và trí tuệ tự tạo. Việc tìm kiếm Data Scientist của doanh nghiệp cũng như tìm kiếm một Full-stacker và yên cầu nhiều thời kì.

  • Data Engineers sẽ phụ trách thu thập tài liệu liên quan. Họ vận chuyển và chuyển đổi Tài liệu này thành “Pipeline” cho bộ nhóm Khoa học tài liệu. Họ có thể sử dụng các tiếng nói lập trình như Java, Scala, C ++ hoặc Python tùy theo nhiệm vụ của họ. Kỹ sư tài liệu chuyên về 3 hành động tài liệu chính: thiết kế, xây dựng và sắp xếp các đường ống tài liệu.

Có thể gọi họ là loại kiến ​​trúc sư tài liệu. Kỹ sư tài liệu thường có kỹ thuật máy tính hoặc nền tảng khoa học và kỹ năng tạo khối hệ thống.

  • Data Analysts cũng sẽ tham gia vào việc lấy tài liệu liên quan từ nhiều nguồn khác nhau và chuẩn bị sẵn sàng nó để phân tích thêm. Dựa trên phân tích, một nhà phân tích tài liệu cần đưa ra Tóm lại, hoàn thành các văn bản báo cáo cùng hình ảnh minh hoạ.

Do đó, tất cả chúng ta có thể thấy rằng phạm vi công việc của nhiều nhà phân tích tài liệu nhằm phân tích và mô tả các chiến lược trong quá khứ hoặc trước đó dựa trên tài liệu quá khứ hoặc ngày nay, trong lúc các nhà khoa học tài liệu tập trung vào việc dự đoán và tính toán trước để tạo ra các chiến lược trong tương lai.

Workload của một Data Scientist

Nhìn vào nhánh Data Science, hồ hết mọi người sẽ nói rằng Data Science = Machine Learning. Tuy nhiên trên thực tế, Machine Learning (hoặc Modeling) sẽ chỉ chiếm khoảng chừng khoảng chừng 20% trong workload của một Data Scientist. Phần trăm công việc của Data Scientist được phân chia như sau:

  • Hiểu vấn đề của doanh nghiệp: Xúc tiếp và giao tiếp với Lãnh đạo/ Khách hàng (15%)
  • Thao tác làm việc của Tài liệu: Lọc sạch tài liệu, Học data, Visual hoá, Xử lý, Chuyển đổi, và Thấu hiểu (70%)
  • Truyền tải kết quả: Giải trình, Soạn Slide Decking, và Build nên Dụng cụ ra quyết định tự động hóa) (15%)

Data scientist sẽ dựa vào phân tích dự đoán, học máy, điều hòa tài liệu, mô hình toán học và phân tích thống kê. Một Chuyên Viên tài liệu sẽ tiến hành xử lý khối lượng tài liệu lớn theo quy trình như sau:

data scientist là gì

Machine Learning Model

Mặc dù sự hiểu nhầm trên gần như đã phổ thông ở mọi nơi, việc xây dựng các mô hình máy học Machine Learning models chỉ là một bước của tất cả quá trình workload của một nhà khoa học tài liệu. Sau khoản thời gian đầu ra mô hình xử lý hậu kỳ, Data scientist sẽ truyền đạt kết quả cho những nhà quản lý, thường sử dụng các phương tiện trực quan hóa tài liệu. Khi kết quả được thông qua, nhà khoa học tài liệu đảm bảo công việc được tự động hóa hóa và được phân phối một cách thường xuyên.

Nói tóm lại, người làm Data Scientist sẽ gồm có:

  • Ứng dụng các kỹ thuật định lượng từ tri thức về thống kê, kinh tế tài chính lượng, optimizations và machine learning / deep learning về giải pháp cho doanh nghiệp từ nhiều ngành nghề
  • Vận dụng các phương pháp thống kê để xây dựng các mô hình dự đoán
  • “Mở đường” cho việc ra quyết định dựa trên insight phân tích từ các bộ data có cấu trúc và không cấu trúc
  • Xác định các nguồn tài liệu mới và khám phá tiềm năng sử dụng của chúng trong việc phát triển thêm các insight trong phát triển sản phẩm
  • Khám phá công nghệ mới và các giải pháp phân tích để sử dụng trong phát triển mô hình định lượng
  • Thiết kế và phát triển các văn bản báo cáo và bảng điều khiển và tinh chỉnh tương tác tùy chỉnh
  • Duy trì và cải thiện các mô hình hiện có
  • Truyền tải insight và các phân tích với dàn lãnh đạo và Stakeholder cũng như các phòng ban liên quan để tiến hành thay đổi/ update

Lộ trình trở thành Data Scientist trong năm 2022

kĩ năng data scientist

Tin vui cho tất cả những người dân đang dấn thân ngành Data Science: Đường learning curve của ngành này sẽ không còn quá dốc nữa – đường vào nghề ở thời khắc ngày nay đơn giản hơn rất lâu rồi rất nhiều. Từ bất kì background nào bạn cũng sẽ có thể vào ngành nghề này, đương nhiên phải kiên trì học nhiều – hiểu nhiều – cày nhiều, nhưng có thể đi chậm và chắc từ những cái cơ bản.

Các tiếng nói Lập trình cơ bản

Python

Python mãi xứng danh có một vị trí cao ổn định trong bộ toolkit của một Data Scientist. Nhiều Chuyên Viên chọn tiếng nói này vì hệ sinh thái xanh được thiết kế đặc biệt quan trọng cho khoa học tài liệu. Python có cộng đồng phân tích tài liệu lớn số 1, sẽ dễ dàng tìm thấy các ví dụ về phân tích trong Kaggle, tìm các ví dụ mã trong Stackoverflow (website hỏi đáp với hồ hết người mới mở màn và thường nâng cao vướng mắc là tốt) và thời cơ việc làm vì nó là tiếng nói phổ thông nhất trên thị trường.

SQL

Việc “nói cùng tiếng nói với database” là điều cấp thiết cho những nhà khoa học tài liệu. Các bạn sẽ cần phải thành thục SQL (xem thêm SQL là gì?) để sở hữu thể lấy thông tin từ cơ sở tài liệu bằng phương pháp sử dụng các hướng dẫn truy vấn mà không cần thiết phải nối mã tùy chỉnh.

R

Với nhiều tính năng đặc biệt quan trọng, R là tiếng nói được “làm thủ công” dành riêng cho data science và là khởi đầu cấp thiết cho những Data Scientist năm 2020. Mọi thông tin và vấn đề số liệu sẽ tiến hành xử lý bằng R.

Hadoop

Xem Thêm : Sống giản dị là gì? Biểu hiện của cách sống giản dị và ý nghĩa to lớn

Mặc dù tri thức về phương tiện này là không bắt buộc, nhưng Hadoop làm tăng giá trị và khả năng kinh nghiệm tay nghề của một nhà khoa học tài liệu, đặc biệt quan trọng nếu họ có kinh nghiệm với Hive hoặc Pig. Các phương tiện đám mây như Amazon S3 cũng sẽ có thể giúp ích rất nhiều.

Machine Learning

Không có cách nào để trốn được Machine Learning (xem thêm Machine Learning là gì?) đâu, bạn kiên cố phải hiểu hết những điều cơ bản của ML. Điều này cung cấp cho bạn một tri thức khổng lồ để hiểu cách các mô hình khác nhau hoạt động bên trong và thậm chí là nghĩ về mô hình tốt hơn cho từng vấn đề.

Có nhiều kỹ thuật phổ thông cho hồ hết mọi mô hình và bạn nên học các kỹ thuật này trước và chỉ với sau đó tập trung vào tìm hiểu sự khác biệt toán học và rõ ràng và cụ thể triển khai của chúng.

Thống kê (Statistics)

Phần tốt nhất, quan trọng nhất và không may là tương đối khó nhất để cuối cùng – Thống kê. Chính kỹ năng này sẽ phân biệt là Data scientist và Machine Learning Engineer. Không có đường tắt ở đây. Bạn nên mở màn với thống kê mô tả, biết phương pháp thực hiện phân tích tài liệu khám phá tốt (EDA) hoặc tối thiểu là các khái niệm cơ bản về xác suất và suy luận, làm rõ các khái niệm về sai lệch lựa chọn, Nghịch lý Simpson, liên kết các biến (cụ thể là phương pháp phân tích phương sai ), những điều cơ bản của suy luận thống kê (và thử nghiệm A / B nổi tiếng như suy luận được nghe biết trên thị trường), và một ý tưởng cho thiết kế thử nghiệm.

Soft Skill: Suy nghĩ như một Data Scientist

Việc tự trau dồi và rèn luyện tư duy của một Data Scientist là một trong những kỹ năng quan trọng để phân biệt giữa một Scientist giỏi và một Scientist vừa đủ. Một số gợi ý cho bạn để tự rèn luyện cho mình:

  • Luôn tò mò

Hãy luôn đặt vướng mắc “Vi sao?”, tìm liên kết và những thông tin mới với những vấn đề trong cuộc sống hằng ngày. Trong công việc, các nhà khoa học tài liệu cho ra insight từ tài liệu và thông tin từ dataset và đưa ra các quyết định quan trọng Từ đó. Việc phân tích hoàn hảo sẽ không còn hữu ích nếu nó không giải quyết và xử lý được vấn đề cơ bản. Thỉnh thoảng bạn phải trở lại, thử một cách tiếp cận mới và kiểm soát và điều chỉnh lại vướng mắc bạn đang nỗ lực trả lời. Hãy luôn đặt vướng mắc.

  • Có tính tiểu tiết

Các nhà khoa học tài liệu sử dụng rất nhiều phương tiện để quản lý quy trình công việc, tài liệu, chú thích và mã của họ. Điều quan trọng là phải thao tác làm việc khoa học, quan sát, thử nghiệm và ghi chép lại mọi lúc, để chúng ta có thể xem lại và suy nghĩ. Ngoài ra cần phải lưu lại tất cả những nghiên cứu, thông tin bạn phát hiện được không chỉ ở ngày nay – trong quá khứ nữa.

  • Biết sáng tạo

Nghe thì có vẻ xích mích, nhưng khoa học tài liệu cần được tiếp cận ở nhiều phương pháp thức – phương diện và góc nhìn khác nhau. Bạn không nhất thiết phải có background kĩ thuật, nhưng bạn phải phải có tư duy sáng tạo. Thông thường, suy nghĩ thay thế (alternative thinking) là chìa khóa cho cách bạn giải quyết và xử lý một vấn đề mới. Nó sễ đi song song của tư duy logic để giúp cho bạn thành công trong nghiên cứu và giải thuật insight.

  • Ngừng lo lắng

Bạn không nhất thiết phải là Chuyên Viên lập trình, hay tài chính hay bắt buộc từ kinh nghiệm tay nghề nào cả. Rất nhiều Data Scientist trên thế giới tới từ ngành luật hoặc kinh tế tài chính hoặc khoa học hoặc cả lương y. Tất cả nằm ở chính mình và nỗ lực mà thôi.

Nếu có thể linh hoạt và thao tác làm việc có khối hệ thống, bạn hoàn toàn có thể quen với những tool, frameworks và datasets, cũng như nhanh chóng phát triển sự thấu hiểu về về ngành và vấn đề của doanh nghiệp.

Tìm kiếm các nguồn học tập dành riêng cho Data Scientist

Các Data Science course phổ thông nhất hiện nay

  1. Machine Learning (Google ML): Các khóa học nhanh được update liên tục từ Google.
  2. Deep Learning (Kaggle Learn): Sản phẩm mới từ Kaggle bên cạnh động đồng Kaggle đang hot, từ lý thuyết nhỏ đi kèm với nhiều ứng dụng thực tế.
  3. Python for Data Science and Machine Learning (Udemy): Giảng giải rất rõ ràng ràng về các khái niệm khác nhau của tất cả khoa học tài liệu và máy học. Khóa học này sẽ giúp cho bạn thành thục thư viện scikit-learn phổ thông cho máy học. Nó cũng gồm có phần giới thiệu về Spark và TensorFlow.
  4. Complete SQL Bootcamp (Udemy): Một nhà khoa học tài liệu cần có nhiều phương tiện hơn trong kho vũ khí của mình hơn là chỉ lập trình R và Python. SQL là một tiếng nói quan trọng khác mà các bạn sẽ thường sử dụng để tương tác với cơ sở tài liệu. Khóa học này đã hỗ trợ tôi dành được thực tập ngày nay và dạy tôi mọi thứ tôi cần hiểu rõ về SQL trong hai ngày.
  5. DataCamp: DataCamp có những khoá học từ 4-6 tiếng. Các khóa học này có những video giảng giải ngắn và sau đó các bạn sẽ có những bài tập để ứng dụng các nguyên tắc từ các video. Mọi thứ xẩy ra trong trình duyệt của bạn, vì vậy bạn không phải thiết lập cấu hình bất kể thứ gì. Điều này làm cho DataCamp trở thành sự giới thiệu hoàn hảo cho lập trình R và Python.

Tham khảo các khoá học Data Science miễn phí trực tuyến tại đây

Các đầu sách về Data Scientist cần đọc

  1. Machine Learning:
    • Understanding Machine Learning: From Theory to Algorithms
    • Deep Learning
    • Machine Learning Yearning
  2. Statistic:
    • The Elements of Statistical Learning
    • An Introduction to Statistical Learning with Applications in R
  3. Data:
    • A Programmer’s Guide to Data Mining: The Ancient Art of the Numerati
    • Mining of Massive Datasets

Github cần follow:

Các đầu git không thể bỏ qua nếu như đang dấn thân vào DS:

  • Awesome Deep Learning
  • Awesome Machine Learning
  • Awesome NLP
  • Awesome RL
  • Awesome Text Summarization
  • Awesome Recommender Systems

Hy vọng với thông tin từ bài blog sẽ cung cấp được tri thức hữu ích về Data Scientist là gì rồi cũng như các lộ trình cơ bản để trở thành lập trình Data Scientist tương lại. TopDev Blog cũng sẽ tiếp tục series về Data Science trong thời kì sắp đến. Đừng bỏ lỡ nhé!

Có thể bạn quan tâm:

  • Tổng hợp Cheat Sheets cho AI, Neural Networks, Machine Learning, Deep Learning và Big Data
  • Data visualization trong Machine Learning
  • Rèn giũa mindset của một Data Scientist

Xem thêm việc làm Data Scientisttrên TopDev

You May Also Like

About the Author: v1000