Tương lai nghề nghiệp với Khoa học dữ liệu (Data Science)

Công nghệ thông tin

| 04 tháng 2 2021

| bởi CTW.vn

Chúng ta sẽ có những thông tin gì ở bài viết này?
Data Science là gì?

Data Science được định nghĩa là tất cả những gì về thu thập, khai thác và phân tích dữ liệu để tìm ra insight giá trị. Sau đó trực quan hóa các Insight cho các bên liên quan, để chuyển hóa Insight thành hành động. Đây là lĩnh vực đa ngành sử dụng các phương pháp và quy trình khoa học để rút ra insight từ dữ liệu.

Data Science và các lĩnh vực liên quan

Với sự xuất hiện của công nghệ mới các dữ liệu đã tăng lên theo cấp số nhân. Điều này đã đem đến một cơ hội mới để phân tích cũng như chuyển hóa các Insight ý nghĩa từ Data.

Theo đó, yêu cầu bức thiết đặt ra cần có một chuyên gia “Data Scientist”, người mà có khả năng dùng các công cụ thống kê và Machine learning (một lĩnh vực nhỏ của Khoa Học Máy Tính, công cụ có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể).

Một Data Scientist (Nhà khoa học dữ liệu) không chỉ dừng lại ở việc phân tích dữ liệu, mà còn biết sử dụng thuật toán Machine Learning để dự đoán tương lai của một sự kiện.

Do đó, có thể hiểu Data Science là một lĩnh vực liên quan đến xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng các phương pháp thống kê và thuật toán máy tính khác nhau. Đây là một lĩnh vực đa ngành kết hợp Toán học, Thống kê và Khoa học máy tính.

Tầm quan trọng của Data Science

Các công ty phụ thuộc vào nền tảng dữ liệu để cấu trúc, phát triển và cải tiến doanh nghiệp. Các Data Scientist làm việc với các con số, phân tích một một khối lượng lớn Data để xuất ra những Insight ý nghĩa. Những insight này rất hữu ích khi phân tích công ty và các hoạt động của công ty trên thị trường từ đó đưa ra các quyết định đúng đắn.

Cũng như các ngành công nghiệp thương mại khác, ngành chăm sóc sức khỏe cũng ứng dụng Data Science. Nơi mà công nghệ đang có nhu cầu rất lớn để nhận dạng các khối u siêu nhỏ ngay từ giai đoạn đầu.

Thống kê chỉ ra số lượng vai trò của các Data Scientist đã tăng trưởng 650% kể từ năm 2012. Khoảng 11,5 triệu việc làm liên quan đến chức danh này sẽ được tạo ra đến năm 2026 (theo  U.S. Bureau of Labor Statistics). Bên cạnh đó công việc của các Data Scientist được xếp hạng top các công việc nổi bật trên LinkedIn.

Chu trình Data Science

Chu trình Data Science có 3 giai đoạn:

  • Chuẩn bị – Dữ liệu được thu thập và làm sạch. Điều này cần một lượng thời gian đáng kể vì hầu hết dữ liệu còn nhiễu, có nghĩa là cần thực hiện các bước để cải thiện chất lượng và chuyển nó sang thành định dạng mà máy có thể hiểu và đọc.
  • Thử nghiệm – Đây là nơi các giả thuyết được tạo ra, dữ liệu được trực quan hóa và các mô hình được tạo ra. Điều này mất ít thời gian hơn so với khâu Chuẩn bị.
  • Phân phối – Báo cáo kết quả được ghi lại thành tài liệu, slideshow trình bày cho quản lý và một khi quản lý thông qua, các quyết định sẽ được truyền tải xuống để thay đổi.

Khi kết thúc quy trình, phần triển khai này sẽ là lúc một Business Value (cột mốc) mới cho doanh nghiệp được tạo ra.

Data Scientist - Chuyên gia khoa học dữ liệu

Data Scientist (kỹ sư khoa học dữ liệu) là những người phân tích, sắp xếp và thay dữ liệu “kể chuyện”, bất kể nó có cấu trúc hay không. Công việc của họ sẽ cần phối hợp giữa cả khoa học máy tính, thống kê và toán học. Họ sẽ là người phân tích, xử lý và “mô hình hóa” các dữ liệu, sau đó diễn giải các kết quả để tạo ra các kế hoạch hoạt động cho team và doanh nghiệp. 

Nói một cách dễ hiểu, nghề data scientist làm việc cũng dữ liệu và cho ra các insight mang tính phân tích. Họ sẽ truyền đạt các phát hiện và insight này với các bên liên quan – từ lãnh đạo cấp cao, quản lý đến khách hàng. Từ đó các công ty có thể trực tiếp hưởng lợi từ việc đưa ra các quyết định sáng suốt nhất để thúc đẩy tăng trưởng kinh doanh và lợi nhuận của họ (tức là, phụ thuộc vào bối cảnh của các ngành công nghiệp).

Tại Việt Nam, ngành CNTT cũng đang chứng kiến sự tăng trưởng tiềm năng của ngành Khoa học dữ liệu. Ngày càng có nhiều doanh nghiệp quan tâm hơn tới ngành khoa học dữ liệu và sẵn sàng đổ tiền cho việc nghiên cứu và phát triển. Không sai khi nói nghề Data Scientist đang là một trong những ngành hot nhất trên thị trường Việt Nam, liệu bạn hiểu rõ về nó?

Công việc của một Data Scientist

Mục tiêu của bộ phận Data Science là làm sao để các bộ phận các tại Doanh nghiệp có thể đưa ra các quyết định dựa trên dữ liệu tốt hơn. Vì thế Data Science có vai trò hỗ trợ (tương tự như CNTT) cho phép tổ chức hoạt động tốt hơn và tăng giá trị nhanh hơn thông qua việc ra quyết định tốt hơn.

Luồng công việc của bộ phận Data Science sẽ gồm các Cột mốc quan trọng (đám mây), các giai đoạn (đường kẻ đứt nét) và các bước (box màu xám). Quy trình bắt đầu từ một vấn đề cụ thể (Cột mốc 1) – doanh nghiệp sẽ ưu tiên đưa vấn đề này đến nhóm khoa học dữ liệu và họ sẽ bắt đầu vào quy trình quản lý dự án.

Workload của một Data Scientist

Nhìn vào nhánh Data Science, hầu hết mọi người sẽ nói rằng Data Science = Machine Learning. Tuy nhiên trên thực tế, Machine Learning (hoặc Modeling) sẽ chỉ chiếm khoảng 20% trong workload của một Data Scientist. Phần trăm công việc của Data Scientist được phân chia như sau:

  • Hiểu vấn đề của doanh nghiệp: Tiếp xúc và giao tiếp với Lãnh đạo/ Khách hàng (15%)
  • Làm việc của Dữ liệu: Lọc sạch dữ liệu, Học data, Visual hoá, Xử lý, Chuyển đổi, và Thấu hiểu (70%)
  • Truyền tải kết quả: Báo cáo, Soạn Slide Decking, và Build nên Công cụ ra quyết định tự động) (15%)
  • Data scientist sẽ dựa vào phân tích dự đoán, học máy, điều hòa dữ liệu, mô hình toán học và phân tích thống kê. 
  • Mặc dù sự hiểu nhầm trên gần như đã phổ biến ở mọi nơi, việc xây dựng các mô hình máy học Machine Learning models chỉ là một bước của cả quá trình workload của một nhà khoa học dữ liệu. Sau khi đầu ra mô hình xử lý hậu kỳ, Data scientist sẽ truyền đạt kết quả cho các nhà quản lý, thường sử dụng các phương tiện trực quan hóa dữ liệu. Khi kết quả được thông qua, nhà khoa học dữ liệu đảm bảo công việc được tự động hóa và được phân phối một cách thường xuyên.

Nói tóm lại, người làm Data Scientist sẽ bao gồm:

  • Áp dụng các kỹ thuật định lượng từ kiến thức về thống kê, kinh tế lượng, optimizations và machine learning / deep learning về giải pháp cho doanh nghiệp từ nhiều lĩnh vực
  • Vận dụng các phương pháp thống kê để xây dựng các mô hình dự đoán
  • “Mở đường” cho việc ra quyết định dựa trên insight phân tích từ các bộ data có cấu trúc và không cấu trúc
  • Xác định các nguồn dữ liệu mới và khám phá tiềm năng sử dụng của chúng trong việc phát triển thêm các insight trong phát triển sản phẩm 
  • Khám phá công nghệ mới và các giải pháp phân tích để sử dụng trong phát triển mô hình định lượng
  • Thiết kế và phát triển các báo cáo và bảng điều khiển tương tác tùy chỉnh
  • Duy trì và cải thiện các mô hình hiện có
  • Truyền tải insight và các phân tích với dàn lãnh đạo và Stakeholder cũng như các phòng ban liên quan để tiến hành thay đổi/ cập nhật
Các công việc khác trong ngành Khoa học dữ liệu

1. Data Analyst

Vai trò thứ hai được biết đến là Data Analyst. Data Scientist và Data Analyst đôi khi bị trùng lặp, một công ty sẽ thuê bạn và bạn sẽ được gọi là “nhà khoa học dữ liệu” khi phần lớn công việc bạn sẽ làm là phân tích dữ liệu.

Các lập trình phân tích dữ liệu chịu trách nhiệm về các nhiệm vụ khác nhau như trực quan hóa, chuyển đổi và thao tác dữ liệu. Đôi khi họ cũng chịu trách nhiệm theo dõi phân tích trang web và phân tích thử nghiệm A / B.

Vì các nhà phân tích dữ liệu phụ trách trực quan hóa, họ thường chịu trách nhiệm chuẩn bị dữ liệu để liên lạc với bộ phận kinh doanh của dự án bằng cách chuẩn bị các báo cáo thể hiện hiệu quả các xu hướng và thông tin chi tiết thu thập được từ phân tích của họ.

2. Data Engineer

Data Engineer chịu trách nhiệm thiết kế, xây dựng và bảo trì các data pipelines. Họ cần kiểm tra hệ sinh thái cho các doanh nghiệp và chuẩn bị cho các nhà khoa học dữ liệu chạy các thuật toán của họ.

Các kỹ sư dữ liệu cũng làm việc trên xử lý hàng loạt dữ liệu được thu thập và khớp định dạng với dữ liệu được lưu trữ. Tóm lại, họ đảm bảo rằng dữ liệu đã sẵn sàng để được xử lý và phân tích.

Cuối cùng, họ cần giữ cho hệ sinh thái và pipeline được tối ưu hóa hiệu quả, đồng thời đảm bảo rằng dữ liệu có sẵn cho các nhà khoa học và phân tích dữ liệu sử dụng.

3. Data Architect

Data Architect có một số trách nhiệm chung với các kỹ sư dữ liệu. Cả hai đều cần đảm bảo rằng dữ liệu được định dạng tốt và có thể truy cập được cho các data scientists và analysts cải thiện hiệu suất của các data pipelines.

Bên cạnh đó, các kiến trúc sư dữ liệu cần thiết kế và tạo ra các hệ thống cơ sở dữ liệu mới phù hợp với yêu cầu của một mô hình kinh doanh cụ thể và yêu cầu công việc.

Họ cần duy trì các hệ thống cơ sở dữ liệu này, cả từ quan điểm chức năng và quản trị. Vì vậy, họ cần theo dõi dữ liệu và quyết định ai có thể xem, sử dụng và thao tác các phần khác nhau của dữ liệu.

4. Data Storyteller

Đây có lẽ là vị trí công việc mới nhất trong ngành Khoa học dữ liệu, là một vai trò quan trọng và sáng tạo.

Thông thường, Data Storytelling dễ bị nhầm lẫn với trực quan hóa dữ liệu. Mặc dù có chung một số điểm chung, data storytelling không chỉ là trực quan hóa dữ liệu, lập báo cáo và số liệu thống kê; đúng hơn, đó là việc tìm kiếm câu chuyện để mô tả tốt nhất dữ liệu và sử dụng nó để diễn đạt.

Nó nằm ngay giữa dữ liệu thô, thuần túy và giao tiếp của con người. Người kể chuyện dữ liệu cần tiếp nhận một số dữ liệu, đơn giản hóa dữ liệu, tập trung vào một khía cạnh cụ thể, phân tích hành vi và sử dụng thông tin chi tiết của mình để tạo ra một câu chuyện hấp dẫn giúp mọi người hiểu rõ hơn về dữ liệu.

5. Machine Learning Scientist

Thông thường, khi bạn thấy thuật ngữ “nhà khoa học” trong vai trò công việc, điều đó cho thấy vai trò công việc này đòi hỏi phải thực hiện nghiên cứu và đưa ra các thuật toán và thông tin chi tiết mới.

Machine Learning Scientist có cách tiếp cận thao tác dữ liệu mới và thiết kế các thuật toán mới để sử dụng. Họ thường là một phần của bộ phận R&D, và công việc của họ thường dẫn đến các bài nghiên cứu. Công việc của họ gần với học thuật hơn, ngoài ra còn có 1 vài vị trí dùng để nói về lập trình viên Machine learning scientists đó là Research Scientist hoặc Research Engineer.

6. Machine Learning Engineer

Hiện nay, vị trí công việc Machine Learning Engineer đang rất hot. Họ cần phải thành thạo các thuật toán học máy khác nhau như clustering, categorization, và classification, luôn cập nhật những tiến bộ nghiên cứu mới nhất trong lĩnh vực này.

Để thực hiện đúng công việc của mình, các kỹ sư học máy cần phải có kỹ năng thống kê và lập trình.

Ngoài việc thiết kế và xây dựng các hệ thống học máy, các kỹ sư học máy cần chạy các bài kiểm tra – chẳng hạn như các bài kiểm tra A / B – theo dõi hiệu suất và chức năng của các hệ thống khác nhau.

7. Business Intelligence Developer

Các nhà phát triển Business Intelligence – còn được gọi là lập trình viên BI – phụ trách thiết kế và phát triển các chiến lược cho phép người dùng doanh nghiệp tìm thấy thông tin họ cần để đưa ra quyết định một cách nhanh chóng và hiệu quả

Bên cạnh đó, họ cũng cần phải thành thạo khi sử dụng các công cụ BI mới hoặc thiết kế các công cụ tùy chỉnh cung cấp phân tích và thông tin chi tiết về doanh nghiệp để hiểu hệ thống tốt hơn.

Công việc của lập trình viên BI chủ yếu là theo định hướng kinh doanh; đó là lý do tại sao họ cần có hiểu biết cơ bản về các nguyên tắc của mô hình kinh doanh và cách triển khai.

8. Database Administrator

Đôi khi team thiết kế cơ sở dữ liệu và team sử dụng khác nhau. Hiện nay, nhiều công ty có thể thiết kế một hệ thống cơ sở dữ liệu dựa trên các yêu cầu kinh doanh cụ thể. Tuy nhiên, việc quản lý cơ sở dữ liệu được thực hiện bởi công ty mua cơ sở dữ liệu hoặc yêu cầu thiết kế.

Trong những trường hợp như vậy, mỗi công ty thuê một người – hoặc một số người chịu trách nhiệm quản lý hệ thống cơ sở dữ liệu. Một quản trị viên cơ sở dữ liệu sẽ chịu trách nhiệm giám sát cơ sở dữ liệu, đảm bảo rằng hoạt động bình thường, theo dõi các dữ liệu, tạo các bản sao lưu và khôi phục.

Họ cũng chịu trách nhiệm cấp các quyền khác nhau cho các nhân viên khác nhau dựa trên yêu cầu công việc và mức độ tuyển dụng.

9. Các vai trò chuyên biệt về công nghệ

Khoa học dữ liệu vẫn là một lĩnh vực đang phát triển; khi nó phát triển, các công nghệ cụ thể hơn sẽ xuất hiện, chẳng hạn như AI hoặc các thuật toán ML cụ thể. Khi lĩnh vực này phát triển theo cách đó, các vai trò công việc chuyên biệt mới sẽ được tạo ra — ví dụ: chuyên gia AI, chuyên gia Deep Learning, chuyên gia NLP, v.v.

Các vai trò công việc này cũng áp dụng cho các nhà khoa học và phân tích dữ liệu. Ví dụ: chuyên gia DS vận hành hoặc Marketing Storyteller, v.v. Các vai trò công việc như vậy sẽ đặc biệt về các trách nhiệm và sẽ giảm bớt khối lượng công việc cho các lập trình viên khoa học dữ liệu và kỹ sư nói chung.

Nguồn bài viết
Cố vấn việc làm

Bạn cần được cố vấn việc làm và tìm việc, hãy click vào đây

Ngoài ra, để luôn được cập nhật thông tin tuyển dụng mới nhất, hãy tham gia vào nhóm 𝗭𝗮𝗹𝗼 của 𝗖𝗮𝗻𝗧𝗵𝗼𝗪𝗼𝗿𝗸.𝘃𝗻 cho từng lĩnh vực:

Bài viết liên quan