Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu?
Những bài viết hữu ích từ Quora

Danh sách bài học
Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu?
Nội dung bài viết Học nhanh
- Dẫn Nhập
- Câu hỏi
- Thảo luận
- William Chen, nhà nghiên cứu định lượng tại Two Sigma.
- Bước 1. Đảm bảo các điều kiện đầu tiên cần thiết ở bạn.
- Bước 2. Tự gắn mình vào cộng đồng.
- Bước 3. Thiết lập và tìm hiểu các công cụ cần thiết cho khoa học dữ liệu.
- Bước 4. Tìm hiểu Xác suất và Thống kê.
- Bước 5. Hoàn thành khóa học khoa học dữ liệu của Harvard.
- Bước 6. Thực hiện tất cả các cuộc thi Getting Started và Playground Competitions của Kaggle.
- Tải xuống
- Thảo luận
Dẫn Nhập
Hi mọi người! Đây là bài dịch trong chuỗi bài NHỮNG BÀI VIẾT HỮU ÍCH TỪ QUORA của website Howkteam.com & các Kter tâm huyết, Mong muốn mang lại thêm nhiều kiến thức hữu ích từ các nguồn kiến thức nước ngoài đến với cộng đồng. Hy vọng các bạn sẽ thích những kiến thức được đề cập trong các bài dịch hữu ích này! Cảm ơn các bạn!
Bạn có thể tham gia đóng góp bài dịch bằng cách đăng ký cùng Kteam qua: Fanpage How Kteam
Câu hỏi
“Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu?”
Thảo luận
William Chen, nhà nghiên cứu định lượng tại Two Sigma.
Dưới đây là một số tài liệu trực tuyến được đánh giá cao và hoàn toàn miễn phí mà bạn có thể sử dụng để tự học khoa học dữ liệu.
Bên cạnh đó, tôi rất khuyến khích các bạn theo dõi mục Data Science của Quora nếu bạn chưa được cập nhật các câu hỏi và câu trả lời mới.
Bước 1. Đảm bảo các điều kiện đầu tiên cần thiết ở bạn.
Trước khi bắt đầu, bạn cần biết Tính Toán Đa Biến, Đại Số Tuyến Tính và Python. Nếu bạn đã từng học Tính Toán Đa Biến, Đại Số Tuyến Tính, bạn đã có đủ nền tảng để hiểu hầu hết tất cả các xác suất / thống kê / học máy cho công việc.
- Tính Toán Đa Biến: What are the best resources for mastering multivariable calculus?
- Đại Sô Tuyến Tính: Linear Algebra, Introduction to Linear Models and Matrix Algebra. Tránh các lớp Đại Số Tuyến Tính quá lý thuyết, bạn cần một lớp Đại Số Tuyến Tính hoạt động với ma trận thực.
Tính Toán Đa Biến rất hữu ích cho một số phần của học máy và rất nhiều thứ khác liên quan. Đại Số Tuyến Tính / ma trận là hoàn toàn cần thiết cho rất nhiều khái niệm trong học máy.
Bạn cũng cần một số nền tảng lập trình để bắt đầu, tốt nhất là bằng Python. Những điều khác trong hướng dẫn này có thể được học trong lúc luyện tập (như random forests, pandas, thử nghiệm A / B), nhưng bạn không thể làm việc mà không biết cách lập trình!
Python là ngôn ngữ quan trọng nhất mà một nhà khoa học dữ liệu cần phải học. Để tìm hiểu về mã, tìm hiểu thêm về Python và tại sao Python lại quan trọng như vậy, hãy xem qua:
- How do I learn to code?
- How do I learn Python?
- Why is Python a language of choice for data scientists?
- Is Python the most important programming language to learn for aspiring data scientists and data miners?
R là ngôn ngữ quan trọng thứ hai để một nhà khoa học dữ liệu học hỏi. Tôi nói điều này vì tôi là một người có nền tảng thống kê và người đã trải qua đại học chủ yếu chỉ sử dụng R. Trong khi R rất hữu dụng cho các nhiệm vụ thống kê chuyên dụng, Python linh hoạt hơn vì nó sẽ kết nối bạn nhiều hơn với công việc ở cấp độ sản xuất.
Nếu bạn đang ở trường, hãy tham gia các lớp học thống kê và khoa học máy tính. Kiểm tra What classes should I take if I want to become a data scientist?
Bước 2. Tự gắn mình vào cộng đồng.
Xem qua Meetup để tìm thêm một số người làm cùng! Tham dự một buổi nói chuyện chung, trao đổi về khoa học dữ liệu trực tiếp và gặp gỡ các nhà khoa học dữ liệu, các nhà khoa học dữ liệu giỏi khác. Bắt đầu đọc blog khoa học dữ liệu và theo dõi các nhà khoa học dữ liệu có ảnh hưởng:
- What are the best, insightful blogs about data, including how businesses are using data?
- What is your source of machine learning and data science news? Why?
- What are some best data science accounts to follow on Twitter, Facebook, G+, and LinkedIn?
- What are the best Twitter accounts about data?
Bước 3. Thiết lập và tìm hiểu các công cụ cần thiết cho khoa học dữ liệu.
Python
- Cài đặt Python, iPython, và các thư viện có liên quan (guide)
- Đọc How do I learn Python?
R
Sublime Text
SQL
- How do I learn SQL? What are some good online resources, like websites, blogs, or videos? (Bạn có thể luyện tập bằng cách dùng gói sqlite trong Python)
Bước 4. Tìm hiểu Xác suất và Thống kê.
Hãy chắc chắn bạn đã học một khóa liên quan đến ứng dụng nặng trong R hoặc Python. Biết xác suất và thống kê sẽ chỉ thực sự hữu ích nếu bạn có thể thực hiện những gì bạn học.
- Ứng dụng Python: Think Stats (free pdf) (Trọng tâm Python)
- Ứng dụng R: An Introduction to Statistical Learning (free pdf)(MOOC) (Trọng tâm R)
- Đi in một bản Probability Cheatsheet để đọc
Bước 5. Hoàn thành khóa học khoa học dữ liệu của Harvard.
Kể từ mùa thu năm 2015, khóa học này đã có ở năm thứ ba và cố gắng để có thể áp dụng một cách hữu ích nhất cho các sinh viên quan tâm đến việc trở thành nhà khoa học dữ liệu.
Tôi khuyên bạn nên thực hành mục các phòng thí nghiệm và bài giảng từ năm 2015 và bài tập về nhà từ năm 2013 (bài tập về nhà năm 2015 không có sẵn cho công chúng, và bài tập về nhà năm 2014 đã được thay đổi tác giả).
Khóa học này được phát triển một phần bởi một người dùng Quora, Giáo sư Joe Blitzstein. Dưới đây là tất cả các tài liệu!
Giới thiệu về khóa học:
- What is it like to design a data science class? In particular, what was it like to design Harvard's new data science class, taught by professors Joe Blitzstein and Hanspeter Pfister?
- What is it like to take CS 109/Statistics 121 (Data Science) at Harvard?
Tài liệu khóa học:
- Trang chính của khóa học: CS109 Data Science
- Bài giảng, slides và Labs: Class Material
Bài tập:
- Giới thiệu về Python, Numpy, Matplotlib (Homework 0) (Solutions)
- Poll Aggregation , Web Scraping, Plotting, Model Evaluation, và Forecasting (Homework 1) (Solutions)
- Data Prediction, Manipulation, và Evaluation (Homework 2) (Solutions)
- Predictive Modeling, Model Calibration, Sentiment Analysis (Homework 3) (Solutions)
- Recommendation Engines, Using Mapreduce (Homework 4) (Solutions)
- Network Visualization và Analysis (Homework 5) (Solutions)
Lab:
(đây là Labs năm 2013, đối với các Labs năm 2015, hãy xem trong Class Material)
- Lab 2: Web Scraping
- Lab 3: EDA, Pandas, Matplotlib
- Lab 4: Scikit-Learn, Regression, PCA
- Lab 5: Bias, Variance, Cross-Validation
- Lab 6: Bayes, Linear Regression, and Metropolis Sampling
- Lab 7: Gibbs Sampling
- Lab 8: MapReduce
- Lab 9: Networks
- Lab 10: Support Vector Machines
Bước 6. Thực hiện tất cả các cuộc thi Getting Started và Playground Competitions của Kaggle.
Tôi sẽ KHÔNG khuyên bạn nên thực hiện bất kỳ cuộc thi tiền thưởng nào. Họ thường có các bộ dữ liệu quá lớn, phức tạp hoặc gây phiền nhiễu và không tốt cho việc học. Các cuộc thi có sẵn tại Competitions | Kaggle
Bắt đầu bằng cách học scikit-learn, chơi trò chơi, đọc các hướng dẫn và diễn đàn về các cuộc thi mà bạn đang làm. Tiếp theo, bạn nên tìm hiểu về hướng dẫn Titanic: Machine Learning from Disaster cho các nhiệm vụ phân loại nhị phân (với các biến phân loại, giá trị bị thiếu, v.v.)
Sau đó, hãy thử một số phân loại nhiều lớp với Forest Cover Type Prediction. Bây giờ, hãy thử một nhiệm vụ hồi quy House Prices: Advanced Regression Techniques. Hãy thử xử lý một số vấn đề với Quora Question Pairs | Kaggle. Cuối cùng, hãy thử bất kỳ cuộc thi dựa trên kiến thức nào khác mà bạn quan tâm!
Bài viết này chỉ là phần 1, tuần sau Kteam sẽ ra tiếp phần 2 cho các bạn, cùng đón xem và học tập để giỏi hơn nhé. Cám ơn các bạn.
Bài dịch có thể vẫn chưa phải là bản dịch sát nhất, hay hoàn chỉnh nhất. Vì vậy, nếu bạn có hứng thú với bài này, bạn có thể tiếp tục dịch các phần trả lời tiếp theo và đóng góp thêm bản dịch chất lượng đến cộng đồng qua phần comment nhé! Cảm ơn các bạn!
Tải xuống
Tài liệu
Nhằm phục vụ mục đích học tập Offline của cộng đồng, Kteam hỗ trợ tính năng lưu trữ nội dung bài học Làm thế nào tôi có thể trở thành một nhà khoa học dữ liệu? dưới dạng file PDF trong link bên dưới.
Ngoài ra, bạn cũng có thể tìm thấy các tài liệu được đóng góp từ cộng đồng ở mục TÀI LIỆU trên thư viện Howkteam.com
Đừng quên like và share để ủng hộ Kteam và tác giả nhé!

Thảo luận
Nếu bạn có bất kỳ khó khăn hay thắc mắc gì về khóa học, đừng ngần ngại đặt câu hỏi trong phần bên dưới hoặc trong mục HỎI & ĐÁP trên thư viện Howkteam.com để nhận được sự hỗ trợ từ cộng đồng.
Nội dung bài viết
- Dẫn Nhập
- Câu hỏi
- Thảo luận
- William Chen, nhà nghiên cứu định lượng tại Two Sigma.
- Bước 1. Đảm bảo các điều kiện đầu tiên cần thiết ở bạn.
- Bước 2. Tự gắn mình vào cộng đồng.
- Bước 3. Thiết lập và tìm hiểu các công cụ cần thiết cho khoa học dữ liệu.
- Bước 4. Tìm hiểu Xác suất và Thống kê.
- Bước 5. Hoàn thành khóa học khoa học dữ liệu của Harvard.
- Bước 6. Thực hiện tất cả các cuộc thi Getting Started và Playground Competitions của Kaggle.
- Tải xuống
- Thảo luận
Thanks ads