DM Assignment 2

Assignment Machine Learning Algorithm

Uploaded by

Memoona Ishfaq

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views2 pages

DM Assignment 2

Assignment Machine Learning Algorithm

Uploaded by

Memoona Ishfaq

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

COMSATS UNIVERSITY ISLAMABAD

Department of Computer Science

Assignment No. 2

Course: Data Mining (DSC306) Total marks 10

[CLO 2 Apply preprocessing and classification techniques to solve classification problems of

moderate complexity.]

Applying Pre-processing and Classification Techniques

Objective:
The purpose of this assignment is to apply pre-processing and classification techniques to solve
classification problems of moderate complexity. Students will gain hands-on experience with data
preparation, feature selection, model training, and evaluation.
1. Data Selection:
• Choose a dataset that presents a classification problem of moderate complexity. This could
be from sources like UCI Machine Learning Repository, Kaggle, or any other relevant
source.
• Provide a brief description of the dataset, including the number of instances, features, and
the target variable.
2. Data Pre-processing:
• Data Cleaning: Handle missing values, remove duplicates, and correct inconsistencies in
the dataset.
• Data Transformation: Normalize or standardize the data as necessary. Convert categorical
variables into numerical format using techniques such as one-hot encoding or label
encoding.
• Feature Selection: Identify and select relevant features that contribute to the classification
task. You can use techniques like correlation analysis, recursive feature elimination, or
feature importance from tree-based models.
3. Model Selection and Training:
• Apply at least two classification models (Decision Trees, Random Forest, Support Vector
Machines, or Neural Networks.)
• Split your dataset into training and testing sets (e.g., 80/20 split).
• Train the selected models on the training set.
4. Model Evaluation:
• Evaluate the performance of your models using appropriate metrics such as accuracy,
precision, recall, F1-score, and ROC-AUC.
• Create confusion matrices for each model to visualize performance.
• Discuss the strengths and weaknesses of each model based on the evaluation metrics.
5. Hyperparameter Tuning:
• For one of the models, perform hyperparameter tuning using techniques like Grid Search
or Random Search to optimize performance.
• Report the best parameters and the resulting performance metrics.
6. Conclusion:
• Summarize your findings, including which model performed best and why.
• Discuss any challenges faced during the pre-processing and modeling phases and how you
overcame them.

Deliverables:
• A well-documented Jupyter Notebook containing:
• Code for each step of the assignment.
• Visualizations where applicable (e.g., plots for data distribution, confusion matrices).
• Comments explaining your thought process and decisions made throughout the
assignment.
• (Optional) A written report (2-3 pages) summarizing your approach, findings, and conclusions.

Evaluation Criteria:

Your assignment will be evaluated based on the following criteria:

1. Dataset Selection and Description (1 points):
• Appropriateness of the chosen dataset for a moderate complexity classification problem.
• Clarity and completeness of the dataset description.
2. Data Pre-processing (1 points):
• Effectiveness of data cleaning methods applied.
• Appropriateness of data transformation techniques used.
• Justification for feature selection methods and the relevance of selected features.
3. Model Selection and Training (3 points):
• Justification for the choice of classification algorithms.
• Correct implementation of data splitting and model training.
4. Model Evaluation (3 points):
• Use of appropriate evaluation metrics and clarity in presenting results.
• Quality of confusion matrices and analysis of model performance.
• Depth of discussion regarding the strengths and weaknesses of each model.
5. Hyperparameter Tuning (2 points):
• Effectiveness of the hyperparameter tuning process.
• Clarity in reporting the best parameters and their impact on model performance.
6. Conclusion and Reporting:
• Clarity and depth of the summary of findings.
• Insightfulness in discussing challenges faced and solutions implemented.
• Overall organization and professionalism of the written report and code documentation.

Project On Data Mining: Prepared by Ashish Pavan Kumar K PGP-DSBA at Great Learning
No ratings yet
Project On Data Mining: Prepared by Ashish Pavan Kumar K PGP-DSBA at Great Learning
50 pages
Worksheet No. 4 Writing Numbers in Symbols and in Words
100% (2)
Worksheet No. 4 Writing Numbers in Symbols and in Words
4 pages
Python Machine Learning For Beginners Learning From Scratch Numpy Pandas Matplotlib Seaborn SKle
100% (1)
Python Machine Learning For Beginners Learning From Scratch Numpy Pandas Matplotlib Seaborn SKle
277 pages
ML Algorithms for Data Scientists
100% (1)
ML Algorithms for Data Scientists
148 pages
Cryptarithmetic Problem
No ratings yet
Cryptarithmetic Problem
4 pages
Activity Book For KIds
No ratings yet
Activity Book For KIds
106 pages
Data Mining & Machine Learning Courseoutline
No ratings yet
Data Mining & Machine Learning Courseoutline
7 pages
Artificial Intelligence 1
No ratings yet
Artificial Intelligence 1
205 pages
Data Mining - Lab 2
No ratings yet
Data Mining - Lab 2
5 pages
Fundamental of Programming Chapter 1
100% (2)
Fundamental of Programming Chapter 1
46 pages
Problem Statement For Assignment Part 2
No ratings yet
Problem Statement For Assignment Part 2
1 page
Assignment - #4 - Decision Tree and Ensemble - Final
No ratings yet
Assignment - #4 - Decision Tree and Ensemble - Final
2 pages
What Does This File Say - What Should I Do - I Have
No ratings yet
What Does This File Say - What Should I Do - I Have
14 pages
AI Course Help Guide
No ratings yet
AI Course Help Guide
3 pages
W2. Homework - Pipeline
No ratings yet
W2. Homework - Pipeline
1 page
CS60050 - Machine Learning - Programming Assignment - 3
No ratings yet
CS60050 - Machine Learning - Programming Assignment - 3
5 pages
MLAH Assessment2024 2025
No ratings yet
MLAH Assessment2024 2025
5 pages
Supervised Machine Learning Final Project
No ratings yet
Supervised Machine Learning Final Project
6 pages
Practical Assignment. Applying Methods of Machine Learning With Example
No ratings yet
Practical Assignment. Applying Methods of Machine Learning With Example
2 pages
Workflow For A New Dataset in Kaggle
No ratings yet
Workflow For A New Dataset in Kaggle
3 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
Credit Card Approval Prediction Report-Final
No ratings yet
Credit Card Approval Prediction Report-Final
27 pages
Semester Project Description and Instructions
No ratings yet
Semester Project Description and Instructions
3 pages
Machine Learning Assignment-02
No ratings yet
Machine Learning Assignment-02
2 pages
Assignment - Machine Learning
No ratings yet
Assignment - Machine Learning
3 pages
Assignment-2 IDS
No ratings yet
Assignment-2 IDS
2 pages
Project Guidelines Credit Score Classification
No ratings yet
Project Guidelines Credit Score Classification
3 pages
ML Assignment
No ratings yet
ML Assignment
34 pages
Mid-Term Project (Stroke Risk Classification)
No ratings yet
Mid-Term Project (Stroke Risk Classification)
3 pages
A1991370857 65680 10 2025 Csm355ca1
No ratings yet
A1991370857 65680 10 2025 Csm355ca1
6 pages
Technical Assignment 2
No ratings yet
Technical Assignment 2
3 pages
Subject - Machine Learning Group - E27-24 Name
No ratings yet
Subject - Machine Learning Group - E27-24 Name
18 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
ML Viva Practice (Answers)
No ratings yet
ML Viva Practice (Answers)
4 pages
Heart Merged
No ratings yet
Heart Merged
8 pages
Capstone Project - Jaro-Prof. Babji
No ratings yet
Capstone Project - Jaro-Prof. Babji
5 pages
Assignment
No ratings yet
Assignment
5 pages
Assignment 2 - Bayesian Classification
No ratings yet
Assignment 2 - Bayesian Classification
2 pages
Data Science Checklist
No ratings yet
Data Science Checklist
22 pages
How A Perfect Machine Model Should Be Done
No ratings yet
How A Perfect Machine Model Should Be Done
5 pages
Final Report
No ratings yet
Final Report
17 pages
MLT 1 - 7 Kanish
No ratings yet
MLT 1 - 7 Kanish
24 pages
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
9 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
ML Checklist PDF
No ratings yet
ML Checklist PDF
4 pages
DS Assignment
No ratings yet
DS Assignment
7 pages
Data Science Interns Tasks
No ratings yet
Data Science Interns Tasks
2 pages
Objective
No ratings yet
Objective
3 pages
Data Preparation Basics#
No ratings yet
Data Preparation Basics#
2 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
Ce473 Project - Fall 2024
No ratings yet
Ce473 Project - Fall 2024
8 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
38 pages
Capstone Project Guidelines
No ratings yet
Capstone Project Guidelines
2 pages
Answer
No ratings yet
Answer
5 pages
Binary Search Tree
No ratings yet
Binary Search Tree
22 pages
Capstone 2 Corizo
No ratings yet
Capstone 2 Corizo
2 pages
Assignment Instructions For The Data Analytics Report
No ratings yet
Assignment Instructions For The Data Analytics Report
5 pages
Machine Learning Project Guide
No ratings yet
Machine Learning Project Guide
3 pages
Digital Computer Fundamentals
No ratings yet
Digital Computer Fundamentals
7 pages
CM2060 NLP Coursework
No ratings yet
CM2060 NLP Coursework
5 pages
Cos 202
No ratings yet
Cos 202
28 pages
DM Lab Assignment 2
No ratings yet
DM Lab Assignment 2
2 pages
AI ML and Data Science PDF
No ratings yet
AI ML and Data Science PDF
11 pages
Important Questions
No ratings yet
Important Questions
4 pages
134 16SCCCS2 2020052107140659 PDF
No ratings yet
134 16SCCCS2 2020052107140659 PDF
94 pages
DAA Unit-1
No ratings yet
DAA Unit-1
46 pages
Heaps
No ratings yet
Heaps
29 pages
Microprocessor and Assembly Language CSC-321: Sheeza Zaheer
No ratings yet
Microprocessor and Assembly Language CSC-321: Sheeza Zaheer
30 pages
08 Slide Extended
No ratings yet
08 Slide Extended
44 pages
D16 R Discrete Mathematics and Combinatory
No ratings yet
D16 R Discrete Mathematics and Combinatory
20 pages
Array Programs For Interviews 1727455838
No ratings yet
Array Programs For Interviews 1727455838
192 pages
BEANCHEMY
No ratings yet
BEANCHEMY
30 pages
Probability and Stochastic Processes
No ratings yet
Probability and Stochastic Processes
5 pages
5zone Temp - Control
No ratings yet
5zone Temp - Control
1 page
lec-11-ERD Examples
No ratings yet
lec-11-ERD Examples
19 pages
Lecs 102
No ratings yet
Lecs 102
21 pages
Lecture 09 - Social Media Marketing
No ratings yet
Lecture 09 - Social Media Marketing
19 pages
C++ String Manipulation Guide
No ratings yet
C++ String Manipulation Guide
27 pages
Entity-Relationship Modelling
No ratings yet
Entity-Relationship Modelling
50 pages
Lecture-3 Relational Algebra I
No ratings yet
Lecture-3 Relational Algebra I
41 pages
Lecture07 - SEO Best Practices
No ratings yet
Lecture07 - SEO Best Practices
33 pages
Python Basics and Concepts Guide
No ratings yet
Python Basics and Concepts Guide
13 pages
Ppt-Ii NNFL
No ratings yet
Ppt-Ii NNFL
43 pages
Final Lab Experiments
No ratings yet
Final Lab Experiments
17 pages
Design and Performance Analysis of An Anti-Malware System Based On Generative Adversarial Network Framework
No ratings yet
Design and Performance Analysis of An Anti-Malware System Based On Generative Adversarial Network Framework
26 pages
Leaf Disease Detection and Classification Leaf Disease Detection and Classification
No ratings yet
Leaf Disease Detection and Classification Leaf Disease Detection and Classification
10 pages
Class 12 Computer Science Exam
No ratings yet
Class 12 Computer Science Exam
2 pages
Advanced Computer Architecture
No ratings yet
Advanced Computer Architecture
5 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
02 Data
No ratings yet
02 Data
35 pages
Rohini 94994211969
No ratings yet
Rohini 94994211969
6 pages
ASSiGN ML
No ratings yet
ASSiGN ML
2 pages
Final Dsa To Students RBRBFF
No ratings yet
Final Dsa To Students RBRBFF
4 pages
Product and Location Data Dictionary
No ratings yet
Product and Location Data Dictionary
3 pages
Project - Data Mining: Bank - Marketing - Part1 - Data - CSV
No ratings yet
Project - Data Mining: Bank - Marketing - Part1 - Data - CSV
4 pages
CP4252 Machine Learning Lab Manual
No ratings yet
CP4252 Machine Learning Lab Manual
26 pages

DM Assignment 2

Uploaded by

DM Assignment 2

Uploaded by

COMSATS UNIVERSITY ISLAMABAD

Department of Computer Science

Course: Data Mining (DSC306) Total marks 10

[CLO 2 Apply preprocessing and classification techniques to solve classification problems of

Applying Pre-processing and Classification Techniques

Your assignment will be evaluated based on the following criteria:

You might also like