0% found this document useful (0 votes)

33 views8 pages

Machine Learning Assignment

The report details a programming assignment focused on binary and multi-class classification using machine learning techniques on two datasets: Breast Cancer Wisconsin and Car Evaluation. It includes data preprocessing, model implementation (Naive Bayes, KNN, Decision Tree, Random Forest), evaluation results, and hyperparameter tuning, highlighting that KNN and Random Forest performed best in their respective tasks. The conclusion emphasizes the significance of preprocessing, model selection, and tuning in machine learning applications.

Uploaded by

bcool4957

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

33 views8 pages

Machine Learning Assignment

Uploaded by

bcool4957

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

EC2011E Foundations of Machine Learning

Programming Assignment Report

Team Members:-

Kaigala Mani Charan – B230999EC

Kamana Narendra Subbaraj – B231001EC

K Vinay – B230996EC
1. Binary Classification: Breast Cancer Wisconsin (Diagnostic) Dataset

1.1 Dataset Description

The Breast Cancer Wisconsin (Diagnostic) dataset is widely used for binary classification tasks in the
medical domain. It consists of 569 instances with 30 real-valued input features computed from
digitized images of fine needle aspirates (FNA) of breast masses. The diagnosis (target variable) has
two classes:

 M = Malignant (cancerous)

 B = Benign (non-cancerous)

For each of the 10 features (radius, texture, perimeter, area, smoothness, compactness, concavity,
concave points, symmetry, and fractal dimension), the dataset provides:

 Mean

 Standard Error

 Worst (maximum) value

1.2 Preprocessing Steps

Data loading and preprocessing

import pandas as pd

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split

data = pd.read_csv("wdbc.data", header=None)

columns = ['ID', 'Diagnosis'] + [

f"{feat}_{stat}" for stat in ['mean', 'se', 'worst'] for feat in [

'radius', 'texture', 'perimeter', 'area', 'smoothness', 'compactness',

'concavity', 'concave_points', 'symmetry', 'fractal_dimension']

data.columns = columns

data.drop('ID', axis=1, inplace=True)

data['Diagnosis'] = data['Diagnosis'].map({'M': 1, 'B': 0})

features = [col for col in data.columns if '_mean' in col]

X = data[features]

y = data['Diagnosis']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

1.3 Models Implemented

 Naive Bayes Classifier using GaussianNB()

 K-Nearest Neighbors (KNN) with k=5 using KNeighborsClassifier()

from sklearn.naive_bayes import GaussianNB

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

Naive Bayes
nb = GaussianNB()

nb.fit(X_train, y_train)

y_pred_nb = nb.predict(X_test)

KNN
knn = KNeighborsClassifier(n_neighbors=5)

knn.fit(X_train_scaled, y_train)

y_pred_knn = knn.predict(X_test_scaled)

1.4 Evaluation Results

Naive Bayes Classifier Output:
Accuracy: 0.9474

Confusion Matrix:

[[70 1]

[ 5 38]]
Classification Report:

precision recall f1-score support

0 0.93 0.99 0.96 71

1 0.97 0.88 0.93 43

accuracy 0.95 114

macro avg 0.95 0.93 0.94 114

weighted avg 0.95 0.95 0.95 114

KNN Classifier Output (k = 5):

Accuracy: 0.9474

Confusion Matrix:

[[68 3]

[ 3 40]]

Classification Report:

precision recall f1-score support

0 0.96 0.96 0.96 71

1 0.93 0.93 0.93 43

accuracy 0.95 114

macro avg 0.94 0.94 0.94 114

weighted avg 0.95 0.95 0.95 114

2. PCA-Based Dimensionality Reduction

from sklearn.decomposition import PCA

for k in [10, 9, 8]:

pca = PCA(n_components=k)

X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

nb_pca = GaussianNB()

nb_pca.fit(X_train_pca, y_train)

print(f"Naive Bayes Accuracy with PCA-{k}:", accuracy_score(y_test, nb_pca.predict(X_test_pca)))

knn_pca = KNeighborsClassifier(n_neighbors=5)

knn_pca.fit(X_train_pca, y_train)

print(f"KNN Accuracy with PCA-{k}:", accuracy_score(y_test, knn_pca.predict(X_test_pca)))

PCA Results (k = number of components used):

Principal Components Naive Bayes Accuracy KNN Accuracy

10 0.9123 0.9474

9 0.9211 0.9474

8 0.9211 0.9474

3. KNN Hyperparameter Tuning

k_values = list(range(1, 16))

accuracies = []

for k in k_values:

model = KNeighborsClassifier(n_neighbors=k)

model.fit(X_train_scaled, y_train)

acc = model.score(X_test_scaled, y_test)

accuracies.append(acc)

plt.figure(figsize=(8, 5))

plt.plot(k_values, accuracies, marker='o')

plt.title("KNN Accuracy vs k")

plt.xlabel("k")

plt.ylabel("Accuracy")

plt.grid()
plt.show()

plot:

Observation:

 Highest accuracy observed around k = 5

 Smaller k leads to overfitting; higher k leads to underfitting.

4. Multi-Class Classification: Car Evaluation Dataset

import pandas as pd

from sklearn.preprocessing import OrdinalEncoder

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier

car_data = pd.read_csv("car.data", header=None)

car_data.columns = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class']

encoder = OrdinalEncoder()

X_car = encoder.fit_transform(car_data.drop('class', axis=1))

y_car = car_data['class']

Xc_train, Xc_test, yc_train, yc_test = train_test_split(X_car, y_car, test_size=0.2, random_state=42)

Decision Tree
dt = DecisionTreeClassifier(random_state=42)

dt.fit(Xc_train, yc_train)

yc_pred_dt = dt.predict(Xc_test)

Decision Tree Results:

Accuracy: 0.9739884393063584

Classification Report:

precision recall f1-score support

acc 0.97 0.92 0.94 83

good 0.62 0.91 0.74 11

unacc 1.00 1.00 1.00 235

vgood 1.00 0.94 0.97 17

accuracy 0.97 346

macro avg 0.90 0.94 0.91 346

weighted avg 0.98 0.97 0.98 346

Random Forest
rf = RandomForestClassifier(random_state=42)

rf.fit(Xc_train, yc_train)

yc_pred_rf = rf.predict(Xc_test)

Random Forest Results:

Accuracy: 0.9739884393063584
Classification Report:

precision recall f1-score support

acc 0.99 0.90 0.94 83

good 0.65 1.00 0.79 11

unacc 0.99 1.00 1.00 235

vgood 1.00 0.94 0.97 17

accuracy 0.97 346

macro avg 0.91 0.96 0.92 346

weighted avg 0.98 0.97 0.98 346

5. Conclusion

 KNN slightly outperformed Naive Bayes for binary classification, especially with scaling.

 PCA reduced dimensionality while maintaining high accuracy, especially for KNN.

 k = 5 was optimal for KNN in this dataset.

 Random Forest outperformed Decision Tree on the multi-class car dataset due to better
generalization from ensemble learning.

 The assignment highlights the importance of preprocessing, model selection, and

hyperparameter tuning in practical ML applications.

6. References

 UCI Machine Learning Repository

 scikit-learn Documentation (https://scikit-learn.org/)

 Course Lecture Slides and Notes

Method Statement - Installation of Ss & Ms Pipe Scribd
100% (9)
Method Statement - Installation of Ss & Ms Pipe Scribd
12 pages
Diagrama Minicargador 262C
100% (1)
Diagrama Minicargador 262C
4 pages
ML Lab 8
No ratings yet
ML Lab 8
9 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
7 pages
ML Mini Project
No ratings yet
ML Mini Project
9 pages
ML Lab Programs 2
No ratings yet
ML Lab Programs 2
16 pages
Machine Learning Final Report
No ratings yet
Machine Learning Final Report
8 pages
Dsbda 10
No ratings yet
Dsbda 10
5 pages
Maternal-Risk-Prediction - Ipynb - Colab
No ratings yet
Maternal-Risk-Prediction - Ipynb - Colab
9 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
Bi 6 New
No ratings yet
Bi 6 New
6 pages
KNN
No ratings yet
KNN
4 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
EX - NO:3: Algorithm
No ratings yet
EX - NO:3: Algorithm
11 pages
ML101 Graded Assignment 2.ipynb - Colab
No ratings yet
ML101 Graded Assignment 2.ipynb - Colab
6 pages
Artificial Intelligence Lab 7
No ratings yet
Artificial Intelligence Lab 7
10 pages
6 - 2 - SVMS, - Randon - Forests - and - KNN - Ipynb - Colaboratory
No ratings yet
6 - 2 - SVMS, - Randon - Forests - and - KNN - Ipynb - Colaboratory
4 pages
KNN Final
No ratings yet
KNN Final
4 pages
ML Mini Project
No ratings yet
ML Mini Project
9 pages
Machine Learning II
No ratings yet
Machine Learning II
61 pages
G 203008076 - 4 - Christhian Quiñonez - Ex1 - 2 A PDF
No ratings yet
G 203008076 - 4 - Christhian Quiñonez - Ex1 - 2 A PDF
20 pages
Scikit Learn Cheat Sheet Python
No ratings yet
Scikit Learn Cheat Sheet Python
1 page
Employee Commute Prediction
100% (1)
Employee Commute Prediction
41 pages
Experiment 7
No ratings yet
Experiment 7
3 pages
Prac7 23bme053
No ratings yet
Prac7 23bme053
2 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
ML RECORD EX 5,6,7,8,9 (Without Border)
No ratings yet
ML RECORD EX 5,6,7,8,9 (Without Border)
13 pages
ML Lab Manual
No ratings yet
ML Lab Manual
6 pages
CP4252 Machine Learning Lab Manual
100% (1)
CP4252 Machine Learning Lab Manual
33 pages
KNN and Random Forests Guide
No ratings yet
KNN and Random Forests Guide
6 pages
ML Lab-1
No ratings yet
ML Lab-1
32 pages
Big Data Practical
No ratings yet
Big Data Practical
20 pages
ML0101EN Clas SVM Cancer Py v1
No ratings yet
ML0101EN Clas SVM Cancer Py v1
10 pages
Professional Machine Learning
No ratings yet
Professional Machine Learning
67 pages
Lab On ML Print-Set-2022
No ratings yet
Lab On ML Print-Set-2022
10 pages
ML Lab6
No ratings yet
ML Lab6
4 pages
Ml-Exp-2 - Jupyter Notebook
No ratings yet
Ml-Exp-2 - Jupyter Notebook
2 pages
ML 2 16
No ratings yet
ML 2 16
6 pages
ML Assignment 4
No ratings yet
ML Assignment 4
7 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
Aiml Nts
No ratings yet
Aiml Nts
33 pages
Lecture03. Classification (Chapter 3)
No ratings yet
Lecture03. Classification (Chapter 3)
46 pages
Scikit-Learn Python Cheat Sheet
No ratings yet
Scikit-Learn Python Cheat Sheet
1 page
Scikit-Learn Cheat Sheet
No ratings yet
Scikit-Learn Cheat Sheet
1 page
ML Functions
No ratings yet
ML Functions
12 pages
Telecom Churn Proj
No ratings yet
Telecom Churn Proj
4 pages
Exp9 10
No ratings yet
Exp9 10
4 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
I Avaliação Parcial - 25.0 PTS - Gabarito
No ratings yet
I Avaliação Parcial - 25.0 PTS - Gabarito
9 pages
AIML (Exp 2)
No ratings yet
AIML (Exp 2)
5 pages
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
100% (1)
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
1 page
MNIST Digit Recognition Guide
No ratings yet
MNIST Digit Recognition Guide
8 pages
SPPUML5
No ratings yet
SPPUML5
4 pages
Practical 6
No ratings yet
Practical 6
8 pages
ML Lab 146
No ratings yet
ML Lab 146
50 pages
08030-B Daniel Senior Model 2000 Orifice Fittings (3 Inch-600)
No ratings yet
08030-B Daniel Senior Model 2000 Orifice Fittings (3 Inch-600)
84 pages
BOQ For Expansion of Fire Hydrant
No ratings yet
BOQ For Expansion of Fire Hydrant
3 pages
DIB - Generators & Motors
No ratings yet
DIB - Generators & Motors
6 pages
Hydrotherapy: Aquatics and Whirlpools
No ratings yet
Hydrotherapy: Aquatics and Whirlpools
58 pages
Kinect-Based Rehabilitation Training Assistant System Research and Implementation
No ratings yet
Kinect-Based Rehabilitation Training Assistant System Research and Implementation
3 pages
Inverter E171781
No ratings yet
Inverter E171781
6 pages
Demand Letter
No ratings yet
Demand Letter
2 pages
SDLG Otr Catalogue
No ratings yet
SDLG Otr Catalogue
39 pages
GSA-150-N-IP Boiler Manual - 0319
No ratings yet
GSA-150-N-IP Boiler Manual - 0319
44 pages
574 908 4010 Applications Manual
No ratings yet
574 908 4010 Applications Manual
85 pages
Catchment Analysis
0% (1)
Catchment Analysis
4 pages
HP Sampling Catalog
No ratings yet
HP Sampling Catalog
21 pages
Eaton Edx 2000h
No ratings yet
Eaton Edx 2000h
4 pages
415 V System Stage-1
100% (1)
415 V System Stage-1
18 pages
FT SPD Pagbabago Distribution Sheet Annex A.2 1
No ratings yet
FT SPD Pagbabago Distribution Sheet Annex A.2 1
3 pages
Clicker 321 Garage Door Remote
No ratings yet
Clicker 321 Garage Door Remote
6 pages
Updated Tiago Accessories Price List 09 September 2017 PDF
No ratings yet
Updated Tiago Accessories Price List 09 September 2017 PDF
2 pages
CVG - BD Bottom Discharge Recommended Spare Parts - Rev B
No ratings yet
CVG - BD Bottom Discharge Recommended Spare Parts - Rev B
2 pages
FX 400-2000
No ratings yet
FX 400-2000
8 pages
Energy Series Energy Series
No ratings yet
Energy Series Energy Series
8 pages
Cylinder-Head Cover Guard
No ratings yet
Cylinder-Head Cover Guard
7 pages
Pipe Qwik-Freezer-Brochure
No ratings yet
Pipe Qwik-Freezer-Brochure
5 pages
OV2500 NMS-E 4 2 1 R01 User Guide
No ratings yet
OV2500 NMS-E 4 2 1 R01 User Guide
418 pages
Python Basics for Beginners
No ratings yet
Python Basics for Beginners
4 pages
What Is Traffic Counting?
No ratings yet
What Is Traffic Counting?
8 pages
Selling Brand Q
No ratings yet
Selling Brand Q
15 pages
DWC Technical Specifications
No ratings yet
DWC Technical Specifications
2 pages
Evironment and Market Week 1 Day 2
No ratings yet
Evironment and Market Week 1 Day 2
12 pages