0% found this document useful (0 votes)

34 views11 pages

Similarty and Dissimilarity

The document discusses various methods for measuring similarity and dissimilarity between objects. It describes different types of attributes like binary, nominal, ordinal, interval, and ratio. It then focuses on calculating proximity measures for binary attributes using contingency tables and distance measures. Various distance measures are introduced for different data types, including binary, numeric, and ordinal variables. The Minkowski distance is described as a popular distance measure for numeric data, with special cases like Manhattan, Euclidean, and supremum distances.

Uploaded by

Macho Nandini

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

34 views11 pages

Similarty and Dissimilarity

Uploaded by

Macho Nandini

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 11

MEASURES OF SIMILARITY AND

DISSIMILARITY
 Similarity measure between two objects is a numerical measure of the degree to which two
objects are alike .
 Dissimilarity measure between two objects is a numerical measure of the degree to which two
objects are different
TYPES OF ATTRIBUTES
 There are different types of attributes
 Binary : True/False
 Nominal: Examples: ID numbers, eye color, zip codes
 Ordinal: Examples: rankings (e.g., taste of potato chips on a scale from 1 ‐10), grades, height
in {tall, medium, short}
 Interval: Examples: calendar dates, temperatures in Celsius or Fahrenheit.
 Ratio: Examples: temperature in Kelvin, length, time, counts
PROXIMITY MEASURE FOR BINARY ATTRIBUTES
Object j

 A contingency table for binary data

Object i

 Distance measure for symmetric binary

variables:

 Distance measure for asymmetric binary

variables:

 Jaccard coefficient (similarity measure

for asymmetric binary variables):

5
DISSIMILARITY BETWEEN BINARY VARIABLES

 Example
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Jack M Y N P N N N
Mary F Y N P N P N
Jim M Y P N N N N
 Gender is a symmetric attribute
 The remaining attributes are asymmetric binary
 Let the values Y and P be 1, and the value N 0

01
d ( jack , mary )   0.33
2 01
11
d ( jack , jim )   0.67
111
1 2
d ( jim , mary )   0.75
11 2 6
EXAMPLE:
DATA MATRIX AND DISSIMILARITY MATRIX

Data Matrix
x2 x4
point attribute1 attribute2
4 x1 1 2
x2 3 5
x3 2 0
x4 4 5
2 x1
Dissimilarity Matrix
(with Euclidean Distance)
x3
0 4 x1 x2 x3 x4
2
x1 0
x2 3.61 0
x3 5.1 5.1 0
x4 4.24 1 5.39 0
7
DISTANCE ON NUMERIC DATA: MINKOWSKI
DISTANCE
 Minkowski distance: A popular distance measure

where i = (xi1, xi2, …, xip) and j = (xj1, xj2, …, xjp) are two p-
dimensional data objects, and h is the order (the distance so
defined is also called L-h norm)
 Properties
 d(i, j) > 0 if i ≠ j, and d(i, i) = 0 (Positive definiteness)
 d(i, j) = d(j, i) (Symmetry)
 d(i, j)  d(i, k) + d(k, j) (Triangle Inequality)
 A distance that satisfies these properties is a metric
8
SPECIAL CASES OF MINKOWSKI DISTANCE

 h = 1: Manhattan (city block, L norm) distance

1
 E.g., the Hamming distance: the number of bits that are different
between two binary vectors

d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1 i2 j 2 ip jp

 h = 2: (L2 norm) Euclidean distance

d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1 j1 i2 j 2 ip jp

 h  . “supremum” (L norm, L norm) distance.

max 
 This is the maximum difference between any component
(attribute) of the vectors

9
EXAMPLE: MINKOWSKI DISTANCE

Dissimilarity Matrices
point attribute 1 attribute 2 Manhattan (L1)
x1 1 2
L x1 x2 x3 x4
x2 3 5 x1 0
x3 2 0 x2 5 0
x4 4 5 x3 3 6 0
x4 6 1 7 0
Euclidean (L2)
x2 x4
L2 x1 x2 x3 x4
4 x1 0
x2 3.61 0
x3 2.24 5.1 0
x4 4.24 1 5.39 0

2 x1
Supremum
L x1 x2 x3 x4
x1 0
x2 3 0
x3 x3 2 5 0
0 2 4 x4 3 1 5 0 10
ORDINAL VARIABLES

 An ordinal variable can be discrete or continuous

 Order is important, e.g., rank

 Can be treated like interval-scaled

rif {1,...,M f }
 replace xif by their rank
 map the range of each variable onto [0, 1] by replacing i-th
object in the f-th variable by
rif 1
zif 
M f 1

 compute the dissimilarity using methods for interval-scaled

variables
11

Science-8-Q1-Mod1-Force, Motion - Energy
No ratings yet
Science-8-Q1-Mod1-Force, Motion - Energy
27 pages
Lecture 4
No ratings yet
Lecture 4
33 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
DMi 03-Proximity
No ratings yet
DMi 03-Proximity
51 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
DMi 03 Proximity
No ratings yet
DMi 03 Proximity
9 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
X Chapter 02 Data
No ratings yet
X Chapter 02 Data
67 pages
Similarity
No ratings yet
Similarity
20 pages
Similarity and Distance Metrics
No ratings yet
Similarity and Distance Metrics
20 pages
Measure of Proximity
No ratings yet
Measure of Proximity
11 pages
Clustering Lecture 1: Basics: Jing Gao
No ratings yet
Clustering Lecture 1: Basics: Jing Gao
62 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
43 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
4 pages
CSE 1 PPT MiniTest 12feb24 Similarity
No ratings yet
CSE 1 PPT MiniTest 12feb24 Similarity
11 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Lecture 10
No ratings yet
Lecture 10
26 pages
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
No ratings yet
Data Mining and Predictive Modeling: Lecture 13: Measuring Data Similarity
19 pages
Similarity Measures
No ratings yet
Similarity Measures
11 pages
CS822 DataMining Week4
No ratings yet
CS822 DataMining Week4
45 pages
9-2 Data Analysis and Pre-Processing Part 2 PDF
No ratings yet
9-2 Data Analysis and Pre-Processing Part 2 PDF
27 pages
Class 1c - DataFundamentals
No ratings yet
Class 1c - DataFundamentals
27 pages
Mod 4 Types of Data in Cluster Analysis
No ratings yet
Mod 4 Types of Data in Cluster Analysis
31 pages
CSC 452 DM Lecture02 Know Your Data B 13102020 014200pm
No ratings yet
CSC 452 DM Lecture02 Know Your Data B 13102020 014200pm
26 pages
Similarity and Dissimilarity Measures: Distance
No ratings yet
Similarity and Dissimilarity Measures: Distance
50 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-1
11 pages
Lec 5
No ratings yet
Lec 5
24 pages
02data Part4
No ratings yet
02data Part4
28 pages
Data Mining: Distance & Similarity
No ratings yet
Data Mining: Distance & Similarity
25 pages
Similarity and Dissimilarity
No ratings yet
Similarity and Dissimilarity
34 pages
Lab 2
No ratings yet
Lab 2
21 pages
Chapter - 2 Data Mining
No ratings yet
Chapter - 2 Data Mining
21 pages
Distance and Similarity Metrics
No ratings yet
Distance and Similarity Metrics
14 pages
Pattern Recognition - Clustering - Classification
No ratings yet
Pattern Recognition - Clustering - Classification
177 pages
Data Similarity & Dissimilarity Guide
No ratings yet
Data Similarity & Dissimilarity Guide
27 pages
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
No ratings yet
Session-5.1-Measuring Data Similarity and Dissimilarity - Part-2
16 pages
Week 3 - Similarity Distance Measures
No ratings yet
Week 3 - Similarity Distance Measures
42 pages
Lecture 3-Know Your Data - M
No ratings yet
Lecture 3-Know Your Data - M
19 pages
Dist
No ratings yet
Dist
14 pages
Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2
100% (1)
Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2
16 pages
Similarity and Dissimilarity
No ratings yet
Similarity and Dissimilarity
17 pages
Knowing Your Data
No ratings yet
Knowing Your Data
43 pages
Lecture 8-9 - Clustering
No ratings yet
Lecture 8-9 - Clustering
43 pages
Data Similarity
0% (1)
Data Similarity
18 pages
RL3.2 Data Similarity 1
No ratings yet
RL3.2 Data Similarity 1
17 pages
Unit-1 (Part-1) Similarity and Dissimilarity Measures
No ratings yet
Unit-1 (Part-1) Similarity and Dissimilarity Measures
24 pages
CS2209 Similarity Distances
No ratings yet
CS2209 Similarity Distances
23 pages
Data Mining Basics for Students
No ratings yet
Data Mining Basics for Students
3 pages
Formulas at A Glance - IDS
No ratings yet
Formulas at A Glance - IDS
5 pages
DS5 Statistics
No ratings yet
DS5 Statistics
67 pages
Data Mining: Similarity and Distance
No ratings yet
Data Mining: Similarity and Distance
6 pages
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
No ratings yet
Data Mining: Similarity and Distance Recommendation Systems Sketching, Locality Sensitive Hashing
57 pages
ML Unit 2
No ratings yet
ML Unit 2
11 pages
Bar Pendulum Practical
No ratings yet
Bar Pendulum Practical
14 pages
Designand Analysisof Rocket Nozzle
No ratings yet
Designand Analysisof Rocket Nozzle
12 pages
Physics Entrance Exam 2024 (@QesemAcademy)
No ratings yet
Physics Entrance Exam 2024 (@QesemAcademy)
23 pages
TSP On Manifolds: David Zisselman October 5, 2021
No ratings yet
TSP On Manifolds: David Zisselman October 5, 2021
54 pages
Crossed Modules and Cohomology of Algebras Over An Operad: M N N M M M N M
No ratings yet
Crossed Modules and Cohomology of Algebras Over An Operad: M N N M M M N M
21 pages
In-Process Inspection Report For Infant Incubator Parts2
No ratings yet
In-Process Inspection Report For Infant Incubator Parts2
2 pages
Science 6
100% (1)
Science 6
6 pages
Physics 72.1
No ratings yet
Physics 72.1
3 pages
Full Test 3 Solutions
No ratings yet
Full Test 3 Solutions
12 pages
Origami Lattices and Folding-Induced Lattice Transformations
No ratings yet
Origami Lattices and Folding-Induced Lattice Transformations
18 pages
MTH Y3-6 SLR MathsToolKitYrs3-6
No ratings yet
MTH Y3-6 SLR MathsToolKitYrs3-6
2 pages
PHAS1247 Section6 Orbits
No ratings yet
PHAS1247 Section6 Orbits
14 pages
Advanced Imaging of The Abdomen Entire Ebook Download
100% (8)
Advanced Imaging of The Abdomen Entire Ebook Download
15 pages
Projectile Motion (XI Notes) (NEET)
No ratings yet
Projectile Motion (XI Notes) (NEET)
23 pages
Seismic Design Methodology Document For Precast Concrete Diaphragms PDF
No ratings yet
Seismic Design Methodology Document For Precast Concrete Diaphragms PDF
545 pages
Antigravidade
No ratings yet
Antigravidade
21 pages
Regenerative Rankine Cycle Analysis
No ratings yet
Regenerative Rankine Cycle Analysis
33 pages
Linear Guideway Specs for Engineers
No ratings yet
Linear Guideway Specs for Engineers
2 pages
Aircraft Systems: (3 ECTS) Lab 1 Preliminary Design of A Hydraulic System
No ratings yet
Aircraft Systems: (3 ECTS) Lab 1 Preliminary Design of A Hydraulic System
29 pages
Electric Power Systems 2016-2017: Bachelor Degree: Course Title
No ratings yet
Electric Power Systems 2016-2017: Bachelor Degree: Course Title
2 pages
Blazequel Aerosol Fire Suppression System Brochure
No ratings yet
Blazequel Aerosol Fire Suppression System Brochure
4 pages
History of Electronics: Year Person Works
No ratings yet
History of Electronics: Year Person Works
2 pages
SDGSAT-1 Data Users Handbook
No ratings yet
SDGSAT-1 Data Users Handbook
28 pages
Biomechanical Models For Hitting & Pitching
No ratings yet
Biomechanical Models For Hitting & Pitching
2 pages
Experimental Investigation On Self Compacting Concrete by Partial Replacement of Cement With Akeofine
No ratings yet
Experimental Investigation On Self Compacting Concrete by Partial Replacement of Cement With Akeofine
47 pages
r1gw60 Agr July Aug 2015 NNPB
No ratings yet
r1gw60 Agr July Aug 2015 NNPB
3 pages
Cathodic Protection Anode Calculations
No ratings yet
Cathodic Protection Anode Calculations
2 pages
QTM Pressure Operations Guide
No ratings yet
QTM Pressure Operations Guide
68 pages

Similarty and Dissimilarity

Uploaded by

Similarty and Dissimilarity

Uploaded by

MEASURES OF SIMILARITY AND

 A contingency table for binary data

 Distance measure for symmetric binary

 Distance measure for asymmetric binary

 Jaccard coefficient (similarity measure

 h = 1: Manhattan (city block, L norm) distance

 h = 2: (L2 norm) Euclidean distance

 h  . “supremum” (L norm, L norm) distance.

 An ordinal variable can be discrete or continuous

 Order is important, e.g., rank

 Can be treated like interval-scaled

 compute the dissimilarity using methods for interval-scaled

You might also like