0% found this document useful (0 votes)

71 views

Assignment 01

Uploaded by

DHRUV TILLU

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

71 views

Assignment 01

Uploaded by

DHRUV TILLU

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Name: Dhruv Jayant Tillu Roll No.

: 6107
Subject: 510303 - BDA

ASSIGNMENT: 01
Aim: Demonstrate application of Apache spark to analyse streaming data from social media. (Installation of
multi-node Hadoop as well as Spark is to be done by students.)

Requirements:
• Software: PyCharm Professional
• Libraries: PySpark Module
• Dataset: socialmedia.csv from kaggle

Theory: This PySpark code demonstrates real-time data processing using structured streaming. It analyzes
social media data, aggregating post counts and average likes per user within hourly windows. The code
showcases:

1. Defining a schema for structured data

2. Reading streaming data from a CSV file

3. Applying windowed aggregations on streaming data

4. Using PySpark's DataFrame API for declarative data transformations

5. Outputting results in real-time to the console

The aim is to provide insights into user activity patterns and engagement levels over time, enabling
continuous monitoring and analysis of social media trends.

Code:
from pyspark.sql import SparkSession
from pyspark.sql.functions import window, count, avg
from pyspark.sql.types import StructType, StructField, StringType, TimestampType

spark = SparkSession.builder.appName("SocialMediaStreamingAnalysis").master("local[*]").getOrCreate()

schema = StructType([
StructField("timestamp", TimestampType(), True),
StructField("user_id", StringType(), True),
StructField("post_text", StringType(), True),
StructField("likes", StringType(), True)
])

lines = spark.readStream.option("sep", ",").schema(schema).csv("./socialmedia.csv")

windowedCounts = lines.groupBy(
window(lines.timestamp, "1 hour"),
lines.user_id
).agg(
count("*").alias("post_count"),
Name: Dhruv Jayant Tillu Roll No.: 6107
Subject: 510303 - BDA

avg("likes").alias("avg_likes")
)

print("Query Explanation:")
windowedCounts.explain(extended=True)

query = windowedCounts \
.writeStream \
.outputMode("complete") \
.format("console") \
.start()

query.awaitTermination()

Output:

Query Explanation:

== Physical Plan ==

*(2) HashAggregate(keys=[window#20, user_id#1], functions=[count(1), avg(cast(likes#3 as double))])

+- Exchange hashpartitioning(window#20, user_id#1, 200), ENSURE_REQUIREMENTS, [id=#45]

+- *(1) HashAggregate(keys=[window#20, user_id#1], functions=[partial_count(1), partial_avg(cast(likes#3 as

double))])

+- *(1) Project [named_struct(start, precisetimestamp(HiveIntervalDayTime(3600000000),0), end,

precisetimestamp(HiveIntervalDayTime(7200000000),0)) AS window#20, user_id#1, likes#3]

+- *(1) Filter (isnotnull(timestamp#0) AND (timestamp#0 >= cast(1970-01-01 00:00:00.0 as timestamp)))

+- StreamingRelation CSV, [timestamp#0, user_id#1, post_text#2, likes#3]

== Analyzed Logical Plan ==

window: struct<start:timestamp,end:timestamp>, user_id: string, post_count: bigint, avg_likes: double

Aggregate [window#20, user_id#1], [window#20, user_id#1, count(1) AS post_count#33L, avg(cast(likes#3 as

double)) AS avg_likes#38]

+- Project [named_struct(start, precisetimestamp(HiveIntervalDayTime(3600000000),0), end,

precisetimestamp(HiveIntervalDayTime(7200000000),0)) AS window#20, user_id#1, likes#3]

+- Filter (isnotnull(timestamp#0) AND (timestamp#0 >= cast(1970-01-01 00:00:00.0 as timestamp)))

+- StreamingRelation CSV, [timestamp#0, user_id#1, post_text#2, likes#3]

== Optimized Logical Plan ==

Aggregate [window#20, user_id#1], [window#20, user_id#1, count(1) AS post_count#33L, avg(cast(likes#3 as

double)) AS avg_likes#38]
Name: Dhruv Jayant Tillu Roll No.: 6107
Subject: 510303 - BDA

+- Project [named_struct(start, precisetimestamp(HiveIntervalDayTime(3600000000),0), end,

precisetimestamp(HiveIntervalDayTime(7200000000),0)) AS window#20, user_id#1, likes#3]

+- Filter (isnotnull(timestamp#0) AND (timestamp#0 >= 1970-01-01 00:00:00.0))

+- StreamingRelation CSV, [timestamp#0, user_id#1, post_text#2, likes#3]

-------------------------------------------

Batch: 0

-------------------------------------------

+------------------------------------------+-------+----------+-----------------+

+------------------------------------------+-------+----------+-----------------+

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user1 |2 |13.5 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user2 |2 |36.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user3 |1 |7.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user4 |1 |31.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user5 |1 |45.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user6 |1 |28.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user3 |1 |19.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user4 |1 |26.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user5 |1 |17.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user7 |1 |82.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user1 |1 |9.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user2 |1 |14.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user6 |1 |23.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user7 |1 |56.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user4 |1 |18.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user5 |1 |21.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user3 |1 |11.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user1 |1 |16.0 |

+------------------------------------------+-------+----------+-----------------+

-------------------------------------------

Batch: 1
Name: Dhruv Jayant Tillu Roll No.: 6107
Subject: 510303 - BDA

-------------------------------------------

+------------------------------------------+-------+----------+-----------------+

+------------------------------------------+-------+----------+-----------------+

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user1 |2 |13.5 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user2 |2 |36.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user3 |1 |7.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user4 |1 |31.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user5 |1 |45.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user6 |1 |28.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user3 |1 |19.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user4 |1 |26.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user5 |1 |17.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user7 |1 |82.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user1 |1 |9.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user2 |1 |14.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user6 |1 |23.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user7 |1 |56.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user4 |1 |18.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user5 |1 |21.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user3 |1 |11.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user1 |1 |16.0 |

+------------------------------------------+-------+----------+-----------------+

Conclusion: This assignment successfully demonstrates the use of Apache Spark and PySpark for analyzing
real-time social media data using structured streaming. The aggregation and windowing functions allow
continuous monitoring of user activity patterns and trends on social media, providing valuable insights into
user engagement.

Etl Commands For Pyspark
No ratings yet
Etl Commands For Pyspark
8 pages
ESP32 Programming for the Internet of Things: JavaScript, AJAX, MQTT and WebSockets Solutions
From Everand
ESP32 Programming for the Internet of Things: JavaScript, AJAX, MQTT and WebSockets Solutions
Sever Spanulescu
5/5 (2)
Unit 4 Notes PDF
100% (2)
Unit 4 Notes PDF
27 pages
Real-Time Data Pipelines Made Easy with Structured Streaming in Apache Spark
No ratings yet
Real-Time Data Pipelines Made Easy with Structured Streaming in Apache Spark
51 pages
Question Bank (1)
No ratings yet
Question Bank (1)
15 pages
Kafka
No ratings yet
Kafka
78 pages
Publications
No ratings yet
Publications
89 pages
Spark Streaming
No ratings yet
Spark Streaming
19 pages
UNIT V Streaming
No ratings yet
UNIT V Streaming
22 pages
unit 4 Streaming data
No ratings yet
unit 4 Streaming data
4 pages
Spark Structured Streaming
No ratings yet
Spark Structured Streaming
655 pages
Lecture 11
No ratings yet
Lecture 11
31 pages
Lecture 7_1-spark_streaming
No ratings yet
Lecture 7_1-spark_streaming
25 pages
UEC735
No ratings yet
UEC735
2 pages
Py Spark 3 Quick Reference Guide
No ratings yet
Py Spark 3 Quick Reference Guide
2 pages
Spark Streaming
No ratings yet
Spark Streaming
99 pages
Lecture #9.1 - Apache Spark - Streaming API II
No ratings yet
Lecture #9.1 - Apache Spark - Streaming API II
31 pages
DSLab2
No ratings yet
DSLab2
6 pages
Mining Data Streams
No ratings yet
Mining Data Streams
37 pages
Bài Giảng Spark Streaming
No ratings yet
Bài Giảng Spark Streaming
75 pages
PySpark Reference Guide
No ratings yet
PySpark Reference Guide
2 pages
Co Digit Ooo
No ratings yet
Co Digit Ooo
15 pages
Day73
No ratings yet
Day73
12 pages
dspl_casestidy.docx
No ratings yet
dspl_casestidy.docx
3 pages
Day72
No ratings yet
Day72
11 pages
21BCP122 - Digital - Forensics - Assignment - 4a 2
No ratings yet
21BCP122 - Digital - Forensics - Assignment - 4a 2
6 pages
Assignment
No ratings yet
Assignment
3 pages
DAY_1__1720441733
No ratings yet
DAY_1__1720441733
6 pages
DAY_1__1720441733
No ratings yet
DAY_1__1720441733
6 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
19 pages
Bigdata-Mining Data Streams
No ratings yet
Bigdata-Mining Data Streams
19 pages
b0m33bdt-7p-spark-databricks-streaming_2023_en
No ratings yet
b0m33bdt-7p-spark-databricks-streaming_2023_en
50 pages
a.
No ratings yet
a.
3 pages
4 Spark Cassandra
No ratings yet
4 Spark Cassandra
15 pages
Exploring AutoCAD Map 3D 2023, 10th Edition
From Everand
Exploring AutoCAD Map 3D 2023, 10th Edition
Prof. Sham Tickoo
No ratings yet
Spark Commands
No ratings yet
Spark Commands
3 pages
Pyspark coding questions from StrataScratch platform
No ratings yet
Pyspark coding questions from StrataScratch platform
23 pages
Big Data 3rd Unit
No ratings yet
Big Data 3rd Unit
16 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
Mod4_DWDM_BTECH
No ratings yet
Mod4_DWDM_BTECH
9 pages
Bigquery
No ratings yet
Bigquery
2 pages
Group-3 Report
No ratings yet
Group-3 Report
38 pages
Day 57
No ratings yet
Day 57
11 pages
Assignment - Analytics On Amount Screen
No ratings yet
Assignment - Analytics On Amount Screen
768 pages
Building Smarter Cities
From Everand
Building Smarter Cities
Rajendra Asan
No ratings yet
Building Resilient Streaming Analytics Systems On Google Cloud
No ratings yet
Building Resilient Streaming Analytics Systems On Google Cloud
1 page
PMC 20241023
No ratings yet
PMC 20241023
72 pages
pyspark (1)
No ratings yet
pyspark (1)
44 pages
SPA Notes
No ratings yet
SPA Notes
4 pages
Customizing Kafka Stream Procssing
No ratings yet
Customizing Kafka Stream Procssing
4 pages
⚠️ TCS Rejected Many Due to Weak PySpark Logic!?
No ratings yet
⚠️ TCS Rejected Many Due to Weak PySpark Logic!?
7 pages
Structured Streaming
No ratings yet
Structured Streaming
12 pages
01 Spark
No ratings yet
01 Spark
7 pages
Creo Manufacturing 11.0 Black Book
From Everand
Creo Manufacturing 11.0 Black Book
Gaurav Verma
No ratings yet
Apache Spark Streaming Presentation
100% (1)
Apache Spark Streaming Presentation
28 pages
Spark Streaming: Tathagata "TD" Das
No ratings yet
Spark Streaming: Tathagata "TD" Das
28 pages
Q1. Difference between cache and pe
No ratings yet
Q1. Difference between cache and pe
13 pages
Pyspark Hands on
No ratings yet
Pyspark Hands on
189 pages
week_10 SPA MANI
No ratings yet
week_10 SPA MANI
6 pages
Stream Processing and Analytics Handout
No ratings yet
Stream Processing and Analytics Handout
8 pages
N300 Wireless Gpon Ont: P11 1Ge+1Fe+Voip+Wifi
No ratings yet
N300 Wireless Gpon Ont: P11 1Ge+1Fe+Voip+Wifi
4 pages
Free Online Barcode Generator Code-128
100% (1)
Free Online Barcode Generator Code-128
1 page
Project Proposal 01
No ratings yet
Project Proposal 01
13 pages
2015-03 Trends Treasury Technology
No ratings yet
2015-03 Trends Treasury Technology
19 pages
FL Google Training Lab Architect JDs 261022
No ratings yet
FL Google Training Lab Architect JDs 261022
3 pages
Software Testing & Quality Assurance DEC-2019 Sem-I (B.tech IT)
No ratings yet
Software Testing & Quality Assurance DEC-2019 Sem-I (B.tech IT)
1 page
Project Python CLG
No ratings yet
Project Python CLG
30 pages
DBMS Solution-7
100% (1)
DBMS Solution-7
10 pages
Database Lab Project
No ratings yet
Database Lab Project
8 pages
Ultimate React Course ?
No ratings yet
Ultimate React Course ?
30 pages
Enterprise Resource Planning Systems: IT Auditing, Hall, 3e
No ratings yet
Enterprise Resource Planning Systems: IT Auditing, Hall, 3e
31 pages
Cosmetic Shop Automation
No ratings yet
Cosmetic Shop Automation
14 pages
CCSK
0% (1)
CCSK
16 pages
Detailed Lesson Plan TLE ICT7
No ratings yet
Detailed Lesson Plan TLE ICT7
7 pages
IAG - SOP - How To Configure Redundant SCADA Nodes
No ratings yet
IAG - SOP - How To Configure Redundant SCADA Nodes
3 pages
Java Coursework
100% (2)
Java Coursework
5 pages
Run IBMi Access Client Data Xfers
No ratings yet
Run IBMi Access Client Data Xfers
88 pages
F5 Network
No ratings yet
F5 Network
4 pages
Discover The Power of Microsoft Dynamics CRM 2011: Mike Marusin October 28, 2010
No ratings yet
Discover The Power of Microsoft Dynamics CRM 2011: Mike Marusin October 28, 2010
42 pages
Invoice 1457170613
No ratings yet
Invoice 1457170613
1 page
Water Supply Management System
100% (1)
Water Supply Management System
35 pages
COMP 150 - Topic 1
No ratings yet
COMP 150 - Topic 1
13 pages
Multiple Ch1
No ratings yet
Multiple Ch1
4 pages
Plan of Mata Elang Stable Development
No ratings yet
Plan of Mata Elang Stable Development
11 pages
Learning SQL 2nd edition Edition Alan Beaulieu download
No ratings yet
Learning SQL 2nd edition Edition Alan Beaulieu download
50 pages
gc_2025_03_14
No ratings yet
gc_2025_03_14
9 pages
Sources of Data
No ratings yet
Sources of Data
16 pages
Rashmi Velpuri: Phone: (404) 797-3788
No ratings yet
Rashmi Velpuri: Phone: (404) 797-3788
7 pages
Baze de Date Prezent Si Viitor
No ratings yet
Baze de Date Prezent Si Viitor
16 pages
Big Data Answers
No ratings yet
Big Data Answers
11 pages

Assignment 01

Uploaded by

Assignment 01

Uploaded by

Name: Dhruv Jayant Tillu Roll No.

1. Defining a schema for structured data

2. Reading streaming data from a CSV file

3. Applying windowed aggregations on streaming data

4. Using PySpark's DataFrame API for declarative data transformations

5. Outputting results in real-time to the console

lines = spark.readStream.option("sep", ",").schema(schema).csv("./socialmedia.csv")

*(2) HashAggregate(keys=[window#20, user_id#1], functions=[count(1), avg(cast(likes#3 as double))])

+- Exchange hashpartitioning(window#20, user_id#1, 200), ENSURE_REQUIREMENTS, [id=#45]

+- *(1) HashAggregate(keys=[window#20, user_id#1], functions=[partial_count(1), partial_avg(cast(likes#3 as

+- *(1) Project [named_struct(start, precisetimestamp(HiveIntervalDayTime(3600000000),0), end,

+- *(1) Filter (isnotnull(timestamp#0) AND (timestamp#0 >= cast(1970-01-01 00:00:00.0 as timestamp)))

+- StreamingRelation CSV, [timestamp#0, user_id#1, post_text#2, likes#3]

== Analyzed Logical Plan ==

window: struct<start:timestamp,end:timestamp>, user_id: string, post_count: bigint, avg_likes: double

Aggregate [window#20, user_id#1], [window#20, user_id#1, count(1) AS post_count#33L, avg(cast(likes#3 as

+- Project [named_struct(start, precisetimestamp(HiveIntervalDayTime(3600000000),0), end,

+- Filter (isnotnull(timestamp#0) AND (timestamp#0 >= cast(1970-01-01 00:00:00.0 as timestamp)))

+- StreamingRelation CSV, [timestamp#0, user_id#1, post_text#2, likes#3]

== Optimized Logical Plan ==

Aggregate [window#20, user_id#1], [window#20, user_id#1, count(1) AS post_count#33L, avg(cast(likes#3 as

+- Project [named_struct(start, precisetimestamp(HiveIntervalDayTime(3600000000),0), end,

+- Filter (isnotnull(timestamp#0) AND (timestamp#0 >= 1970-01-01 00:00:00.0))

+- StreamingRelation CSV, [timestamp#0, user_id#1, post_text#2, likes#3]

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user1 |2 |13.5 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user2 |2 |36.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user3 |1 |7.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user4 |1 |31.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user5 |1 |45.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user6 |1 |28.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user3 |1 |19.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user4 |1 |26.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user5 |1 |17.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user7 |1 |82.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user1 |1 |9.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user2 |1 |14.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user6 |1 |23.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user7 |1 |56.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user4 |1 |18.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user5 |1 |21.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user3 |1 |11.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user1 |1 |16.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user1 |2 |13.5 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user2 |2 |36.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user3 |1 |7.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user4 |1 |31.0 |

|{2024-09-18 08:00:00, 2024-09-18 09:00:00}|user5 |1 |45.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user6 |1 |28.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user3 |1 |19.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user4 |1 |26.0 |

|{2024-09-18 09:00:00, 2024-09-18 10:00:00}|user5 |1 |17.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user7 |1 |82.0 |

|{2024-09-18 10:00:00, 2024-09-18 11:00:00}|user1 |1 |9.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user2 |1 |14.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user6 |1 |23.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user7 |1 |56.0 |

|{2024-09-18 11:00:00, 2024-09-18 12:00:00}|user4 |1 |18.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user5 |1 |21.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user3 |1 |11.0 |

|{2024-09-18 12:00:00, 2024-09-18 13:00:00}|user1 |1 |16.0 |

You might also like