Disable parallel plans for RIGHT_SEMI joins
authorRichard Guo <[email protected]>
Thu, 30 Oct 2025 02:58:45 +0000 (11:58 +0900)
committerRichard Guo <[email protected]>
Thu, 30 Oct 2025 02:58:45 +0000 (11:58 +0900)
RIGHT_SEMI joins rely on the HEAP_TUPLE_HAS_MATCH flag to guarantee
that only the first match for each inner tuple is considered.
However, in a parallel hash join, the inner relation is stored in a
shared global hash table that can be probed by multiple workers
concurrently.  This allows different workers to inspect and set the
match flags of the same inner tuples at the same time.

If two workers probe the same inner tuple concurrently, both may see
the match flag as unset and emit the same tuple, leading to duplicate
output rows and violating RIGHT_SEMI join semantics.

For now, we disable parallel plans for RIGHT_SEMI joins.  In the long
term, it may be possible to support parallel execution by performing
atomic operations on the match flag, for example using a CAS or
similar mechanism.

Backpatch to v18, where RIGHT_SEMI join was introduced.

Bug: #19094
Reported-by: Lori Corbani <[email protected]>
Diagnosed-by: Tom Lane <[email protected]>
Author: Richard Guo <[email protected]>
Reviewed-by: Tom Lane <[email protected]>
Discussion: https://postgr.es/m/19094-6ed410eb5b256abd@postgresql.org
Backpatch-through: 18

src/backend/optimizer/path/joinpath.c
src/test/regress/expected/join.out
src/test/regress/sql/join.sql

index 3b9407eb2eb794f357dcb885e3dbc92c5c4a48b6..ea5b6415186a3b84074489ccb53f3f6a49d1225f 100644 (file)
@@ -2260,10 +2260,20 @@ hash_inner_and_outer(PlannerInfo *root,
 
        /*
         * If the joinrel is parallel-safe, we may be able to consider a
-        * partial hash join.  However, the resulting path must not be
-        * parameterized.
+        * partial hash join.
+        *
+        * However, we can't handle JOIN_RIGHT_SEMI, because the hash table is
+        * either a shared hash table or a private hash table per backend.  In
+        * the shared case, there is no concurrency protection for the match
+        * flags, so multiple workers could inspect and set the flags
+        * concurrently, potentially producing incorrect results.  In the
+        * private case, each worker has its own copy of the hash table, so no
+        * single process has all the match flags.
+        *
+        * Also, the resulting path must not be parameterized.
         */
        if (joinrel->consider_parallel &&
+           jointype != JOIN_RIGHT_SEMI &&
            outerrel->partial_pathlist != NIL &&
            bms_is_empty(joinrel->lateral_relids))
        {
@@ -2294,13 +2304,12 @@ hash_inner_and_outer(PlannerInfo *root,
             * Normally, given that the joinrel is parallel-safe, the cheapest
             * total inner path will also be parallel-safe, but if not, we'll
             * have to search for the cheapest safe, unparameterized inner
-            * path.  If full, right, right-semi or right-anti join, we can't
-            * use parallelism (building the hash table in each backend)
-            * because no one process has all the match bits.
+            * path.  If full, right, or right-anti join, we can't use
+            * parallelism (building the hash table in each backend) because
+            * no one process has all the match bits.
             */
            if (jointype == JOIN_FULL ||
                jointype == JOIN_RIGHT ||
-               jointype == JOIN_RIGHT_SEMI ||
                jointype == JOIN_RIGHT_ANTI)
                cheapest_safe_inner = NULL;
            else if (cheapest_total_inner->parallel_safe)
index d10095de70fa1ac65387a5adde58f369fa0655b9..0e82ca1867a7dc12617c136875dbe2d9f5d97f3a 100644 (file)
@@ -3080,6 +3080,33 @@ select * from tbl_rs t1 join
  3 | 3 | 4 | 4
 (6 rows)
 
+--
+-- regression test for bug with parallel-hash-right-semi join
+--
+begin;
+-- encourage use of parallel plans
+set local parallel_setup_cost=0;
+set local parallel_tuple_cost=0;
+set local min_parallel_table_scan_size=0;
+set local max_parallel_workers_per_gather=4;
+-- ensure we don't get parallel hash right semi join
+explain (costs off)
+select * from tenk1 t1
+where exists (select 1 from tenk1 t2 where fivethous = t1.fivethous)
+and t1.fivethous < 5;
+                    QUERY PLAN                    
+--------------------------------------------------
+ Gather
+   Workers Planned: 4
+   ->  Parallel Hash Semi Join
+         Hash Cond: (t1.fivethous = t2.fivethous)
+         ->  Parallel Seq Scan on tenk1 t1
+               Filter: (fivethous < 5)
+         ->  Parallel Hash
+               ->  Parallel Seq Scan on tenk1 t2
+(8 rows)
+
+rollback;
 --
 -- regression test for bug #13908 (hash join with skew tuples & nbatch increase)
 --
index b1732453e8d3db556371d5f3c1f9039d117baa34..c6b8b09a381e1cf410686e572deb86895e1ae2df 100644 (file)
@@ -759,6 +759,26 @@ select * from tbl_rs t1 join
             (select t1.a+t3.a from tbl_rs t3) and t2.a < 5)
   on true;
 
+--
+-- regression test for bug with parallel-hash-right-semi join
+--
+
+begin;
+
+-- encourage use of parallel plans
+set local parallel_setup_cost=0;
+set local parallel_tuple_cost=0;
+set local min_parallel_table_scan_size=0;
+set local max_parallel_workers_per_gather=4;
+
+-- ensure we don't get parallel hash right semi join
+explain (costs off)
+select * from tenk1 t1
+where exists (select 1 from tenk1 t2 where fivethous = t1.fivethous)
+and t1.fivethous < 5;
+
+rollback;
+
 --
 -- regression test for bug #13908 (hash join with skew tuples & nbatch increase)
 --