Support unicode escapes in TextFormat.

thomasvl · thomasvl · commit 96c4f8fc5d56 · 2020-11-13T17:32:08.000-05:00
NOTE: The existing JSON support handles surrogate pairs differently that the conformance test for TextFormat. This implementation follow the conformance test recommended handing even though it differs from what the C++ implementation does. Also update known failing conformance tests list. Progress on apple#1085
diff --git a/Sources/Conformance/text_format_failure_list_swift.txt b/Sources/Conformance/text_format_failure_list_swift.txt
@@ -1,10 +1,2 @@
-Recommended.Proto3.TextFormatInput.StringLiteralLongUnicodeEscapesBytes.ProtobufOutput
-Recommended.Proto3.TextFormatInput.StringLiteralLongUnicodeEscapesBytes.TextFormatOutput
-Recommended.Proto3.TextFormatInput.StringLiteralLongUnicodeEscapesString.ProtobufOutput
-Recommended.Proto3.TextFormatInput.StringLiteralLongUnicodeEscapesString.TextFormatOutput
-Recommended.Proto3.TextFormatInput.StringLiteralShortUnicodeEscapeBytes.ProtobufOutput
-Recommended.Proto3.TextFormatInput.StringLiteralShortUnicodeEscapeBytes.TextFormatOutput
-Recommended.Proto3.TextFormatInput.StringLiteralShortUnicodeEscapeString.ProtobufOutput
-Recommended.Proto3.TextFormatInput.StringLiteralShortUnicodeEscapeString.TextFormatOutput
 Required.Proto3.TextFormatInput.StringLiteralIncludesLFBytes
 Required.Proto3.TextFormatInput.StringLiteralIncludesLFString
diff --git a/Sources/SwiftProtobuf/TextFormatScanner.swift b/Sources/SwiftProtobuf/TextFormatScanner.swift
@@ -61,6 +61,7 @@ private let asciiLowerS = UInt8(ascii: "s")
 private let asciiLowerT = UInt8(ascii: "t")
 private let asciiUpperT = UInt8(ascii: "T")
 private let asciiLowerU = UInt8(ascii: "u")
+private let asciiUpperU = UInt8(ascii: "U")
 private let asciiLowerV = UInt8(ascii: "v")
 private let asciiLowerX = UInt8(ascii: "x")
 private let asciiLowerY = UInt8(ascii: "y")
@@ -80,6 +81,13 @@ private func fromHexDigit(_ c: UInt8) -> UInt8? {
   return nil
 }
 
+private func uint32FromHexDigit(_ c: UInt8) -> UInt32? {
+  guard let u8 = fromHexDigit(c) else {
+    return nil
+  }
+  return UInt32(u8)
+}
+
 // Protobuf Text encoding assumes that you're working directly
 // in UTF-8.  So this implementation converts the string to UTF8,
 // then decodes it into a sequence of bytes, then converts
@@ -116,6 +124,58 @@ private func decodeString(_ s: String) -> String? {
             out.append(n)
             bytes = savedPosition
           }
+        case asciiLowerU, asciiUpperU: // "u"
+          // \u - 4 hex digits, \U 8 hex digits:
+          if let digit1 = bytes.next(),
+              let d1 = uint32FromHexDigit(digit1),
+              let digit2 = bytes.next(),
+              let d2 = uint32FromHexDigit(digit2),
+              let digit3 = bytes.next(),
+              let d3 = uint32FromHexDigit(digit3),
+              let digit4 = bytes.next(),
+              let d4 = uint32FromHexDigit(digit4) {
+            var codePoint = (d1 << 12) + (d2 << 8) + (d3 << 4) + d4
+            if escaped == asciiUpperU {
+              if let digit5 = bytes.next(),
+                  let d5 = uint32FromHexDigit(digit5),
+                  let digit6 = bytes.next(),
+                  let d6 = uint32FromHexDigit(digit6),
+                  let digit7 = bytes.next(),
+                  let d7 = uint32FromHexDigit(digit7),
+                  let digit8 = bytes.next(),
+                  let d8 = uint32FromHexDigit(digit8) {
+                codePoint = (codePoint << 16) + (d5 << 12) + (d6 << 8) + (d7 << 4) + d8
+              } else {
+                // Malformed \U escape
+                return nil
+              }
+            }
+            switch codePoint {
+            case 0...0x7f:
+              // 1 byte encoding
+              out.append(UInt8(truncatingIfNeeded: codePoint))
+            case 0x80...0x7ff:
+              // 2 byte encoding
+              out.append(0xC0 + UInt8(truncatingIfNeeded: codePoint >> 6))
+              out.append(0x80 + UInt8(truncatingIfNeeded: codePoint & 0x3F))
+            case 0x800...0xffff:
+              // 3 byte encoding
+              out.append(0xE0 + UInt8(truncatingIfNeeded: codePoint >> 12))
+              out.append(0x80 + UInt8(truncatingIfNeeded: (codePoint >> 6) & 0x3F))
+              out.append(0x80 + UInt8(truncatingIfNeeded: codePoint & 0x3F))
+            case 0x10000...0x10FFFF:
+              // 4 byte encoding
+              out.append(0xF0 + UInt8(truncatingIfNeeded: codePoint >> 18))
+              out.append(0x80 + UInt8(truncatingIfNeeded: (codePoint >> 12) & 0x3F))
+              out.append(0x80 + UInt8(truncatingIfNeeded: (codePoint >> 6) & 0x3F))
+              out.append(0x80 + UInt8(truncatingIfNeeded: codePoint & 0x3F))
+            default:
+              return nil
+            }
+          } else {
+            // Malformed \u,\U escape
+            return nil
+          }
         case asciiLowerX: // "x"
           // Unlike C/C++, protobuf only allows 1 or 2 digits here:
           if let byte = bytes.next(), let digit = fromHexDigit(byte) {
@@ -315,6 +375,39 @@ internal struct TextFormatScanner {
                   }
                 }
                 count += 1
+              case asciiLowerU, asciiUpperU: // 'u' or 'U' unicode escape
+                let numDigits = (escaped == asciiLowerU) ? 4 : 8
+                var codePoint: UInt32 = 0
+                for i in 0..<numDigits {
+                  guard p != end else {
+                    throw TextFormatDecodingError.malformedText // unicode escape must 4/8 digits
+                  }
+                  if let digit = uint32FromHexDigit(p[i]) {
+                    codePoint = (codePoint << 4) + digit
+                  } else {
+                    throw TextFormatDecodingError.malformedText // wasn't a hex digit
+                  }
+                }
+                p += numDigits
+                switch codePoint {
+                case 0...0x7f:
+                  // 1 byte encoding
+                  count += 1
+                case 0x80...0x7ff:
+                  // 2 byte encoding
+                  count += 2
+                case 0xD800...0xDFFF:
+                  // Surrogate pair (low or high), shouldn't get a unicode literal of those.
+                  throw TextFormatDecodingError.malformedText
+                case 0x800...0xffff:
+                  // 3 byte encoding
+                  count += 3
+                case 0x10000...0x10FFFF:
+                  // 4 byte encoding
+                  count += 4
+                default:
+                  throw TextFormatDecodingError.malformedText // Isn't a valid unicode character
+                }
               case asciiLowerX: // 'x' hexadecimal escape
                 if p != end && fromHexDigit(p[0]) != nil {
                   p += 1
@@ -387,6 +480,39 @@ internal struct TextFormatScanner {
                   out[0] = digit1Value
                   out += 1
                 }
+              case asciiLowerU, asciiUpperU:
+                let numDigits = (escaped == asciiLowerU) ? 4 : 8
+                var codePoint: UInt32 = 0
+                for i in 0..<numDigits {
+                  codePoint = (codePoint << 4) + uint32FromHexDigit(p[i])!
+                }
+                p += numDigits
+                switch codePoint {
+                case 0...0x7f:
+                  // 1 byte encoding
+                  out[0] = UInt8(truncatingIfNeeded: codePoint)
+                  out += 1
+                case 0x80...0x7ff:
+                  // 2 byte encoding
+                  out[0] = 0xC0 + UInt8(truncatingIfNeeded: codePoint >> 6)
+                  out[1] = 0x80 + UInt8(truncatingIfNeeded: codePoint & 0x3F)
+                  out += 2
+                case 0x800...0xffff:
+                  // 3 byte encoding
+                  out[0] = 0xE0 + UInt8(truncatingIfNeeded: codePoint >> 12)
+                  out[1] = 0x80 + UInt8(truncatingIfNeeded: (codePoint >> 6) & 0x3F)
+                  out[2] = 0x80 + UInt8(truncatingIfNeeded: codePoint & 0x3F)
+                  out += 3
+                case 0x10000...0x10FFFF:
+                  // 4 byte encoding
+                  out[0] = 0xF0 + UInt8(truncatingIfNeeded: codePoint >> 18)
+                  out[1] = 0x80 + UInt8(truncatingIfNeeded: (codePoint >> 12) & 0x3F)
+                  out[2] = 0x80 + UInt8(truncatingIfNeeded: (codePoint >> 6) & 0x3F)
+                  out[3] = 0x80 + UInt8(truncatingIfNeeded: codePoint & 0x3F)
+                  out += 4
+                default:
+                  preconditionFailure() // Already validated, can't happen
+                }
               case asciiLowerX: // 'x' hexadecimal escape
                 // We already validated, so we know there's at least one digit:
                 var n = fromHexDigit(p[0])!
diff --git a/Tests/LinuxMain.swift b/Tests/LinuxMain.swift
@@ -423,8 +423,10 @@ extension Test_Conformance {
         ("testInt32_min_roundtrip", testInt32_min_roundtrip),
         ("testInt32_toosmall", testInt32_toosmall),
         ("testRepeatedBoolWrapper", testRepeatedBoolWrapper),
-        ("testString_badUnicodeEscape", testString_badUnicodeEscape),
+        ("testString_unicodeEscape", testString_unicodeEscape),
         ("testString_surrogates", testString_surrogates),
+        ("testBytes_unicodeEscape", testBytes_unicodeEscape),
+        ("testBytes_surrogates", testBytes_surrogates),
         ("testMaps_TextFormatKeysSorted", testMaps_TextFormatKeysSorted)
     ]
 }
diff --git a/Tests/SwiftProtobufTests/Test_Conformance.swift b/Tests/SwiftProtobufTests/Test_Conformance.swift
@@ -77,13 +77,57 @@ class Test_Conformance: XCTestCase, PBTestHelpers {
         }
     }
 
-    func testString_badUnicodeEscape() {
+    func testString_unicodeEscape() {
+        assertTextFormatDecodeSucceeds("optional_string: \"\\u1234\"") {
+            return $0.optionalString == "\u{1234}"
+        }
+        assertTextFormatDecodeSucceeds("optional_string: \"\\U0001F601\"") {
+            return $0.optionalString == "\u{1F601}"
+        }
+
+        assertTextFormatDecodeFails("optional_string: \"\\u")
+        assertTextFormatDecodeFails("optional_string: \"\\uDC\"")
+        assertTextFormatDecodeFails("optional_string: \"\\uDCXY\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U")
+        assertTextFormatDecodeFails("optional_string: \"\\UDC\"")
+        assertTextFormatDecodeFails("optional_string: \"\\UDCXY\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U1234DC\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U1234DCXY\"")
+
+        assertJSONDecodeSucceeds("{\"optional_string\": \"\\u1234\"}") {
+            return $0.optionalString == "\u{1234}"
+        }
+
         assertJSONDecodeFails("{\"optionalString\": \"\\u")
         assertJSONDecodeFails("{\"optionalString\": \"\\uDC\"}")
         assertJSONDecodeFails("{\"optionalString\": \"\\uDCXY\"}")
     }
 
     func testString_surrogates() {
+        // Unpaired low surrogate
+        assertTextFormatDecodeFails("optional_string: \"\\uDC00\"")
+        assertTextFormatDecodeFails("optional_string: \"\\uDC00x\"")
+        assertTextFormatDecodeFails("optional_string: \"\\uDC00\\b\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000DC00\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000DC00x\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000DC00\\b\"")
+        // Unpaired high surrogate
+        assertTextFormatDecodeFails("optional_string: \"\\uD800\"")
+        assertTextFormatDecodeFails("optional_string: \"\\uD800\\u0061\"")
+        assertTextFormatDecodeFails("optional_string: \"\\uD800abcdefghijkl\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000D800\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000D800\\u0061\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000D800abcdefghijkl\"")
+        // Mis-ordered surrogate
+        assertTextFormatDecodeFails("optional_string: \"\\uDE01\\uD83D\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000DE01\\uD83D\"")
+        // Correct surrogate
+        // NOTE: This differs from JSON at the moment in that surrogates fail
+        // there is a conformance test that recommends this even though the
+        // C++ impl accepts it.
+        assertTextFormatDecodeFails("optional_string: \"\\uD83D\\uDE01\"")
+        assertTextFormatDecodeFails("optional_string: \"\\U0000D83D\\uDE01\"")
+
         // Unpaired low surrogate
         assertJSONDecodeFails("{\"optionalString\": \"\\uDC00\"}")
         assertJSONDecodeFails("{\"optionalString\": \"\\uDC00x\"}")
@@ -100,6 +144,49 @@ class Test_Conformance: XCTestCase, PBTestHelpers {
         }
     }
 
+    func testBytes_unicodeEscape() {
+        assertTextFormatDecodeSucceeds("optional_bytes: \"\\u1234\"") {
+          return $0.optionalBytes == Data("\u{1234}".utf8)
+        }
+        assertTextFormatDecodeSucceeds("optional_bytes: \"\\U0001F601\"") {
+          return $0.optionalBytes == Data("\u{1F601}".utf8)
+        }
+
+        assertTextFormatDecodeFails("optional_bytes: \"\\u")
+        assertTextFormatDecodeFails("optional_bytes: \"\\uDC\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\uDCXY\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U")
+        assertTextFormatDecodeFails("optional_bytes: \"\\UDC\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\UDCXY\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U1234DC\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U1234DCXY\"")
+    }
+
+    func testBytes_surrogates() {
+        // Unpaired low surrogate
+        assertTextFormatDecodeFails("optional_bytes: \"\\uDC00\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\uDC00x\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\uDC00\\b\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000DC00\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000DC00x\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000DC00\\b\"")
+        // Unpaired high surrogate
+        assertTextFormatDecodeFails("optional_bytes: \"\\uD800\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\uD800\\u0061\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\uD800abcdefghijkl\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000D800\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000D800\\u0061\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000D800abcdefghijkl\"")
+        // Mis-ordered surrogate
+        assertTextFormatDecodeFails("optional_bytes: \"\\uDE01\\uD83D\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000DE01\\uD83D\"")
+        // Correct surrogate
+        // NOTE: Conformance test recommends this even though the C++ impl
+        // accepts it.
+        assertTextFormatDecodeFails("optional_bytes: \"\\uD83D\\uDE01\"")
+        assertTextFormatDecodeFails("optional_bytes: \"\\U0000D83D\\uDE01\"")
+    }
+
     func testMaps_TextFormatKeysSorted() {
         assertTextFormatEncode("map_string_string {\n  key: \"a\"\n  value: \"value\"\n}\nmap_string_string {\n  key: \"b\"\n  value: \"value\"\n}\nmap_string_string {\n  key: \"c\"\n  value: \"value\"\n}\n") {(o: inout MessageTestType) in
             o.mapStringString = ["c":"value", "b":"value", "a":"value"]

Original file line number	Diff line number	Diff line change
`@@ -423,8 +423,10 @@ extension Test_Conformance {`
`423`	`423`	`("testInt32_min_roundtrip", testInt32_min_roundtrip),`
`424`	`424`	`("testInt32_toosmall", testInt32_toosmall),`
`425`	`425`	`("testRepeatedBoolWrapper", testRepeatedBoolWrapper),`
`426`		`- ("testString_badUnicodeEscape", testString_badUnicodeEscape),`
	`426`	`+ ("testString_unicodeEscape", testString_unicodeEscape),`
`427`	`427`	`("testString_surrogates", testString_surrogates),`
	`428`	`+ ("testBytes_unicodeEscape", testBytes_unicodeEscape),`
	`429`	`+ ("testBytes_surrogates", testBytes_surrogates),`
`428`	`430`	`("testMaps_TextFormatKeysSorted", testMaps_TextFormatKeysSorted)`
`429`	`431`	`]`
`430`	`432`	`}`