PHPの調べ物をしていたのに気付いたらRubyの記事を見ていました。 Rubyを使ってタイ語の表示文字単位で文字列を区切る - Qiita これがなかなか面白くて、UnicodeやOnigmoについてちょろっと調べてみました。 元記事&コメント Rubyを使ってタイ語の表示文字単位で文字列を区切る - Qiita (文字コードの範囲などは、コメント途中で正しいものが提示されていたので、それを反映した形で掲載しています) タイ語の"พี่ชาย" (日本語で兄の意味)は表示上は4文字ですが、 最初の文字"พี่"が3つのUCS("e1e", "e35", "e48")から構成されており、 単純にsplit(//)をしただけでは6文字に分解されてしまいます。 コメント 前半 text = "พี่ชาย" # ["e1e", "e35", "e48", "e0a", "e32", "e22"]

