[B! unicode] oinumeのブックマーク

How to find out Chinese or Japanese Character in a String in Python?

oinume 2025/10/31

日本語を検出する方法

リンク

Unicodeの特殊な文字 “結合文字列” – ものかの

2024.5.18更新まともに Unicode のテキストを扱おうとすると、結合文字列はどうしても避けることのできない問題です。ここではあまり深く掘り下げずに、ユーザの眼を通してこれを見ていこうと思います。まずはじめに、Unicodeには「特殊な文字」があることを知っておきましょう。上図を見てください。これは macOS のテキストエディットに入力した２つの「ポ」です。同じ文字が並んでいるだけのように見えます。でも実はこの２つ、文字データとしてはまったく違うものなんです。左はいつも私たちが使っている１文字の「ポ」ですが、右は「ホ＋半濁点」の２文字のデータで１文字になっています。これが Unicode の特殊な文字 “結合文字列” です。見た目が同じなので違いがまったく分かりません。そこで違いが分かるように簡単なソフトを作ってみました。 Unicode Normalization

oinume 2025/02/06

unicode

リンク

Go で UTF-8 の文字列を扱う - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

oinume 2016/06/24

リンク

Regex Tutorial: Introduction to Unicode Regular Expressions

Unicode is a character set that aims to define all characters and glyphs from all human languages and writing systems, living and dead, from Egyptian hieroglyphs to space age emoji 🚀🛸. With more and more software being required to support multiple languages, or even just any language, not to mention those cute 😺🐶 emoji, Unicode has become essential to most software. Using different character s

oinume 2016/06/24

奥が深い...

unicode

リンク

Python 2/3 両対応のために `unicode_literals` を使うべきか - methaneのブログ

背景 Python 2 用のコードを書くときは、 Python 3 対応を見越して # -*- coding: utf-8 -*- from __future__ import division, print_function, absolute_import をテンプレとして書いています。 __future__ はファイルごとにバラバラだと混乱を招くので、今関わってるプロジェクトでもこれを新規ファイルのテンプレとして登録してもらってます。 Python 3 の構文、リテラルを有効にする __future__ のうち、 unicode_literals だけは今まで使っていなかったのですが、ふと「あ、やっぱり使うべきだな」と思いついたので、そのへんをまとめます。第三の文字列型 native string Python 2 には2つの文字列型 str (bytes) と unicode が

oinume 2014/04/04

リンク

python2.xでの日本語(マルチバイト文字)問題を一掃する！(その１) — ExSoft

python2.xを使い始めて、必ずと言って良いほど遭遇するのが日本語(マルチバイト)関連の問題です。ネットで同様のケースを調べて、あまり理解をせずに、対処療法的にその場の問題を回避している人も多いように思いますが、一度腰を据えて理解すれば、それほど難しくないですし、python以外の言語にも応用ができます。マルチバイト問題については、概念だけではなく、実際に手を動かし、目で確かめる(文字コードそのものを見る)事が重要です。今回は、python2.xで遭遇する文字コード関連のエラーを実際に発生させ、その理由を理解した上で対処を行ってみましょう。文字コードの定義ケース１ [ 再現 ] pythonスクリプトファイルのencodingをcp932にし、以下を記述します。 ustr = u'い' [ 現象 ] SyntaxError: Non-ASCII character '\x8

oinume 2013/04/27

リンク

波ダッシュ Unicodeに関連する問題 - Wikipedia

波ダッシュ（なみダッシュ、wave dash[注釈 1]）とは、日本語表記における約物のひとつで、波線「」（はせん、なみせん）を指している。ダッシュ記号（—）の波形であることからそう呼ばれる[注釈 2]。日本語における用法の多くは範囲を示すenダッシュ記号としての用法と長音符としての用法がある。範囲を示す場合、「から」という日本語の約物であり、純然たる日本語である。日本以外ではこのように使用されることはない。なお中国語でもenダッシュの代用又は長音符などとして使われることがある。 Windows XP等における日本語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。日本語において範囲を表す

oinume 2011/01/13

波ダッシュ問題って人的なミスから始まったんだ...

unicode

リンク

PythonのUnicodeEncodeErrorを知る - HDEラボ

Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

oinume 2010/12/22

リンク

Perl 5.8.x Unicode関連

-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

oinume 2009/09/15

リンク

Perl5.8 の UNICODE 対応

perl は 5.8 から Unicode(utf-8) がサポートされました．5.6 でも Unicode に対応はしていましたが，ぜんぜん使い物にならず，ようやく 5.8 でまともに使えるようになったということです．ただせっかく使えるにもかかわらず perldoc などを見てもイマイチ使い方がわからないので，独自にまとめてみたのがこのページです．誤った書き方や勘違いをしていることもあるので，形式的ですがこのページの内容は無保証です．内容文字コード変換 perlIO jperlからの移行 UTF-8フラグ文字コード自動判別 Unicode Standard Unicode 正規化その他参考資料文字コード変換とりあえず perl5.8 で新しく組み込まれた機能を見るために，euc-jp から shift_jis への変換スクリプトをいくつか載せます． openを利用し

oinume 2007/04/04

リンク

Unicode と UTF-X - odz buffer

えーと、なにやら某所から Unicode について解説しろとの圧力がかかったので軽く書いておく。 Unicode はなにかというと What is Unicode? にこう書いてある。 Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language. つまり、Unicode は文字に対応する数字を定めるだけ。で、この対応する数字をコードポイントと呼ぶ。たとえば、「odz@はてな」という文字列を Python を使って Unicode のコードポイントにしてみるとこうなる。 >>> print ' '.join('U+%04X' % ord(c) for c in u'odz@は

oinume 2007/03/25

unicode

リンク

javascript - encodeURIUnicode()と%uXXXX問題 : 404 Blog Not Found

2007年03月10日17:30 カテゴリLightweight Languages javascript - encodeURIUnicode()と%uXXXX問題これを見て、(de|en)codeURIUnicodeがあればいいと思ったので作ってみた sawatの日記 - Unicodeエスケープなので、前述のような単に非ASCII文字をエスケープしたいだけのようなケースではUnicodeエスケープを使った方がよいです。Javaのpropertiesとかnative2asciiとかのやつです。 Decoded: Dan 弾𪚲 Encoded: Dan%20%u5F3E%20%uD869%uDEB2 要は、U+00ffまではencodeURIComponent互換、それ以上はescape()互換というもの。こうしてencodeされたものは、CGI.pmとかでもほぼそのまま使える。

oinume 2007/03/10

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

unicodeに関するoinumeのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2026年1月第3週）

はてなブックマークの計画メンテナンスのお知らせ（2026年1月23日(金) 深夜1:30〜3:00）

今週のはてなブックマーク数ランキング（2026年1月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス