« ゲームセンターあらし!? | メイン | pTeXが解釈している文字コードは何か? »

pTeXが解釈している文字コードは何か? Unicode編

さて、Unicodeがからむと話がややこしくなります。

Unicodeは文字の形が変わらないような変換が定義されています。
また、Unicodeの先頭部分はASCIIと同じになっています。

ここで、問題なのは0x5cです。ShiftJISやJIS-X0201では、0x5cは円記号ですが、
UnicodeのU+005cはバックスラッシュが割り当てられています。
そこで本来のShiftJIS->unicode変換では、
「0x5c(円記号)」->「U+00A5(円記号)」
に変換します。見た目も同じで安心 なんですが、

CとかTeXとかでは、意味がある文字だった0x5cと単なる一つの文字のU+00A5ではまったく意味が変わってきます。

そこで、Microsoftでは
「0x5c(円記号)」->「U+005c(バックスラッシュ)」
に変換します。
見た目変わっちゃうジャン!!!!

ということで、UnicodeフォントのU+005cを円記号に....
おい!
それは、UnicodeじゃなくてUnicodeっぽいフォントってことでいいですか?

おかげでUS-ASCIIで書かれた文書をそのフォントで表示するとバックスラッシュであるべき文字(0x5c)が円記号に「化けます」
最低。

さて、罪深いところは、このようになるのは、MS明朝をはじめとするいくつかのフォント「のみ」ってところです。
Microsoft謹製のUnicodeフォント Arial Unicode MSフォントでは0x5cはバックスラッシュになります。
なんじゃそら
ちなみに、AdobeReader付属の小塚フォント、MacOSXのOsakaフォント、フリーで配布されているさざなみフォント、全部

バックスラッシュが出
ます。

混乱するじゃないですか、おい。DTPの人は大丈夫なのかな。
やはり0x5cはバックスラッシュで統一したほうがいいんじゃないかなぁ。
円記号は全部置き換えるってことで...

そうそう、Unicode対応のTeXってのはまだ実用まではきてないって本当かな?
まあ、そのうち実用化されそうな気はしますが。

トラックバック

このエントリーのトラックバックURL:
http://www2.4bn.ne.jp/~ikeda/cgi-bin/blog/mt-tb.cgi/507

コメントを投稿

2010年08月

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

アーカイブ

最近のコメント

マイクロアドBTパートナーでおこづかいゲット! Firefox3 Meter
Powered by
Movable Type 3.34