最近仕事の都合で文字コードの事ばっかり調べています。
纏めるにはもう少しかかりそうなんですけど、文字コード調べるにあたって、知っておいた方が良いことをさらっと書きます。
まず基本となるのはISO2022という形式。
これは文字コード系ではなく、文字コード系切り替え手法を定義していて、コレを抑えておかないと、JISX0208とか、JISX0213が理解出来ません。 泣
特徴は、0x1b(ESC)をつかって文字をコード表を切り替えることと、複数バイトを1文字に割り当てることが出来ること。
94×94=8,836文字表現可能です。
JISX0208は普段我々が使う文字コードで、第一水準と第二水準の漢字が含まれます。WindowsXPはコレに準拠しています。
VistaはJISX0213準拠で、2004年に編纂されたJISX0213:2004に準拠しています。
とはいっても、WindowsはJISXを拡張したcpxxxシリーズを使っています。
JISX0208であればcp932とかがそれにあたります。
あとちょっと困るのが、JISXの中には、ベンダーによって違う文字が割り当てられているものがあります。いわゆる機種依存文字って奴ですね。JIS -> unicodeなら問題ないんですけど、そのあと、unicode -> JISとすると、文字が変わってしまう事があります。ラウンドトリップ問題とか言われる奴です。
一番なじみの深い、Shift_JISは、実はISO2022に準拠していなくて、独自のコード体系ですが、JISXが採用している区点式のコードから計算式で算出可能です。
まぁ、算出できたところで、WindowsVistaでさえ、フォントに含まれていない文字形(グリフ)があったりするので、JISX0213に準拠するアプリを作るときは注意が必要なようです。
また、JISX0213にはサロゲートペア文字(UCS4)がいるので、コレも注意。聞いたところによると300文字程度らしいですけど。
暫くはこの辺りを調べ回る事になりそうです。
カテゴリ: テクノロジー
J2EEの近未来
私が定期購読している雑誌に「Java WORLD」があります。
内容もアカデミックで面白いんですが、何より外人の子供をモデルにしている表紙のデザインが秀逸で、飾りにもピッタリな雑誌です。
10月号は、本当は実際に行きたかったJava World DAY 2005のリポートから始まります。
今Javaでhotな関心事といえば、J2EE(EJB3.0)と今年に入って大流行(仕事で使う機会には恵まれていませんが・・)のDIコンテナですね。
今回来日した人物の中にロッド・ジョンソンの名前があります。
DIコンテナ「Spring Framework」の生みの親です。
同氏は今後注目すべき技術として、
- DI
- AOP
- O/Rマッピング
- TDD(Test Driven Development:テスト駆動開発)
- Struts 1.xの後継となるWebアプリケーションフレームワーク
携帯電話の会話を採点してくれるソフト
面白いソフトがありました。
携帯電話の会話を採点してくれるソフト「ジャーコ・メーター」これは面白い発想ですね。恋愛とかビジネスに大活躍しそうな予感がします。 と思っていたんですが・・・
現在、マサチューセッツ工科大学(MIT)の研究者が携帯電話向けに開発中のこのソフトウェアは、発言のパターンや声のトーンを分析し、人が会話に引き込まれている度合いを0%〜100%の数字で算出する。
現在ジャーコ・メーターは、プログラムを使用している側をモニターするように設定されている。使用者の注意が散漫になると電話機に「何をやってる!」「もう少し感じよく」といったメッセージが表示される。スコアが100%近くになると、「おお、なかなかの話術だ」などのメッセージで鼓舞する。・・はっきり言って余計なお世話です。