■ 概 要
Windows上での
インターネット文書の漢字変換をサポートするモジュールです。
C++ソースコードも公開してます。
『統合アーカイバAPI仕様』に沿ったAPIを有しています。
■ 機 能
1.漢字コード変換などの基本機能について
1)漢字コードの変換機能
以下の3つの主要な漢字コードの相互変換を実現しています。
1) JIS - 7bitJIS
ISO-2022-JP JIS X 0208-1983(90)
JIS X 0208-1978
2) EUC - AT&T JIS
115〜119区(IBM
拡張文字)については OSF/JVC(Open
Software
Foundation
日本ベンダ協議会)が96年に定めた変換テーブルによる
3) シフトJIS - MS Kanj
JIS X 0208-1990
をベースに、NEC 特殊文字(13区)、
NEC 選定 IBM 拡張文字(89〜92区)、IBM
拡張文字(115〜119区)
※EUC<->SJISとの外字(IBM
拡張文字(394文字))相互変換は、
ENABLE_IBM_EXPAND_CODESデファイン時のみ
2)漢字コードの自動認識機能
特定できる文字が最初に見つかった時点でソースコード種別は特定されます
また、ある文字コードに対して2つ以上の解釈が存在する場合は、得点をカウ
ントしていき最終的に全ファイルサイズに対する線形な割合で判定します。
3)UNIX, DOS(WINDOWS), MAC 改行コードの相互変換機能
2.ユーザーインタフェース
DLL版及び、コマンド版の2種類があります。
DLLインタフェースは大きくは以下の2つの特徴があります。
1)ANSI標準Cのファイルライブラリ準じたインタフェース
2)『統合アーカイバAPI仕様』にも沿う形にもなっています。
これは、既存のアーカイバアプリに少々手を加える形で漢字コード変換機能を
実現できるかもしれないし(?おいおい)、何より”アーカイバAPI”に慣れた
方ならアプリケーション作成の負担も軽くなるだろうという発想からです。
3.ソースコード
ANSI標準C++で作られています。知る限りではこの分野のソフトで公開されて
いるものとしては初めてかと思います。
4.パフォーマンスに関する特色
1)超高速コード判定&変換
様々な高速動作の為の仕組みが組み込まれています。特にputchar/getchar
を用いているプロジェクトに比較するとファイルアクセスは極端に少ない為差
がでます。
2)マルチタスク対応
変換用C++クラスのインスタンスを作成し、完全なマルチタスクを実現して
います。
------------
今後も機能追加をしていくつもりですので
こんな事できたらいいなとか、こんな機能がほしいとか遠慮なく言ってください。
■ 動作環境
UNKANJ.DLL
は以下の環境での動作を対象にしています。
・Microsoft NT 4.0J
・Microsoft NT 3.51
・Microsoft Windows 98J
・Microsoft Windows 95J
・Microsoft Windows 3.1J + Win32s