スキップしてメイン コンテンツに移動

KyoroTextViewerでのISO 2022の扱いについて

KyoroTextViewerが下記機能に対応するにあたり、解決すべき問題を記録しておく。
- ISO 2022への対応
- アラビア語へり対応
※ todo アラビア語は、ここでは書かない。別に書く

[はじめに]

ISO 2022は、文字集合(バイトコードに応じて表示する文字)を入れ替えて表示するため、先頭から順に読み込んでいかなくてはなりません。
※具体的には、以下のような感じで、文字集合を変更するESCが挿入されます。
「こんにちはISO_2022_JP」の場合
<ESC 日本語> こんにちは <ESC ASCII> ISO_2022_JP
 KyoroTextViewerでは、ギガバイトのデータも軽快に表示できることを、目標としているため、
 毎回先頭からテキストを読み込むといったことはなるたけ避けたいと考えています。


[問題/解決]
例えば「改行無しに、数万文字が続くような場合」、毎回先頭から読み込むのと、
画面に表示するまでに時間がかかってしまいます。

そこで、毎回先頭から読み込むのではなく、前もって記録していた文字集合を渡すように
してあげることにしました。

[詳細]

具体的には、(designate) と(invoke) を記録しておく必要があります。
以降、ISO 2022について説明します。

文字集合を切り替えるのに、2つの方法を使用します。
文字集合を符号表(C0 GL C1 GR)に指定する(designate) 
文字集合をバッフア(G0,G1,G2,G3)にi指定する(invoke) する。その後符号表(C0 GL C1 GR)にわたす。
例)

1. <G0に文字集合を設定する>
2. <GLに対応する文字を変える>

[実現方法]

○ シングルシフトは記録しない。
 - ロッキングシフト
   命令で上書きされるまで、
 - シングルシフト
   1文字だけ

○*->UTF8への変換はJavaのAPIをそのまま利用する。なので、指定されている文字集合の変更だけを記録しておけばよい。

○指定されている文字集合の記録について、汎用的に作るのは断念する。
サポートしたいCharsetのdesignate/invokeを記録するようにする。
※ ISO2022ベースかどうかの判定は、自前でする必要があるため、
    もともと、自分が対応しようとしたものしか対応できない。


[サポート]
  ISO-2022-JP
    #designate:
   G0 
       <ESC ( B>, <ESC ( J>, <ESC $ @>, <ESC $ B>
     <ESC $ ( D>, <ESC $ A>, <ESC $ ( C>
     <ESC $ ( O>, <ESC $ ( P>
     <ESC $ ( Q>, 
   G2
    <ESC . A><ESC . F>
  #invoke
   G2
   <ESC N>;single

 ISO-2022-KR
    #designate:
      G1 
     <ESC $ ) C>
  #invoke
   G0
     <SI>
   G1
     <SO>
ISO-2022-CN
    #designate:
      G1
     <ESC $ ) A>,<ESC $ ) G>,<ESC $ ) E>
   G2
     <ESC $ * H>
   G3
     <ESC $ + I>,<ESC $ + J>,<ESC $ + K>,<ESC $ + L>,<ESC $ + M>
  #invoke
   G0
     <SI>
   G1
     <SO>
   G2
     <ESC N>; single
   G3
     <ESC O>; single

[資料]

符号表
  制御文字(C0)
  印字文字(GL)
  制御文字(C1)

  印字文字(GR)


仮想バッフア
  G0 G1 G2 G3

命令
#designate
 CZD   : C0
 C1D   : C1

 GZD4 : G0
 G1D4 : G1

 G2D4 : G2
 G3D4 : G3

 G1D6 : G1

 G2D6 : G2
 G3D6 : G3
 GZDM4  : G0
 G1DM4  : G1
 G2DM4  : G2
 G3DM4  : G3
 G1DM6  : G1
 G2DM6  : G2
 G3DM6  : G3
 DOCS   : 
 IRR       : 

#invoke
 SI      : GOをGLへ 7bit符号
 LS0   : G0をGLへ  8bit符号
 SO    : G1をGLへ 7bit符号
 LS1   : G1をGLへ  8bit符号
 LS2   : G2をGLへ
 LS3   : G3をGLへ

 LS1R : G1をGRへ  8bit符号
 LS2R : G2をGRへ  8bit符号
 LS3R : G3をGRへ  8bit符号
 SS2   : G2をGL/GRへ 1文字限り
 SS3   : G3をGL/GRへ 1文字限り
 ACS   : アナウンス機能

コメント

コメントを投稿

このブログの人気の投稿

KyoroStressの技術 -1- Low Memory Killer を意図的に発生させたい

[課題] Low Memory Killer を意図的に発生させたい Androidには、ヒープが涸渇すると使われていないアプリをKillする機能があります。 この記事では、意図的にヒープを枯渇させて、この状態をつくる方法について説明します。 単純にヒープを大量に消費するアプリを作成すれば良いように思えます。 しかし、これだけでは上手くいきません。   -A ひとつのアプリで消費できるヒープが制限されているため、ひとつのアプリで端末のヒープが涸渇している状態をつくれない。   -B ヒープを涸渇しているアプリがPFにKILLされる場合がある。 といった問題があります。 KyoroStressV2での解決方法を紹介します。 [KyoroStressでの解決方法] Kyoro Stress では、以下のような方法をとりました。 - 1. 複数のServiceを、各々異なるプロセスで起動する。 - 2. 各々Serviceで大量のヒープを消費する。 複数のプロセスを立ち上げれば、PFのヒープを枯渇させることができます。これで、(A)の問題が解決できました。 また、Bについては、「生きているプロセス」が「KILLされたプロセス」の分もヒープを消費すれば上手くいけそうです。 [BigEater(ヒープ消費サービス)の動作] KyoroStressV2で、ヒープを消費するサービスは以下のシナリオで動作しています。 - 1. 指定されたヒープを取得する。 is retry が true の時、指定されたヒープを取得できるまで、1を何度も繰り返す。 - 2. KILLされたサービスを復活させる。 is retry が true の時、Threadが死ぬまで、何度も2を繰り返す。 - 3. 終了 といった感じです。 このままでは、すべてのServiceがPFにKILLされたら上手くいかないように思うかも知れません。 しかし、時間がたつと(数秒)、PFはKILLしたServiceを再起動します。 このため、ServiceがすべてKILLされても、ヒープを大量に消費しようとする状態は保持されます。 [使い方] KyoroStressV2の操作方法…

P2P探訪 STUNでNAT越え その1

UPnPを用いて、NAT越えできました。しかし、ルータがUPnPをサポートしていなかったり。UPnPだけでは越えられないNATがあります。

本文では、その代案として前回解説できなかった。「適当なサーバーに接続してみて、相手から見えているアドレスを返してもらう方法」について解説していきます。

TCPの限界 インターネットで公開されている情報のほとんどは、TCPという通信方法でデータをやり取りされています。ですから、インターネットで情報を公開したい場合は、TCPサーバーを立ち上げる事を考える事でしょう。
 しかし、ルータがUPnPをサポートしていない場合、TCPを用いたサーバーを運用する事は困難になります。※ 基本、無理と考えもらって問題ありません。


接続相手から教えてもらう方法はどうした? 適当なサーバーに接続してみて、相手から見えているアドレスを返してもらう事で実現できないのでしょうか。前回はできそうな事を臭わせていました。しかし、TCPにおいて、これは困難です。

実際にTCPのプログラムを書き確認して見ましょう。接続相手のホストアドレスは推測できます。しかし、ポート番号を知るすべはありません。


import java.io.IOException; import java.net.Inet4Address; import java.net.ServerSocket; import java.net.Socket; import java.net.UnknownHostException; public class TCPTest { public static void main(String[] args) { TCPTest test = new TCPTest(); test.startServer(); try { Thread.sleep(3000); } catch (InterruptedException e) { e.printStackTrace(); } test.startClient(); } private Server mServer = new Server(); public void startServer() { mServer.start(); } public v…

P2P探訪 Raider その1-2 Torrentファイルフォーマット

というわけで、前回に引き続いて、この記事ではTorrentファイルについて説明します。 [Torrent file format] 前回、Bencodingを実装したのでTorremt Fileを読み込めることができるようになりました。 今回は、Torrentファイルから必要な情報を読み込む方法について解説します。 torretファイルから取得できる情報はどんなものかは、別の機会に解説します。 ここでは、torrentファイルには 2つのフォーマットがあることとデータ構造を説明します。 たとえば、「"announce"というデータが何なのか?」については解説しません。 torrentファイルでは、ダウンロード/アップロードの対象としているファイルが、ひとつの場合と複数の場合で構造がすこしだけことなります。 ひとつの時を、「single file」 複数の時を「multi file」と呼ぶことにます。 では、データ構造を紹介します。 - single file pattern bendiction benstring "announce" beninteger "creation date" bendiction "info" beninteger "length" benstring "name" beninteger "piece length" bebstring "pieces" - multi file pattern bendiction benstring "announce" beninteger "creation date" bendiction "info" benlist "files" bendiction beninteger "length" benlist "path" benstring be…