[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラム
Unicodeの文字コード表によるとUTF-8の半角英数、全角英数、半角カナ、全角カナの文字コードは以下のようになるようです。 英数字の場合は半角と全角の文字がそれぞれ対応していますが、カタカナの場合は半角と全角では文字の数が違うようです。
半角数字:0 - 9
30 - 39
全角数字
EFBC90 - EFBC99
2バイト目まではEFBC
半角アルファベット大文字:A - Z
41 - 5A
全角アルファベット大文字:A - Z
EFBCA1 - EFBCBA
2バイト目まではEFBC
半角アルファベット小文字:a - z
61 - 7A
全角アルファベット小文字:a - z
EFBD80 - EFBD9A
2バイト目まではEFBD
半角カナ(JISカナ)
EFBDA1 - EFBE9F
1バイト目がEFで2バイト目、3バイト目がBDA1 - BE9Fの範囲
全角カタカナ
E38299 - E383BF
1バイト目がE3で2バイト目、3バイト目が82A1 - 83BFの範囲
Unicode対応 文字コード表
http://ash.jp/code/unitbl1.htm
http://ash.jp/code/unitbl21.htm
動作確認用にまずUTF-8の文字コードを表示するプログラムを作成します。
#!/usr/bin/perl
use strict;
use warnings;
use Encode;
my $hanAlnum = "ABCDE12345abcde";
my $zenAlnum = "ABCDE12345abcde";
my $hanKana = "アイウエオ";
my $zenKana = "アイウエオ";
print_charcode($hanAlnum);
print "\n";
print_charcode($zenAlnum);
print "\n";
print_charcode($hanKana);
print "\n";
print_charcode($zenKana);
print "\n";
# UTF-8でエンコードされた文字列の文字コードを表示する
sub print_charcode {
my ($src) = @_;
my $srclen = length($src);
my $pos = 0;
while ($pos < $srclen) {
my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
my $bytelen = _bytesize($code);
my $srcchar = substr($src, $pos, $bytelen);
my $codestr = sprintf("%2.2X ", $code);
if ($bytelen > 1) {
my $times = $bytelen - 1;
for my $i (1 .. $times) {
my $charcode = ord substr($src, $pos + $i, 1);
$codestr .= sprintf("%2.2X ", $charcode);
}
}
# Windowsで表示するのでcp932(シフトJIS)に変換
Encode::from_to($srcchar, 'utf8', 'cp932');
print "$srcchar : $codestr\n";
$pos += $bytelen;
}
}
# 文字のバイト長を求める
sub _bytesize {
my $code = shift;
my $size = 1;
if (0x80 & $code) { # 1バイト文字以外
$code <<= 1;
for my $i (2 .. 8) {
$size++;
$code <<= 1;
last if (!(0x80 & $code));
}
}
return $size;
}
Perl Hacks ―プロが教えるテクニック & ツール101選
オライリー・ジャパン 著者:chromatic,Damian Conway,Curtis "Ovid" Poe
amazon.co.jpのカスタマーレビューを見る
powered by amalink
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)
キーワード
[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラム 関連リンク
Perlで全角半角変換を行う方法 | |
日本語の文章では半角の英数字と全角の英数字、また、半角のカタカナと全角のカタカナが混在していることがよくあります。意味は半角でも全角でも同じですので、コンピュータで処理する場合はどちらかに統一してから... |
[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラム トラックバック
トラックバックURL :
[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラムへのコメント
アクセスランキング
今日のアクセスランキング TOP 10
- 安全性重視の完全無料ナンピンマーチンEA「Million Dollar(ミリオンダラー)」 #FX #ゴールド #ビットコイン (10 PV)
- 完全無料のMT4向けナンピンEA「Nanpin K(ナンピンケイ)」をバージョンアップ(Ver 2.04) (4 PV)
- 自作のMT4向け無料EA(口座縛り無し、ブローカー縛り無し、使用期限無し)とゴゴジャン出品中の有料EAの一覧 #MT4 (3 PV)
- ナンピンEA「Nanpin K」のサンプルセットファイルを公開 (3 PV)
- 海外FXのキャッシュバック口座でも利用できるレンジ相場向け逆張りナンピンEA「Nanpin K(ナンピンケイ)」を無料公開中 #MT4 (3 PV)
- MT4向け無料ヘッジ(両建て)ツール(EA)「STOPPER FREE」 #自動売買 #FX (3 PV)
- [FX]同一通貨ペアのポジションをまとめて決済できるMT4向けツール(EA)「Closer(クローザー)」を完全無料で公開 (2 PV)
- ガンマトレード(ガンマプレイ)とは #FX #用語解説 #オプション取引 (2 PV)
- 「Million Dollar MT5」のナンピンマーチン大会(#MCC2023)での設定 (2 PV)
- MySQLのINSERT ... SELECT文でLIMIT句を使用して上位3件のレコードをテーブルに追加する (1 PV)
今月のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (2486 PV)
- 安全性重視の完全無料ナンピンマーチンEA「Million Dollar(ミリオンダラー)」 #FX #ゴールド #ビットコイン (1782 PV)
- 「Million Dollar MT5」のナンピンマーチン大会(#MCC2023)での設定 (1203 PV)
- 自作のMT4向け無料EA(口座縛り無し、ブローカー縛り無し、使用期限無し)とゴゴジャン出品中の有料EAの一覧 #MT4 (712 PV)
- 2chまとめサイト - 痛いニュース(ノ∀`) (330 PV)
- MT4向け無料ヘッジ(両建て)ツール(EA)「STOPPER FREE」 #自動売買 #FX (319 PV)
- 完全無料のMT4向けナンピンEA「Nanpin K(ナンピンケイ)」をバージョンアップ(Ver 2.04) (263 PV)
- Google Finance(グーグルファイナンス)- リアルタイム株価情報、金融ニュース、日本株 (254 PV)
- Google News (グーグルニュース)日本版 (211 PV)
- DECOLOG(デコログ) (206 PV)
アクセス統計
ディレクトリ
関連サイト