[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラム
Unicodeの文字コード表によるとUTF-8の半角英数、全角英数、半角カナ、全角カナの文字コードは以下のようになるようです。 英数字の場合は半角と全角の文字がそれぞれ対応していますが、カタカナの場合は半角と全角では文字の数が違うようです。
半角数字:0 - 9
30 - 39
全角数字
EFBC90 - EFBC99
2バイト目まではEFBC
半角アルファベット大文字:A - Z
41 - 5A
全角アルファベット大文字:A - Z
EFBCA1 - EFBCBA
2バイト目まではEFBC
半角アルファベット小文字:a - z
61 - 7A
全角アルファベット小文字:a - z
EFBD80 - EFBD9A
2バイト目まではEFBD
半角カナ(JISカナ)
EFBDA1 - EFBE9F
1バイト目がEFで2バイト目、3バイト目がBDA1 - BE9Fの範囲
全角カタカナ
E38299 - E383BF
1バイト目がE3で2バイト目、3バイト目が82A1 - 83BFの範囲
Unicode対応 文字コード表
http://ash.jp/code/unitbl1.htm
http://ash.jp/code/unitbl21.htm
動作確認用にまずUTF-8の文字コードを表示するプログラムを作成します。
#!/usr/bin/perl
use strict;
use warnings;
use Encode;
my $hanAlnum = "ABCDE12345abcde";
my $zenAlnum = "ABCDE12345abcde";
my $hanKana = "アイウエオ";
my $zenKana = "アイウエオ";
print_charcode($hanAlnum);
print "\n";
print_charcode($zenAlnum);
print "\n";
print_charcode($hanKana);
print "\n";
print_charcode($zenKana);
print "\n";
# UTF-8でエンコードされた文字列の文字コードを表示する
sub print_charcode {
my ($src) = @_;
my $srclen = length($src);
my $pos = 0;
while ($pos < $srclen) {
my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
my $bytelen = _bytesize($code);
my $srcchar = substr($src, $pos, $bytelen);
my $codestr = sprintf("%2.2X ", $code);
if ($bytelen > 1) {
my $times = $bytelen - 1;
for my $i (1 .. $times) {
my $charcode = ord substr($src, $pos + $i, 1);
$codestr .= sprintf("%2.2X ", $charcode);
}
}
# Windowsで表示するのでcp932(シフトJIS)に変換
Encode::from_to($srcchar, 'utf8', 'cp932');
print "$srcchar : $codestr\n";
$pos += $bytelen;
}
}
# 文字のバイト長を求める
sub _bytesize {
my $code = shift;
my $size = 1;
if (0x80 & $code) { # 1バイト文字以外
$code <<= 1;
for my $i (2 .. 8) {
$size++;
$code <<= 1;
last if (!(0x80 & $code));
}
}
return $size;
}
Perl Hacks ―プロが教えるテクニック & ツール101選
オライリー・ジャパン 著者:chromatic,Damian Conway,Curtis "Ovid" Poe
amazon.co.jpのカスタマーレビューを見る
powered by amalink
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)
キーワード
[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラム 関連リンク
| Perlで全角半角変換を行う方法 | |
| 日本語の文章では半角の英数字と全角の英数字、また、半角のカタカナと全角のカタカナが混在していることがよくあります。意味は半角でも全角でも同じですので、コンピュータで処理する場合はどちらかに統一してから... | |
[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラム トラックバック
トラックバックURL :
[Perl]UTF-8でエンコードされた文字の文字コードを表示するプログラムへのコメント
アクセスランキング
今日のアクセスランキング TOP 10
- FC2動画やYouTubeなどから無料動画(映画やドラマ、アニメ、音楽など)を探す方法 (4 PV)
- Twitter がワーム攻撃を受ける (4 PV)
- [将棋]NHK杯2回戦第1局は増田康宏四段が雁木っぽい戦型で深浦康市九段の矢倉を粉砕 (4 PV)
- Windows 10の大型アップデート「Windows 10 Creators Update」が配信開始 (4 PV)
- 個人向けのRSS広告配信サービス (4 PV)
- Google(グーグル)検索 日本版 - ウェブ、画像の検索 (4 PV)
- Google 日本語入力がオープンソースに (4 PV)
- 嘘でしょ?忍者は実在した!「秘伝 伊賀流忍術の奥義」が動画で公開 (4 PV)
- Google、サーチウィキ導入 (4 PV)
- [FX]ユーロドル(#EURUSD)リアルタイム為替チャート #市況実況 (4 PV)
今月のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (65 PV)
- 2NN 2ちゃんねるニュース速報+ナビ (52 PV)
- 仲値トレードが簡単にできる無料EA「NAKANE3」 #MT4 (37 PV)
- Google News (グーグルニュース)日本版 (22 PV)
- Google Finance(グーグルファイナンス)- リアルタイム株価情報、金融ニュース、日本株 (21 PV)
- 裁量トレードを半自動化する無料のMT5向け裁量トレード支援ツール(裁量補助EA)「PositionKeeper MT5」 #FX (20 PV)
- [PR]noteで販売している自作EAの一覧 (20 PV)
- MT4向け1ポジブレイクアウトEA「HEADLINE」オープンソースライセンス(GPL3)で公開 #USDJPY (16 PV)
- USTREAM(ユーストリーム) 日本語版 無料のライブ映像配信サービス (16 PV)
- 究極の爆益ゴールドナンピンマーチンEA「Extreme(エクストリーム)」 MT4向け (16 PV)
アクセス統計
ディレクトリ
関連サイト
