[Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコード
まずカタカナより比較的プログラミングしやすそうな英数字の全角半角変換から作成します。
半角から全角への変換の処理手順は、
・半角英数字の場合は、同じ全角英数字に置き換えて戻り値として返す文字列に連結
・それ以外の文字の場合はそのまま戻り値として返す文字列に連結
また、全角から半角への変換の処理手順は、
・全角英数字の場合は、同じ半角英数字に置き換えて戻り値として返す文字列に連結
・それ以外の文字の場合はそのまま戻り値として返す文字列に連結
となります。
文字コードはそれぞれ以下の通りですので、これらに該当する文字があったら置き換えを行います。
半角数字:0 - 9
30 - 39
全角数字:0 - 9
EFBC90 - EFBC99
2バイト目まではEFBC
半角アルファベット大文字:A - Z
41 - 5A
全角アルファベット大文字:A - Z
EFBCA1 - EFBCBA
2バイト目まではEFBC
半角アルファベット小文字:a - z
61 - 7A
全角アルファベット小文字:a - z
EFBD80 - EFBD9A
2バイト目まではEFBD
以下が英数字の半角から全角へ、全角から半角への変換を行うコード(プログラム)です。
#!/usr/bin/perl
use strict;
use warnings;
use Encode;
my $hanAlnum = "ABCDEい12345あabcde";
my $zenAlnum = "ABCDEい12345あabcdeカ";
my $zenstr = han2zen_alnum($hanAlnum);
Encode::from_to($hanAlnum, 'utf8', 'cp932');
Encode::from_to($zenstr, 'utf8', 'cp932');
print "$hanAlnum ---> $zenstr\n";
my $hanstr = zen2han_alnum($zenAlnum);
Encode::from_to($zenAlnum, 'utf8', 'cp932');
Encode::from_to($hanstr, 'utf8', 'cp932');
print "$zenAlnum ---> $hanstr\n";
# UTF-8でエンコードされた半角英数字を全角英数字に変換する
sub han2zen_alnum {
my ($src) = @_;
my $srclen = length($src);
my $pos = 0;
my $dest = '';
while ($pos < $srclen) {
my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
my $bytelen = _bytesize($code);
my $lastbyte = 0;
my $bytechar = '';
my $flagged_utf8 = '';
if ($code >= 0x30 && $code <= 0x39) { # 数字
$lastbyte = 0x90 + ($code - 0x30);
$bytechar = pack("C3", 0xEF, 0xBC, $lastbyte);
$dest .= $bytechar;
}
elsif ($code >= 0x41 && $code <= 0x5A) { # 大文字英字
$lastbyte = 0xA1 + ($code - 0x41);
$bytechar = pack("C3", 0xEF, 0xBC, $lastbyte);
$dest .= $bytechar;
}
elsif ($code >= 0x61 && $code <= 0x7A) { # 小文字英字
$lastbyte = 0x81 + ($code - 0x61);
$bytechar = pack("C3", 0xEF, 0xBD, $lastbyte);
$dest .= $bytechar;
}
else {
$dest .= substr($src, $pos, $bytelen);
}
$pos += $bytelen;
}
return $dest;
}
# UTF-8でエンコードされた全角英数字を半角英数字に変換する
sub zen2han_alnum {
my ($src) = @_;
my $srclen = length($src);
my $pos = 0;
my $dest = '';
while ($pos < $srclen) {
my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
my $bytelen = _bytesize($code);
my $hit = 0;
if ($code == 0xEF) { # 全角英数の場合は1バイト目がEF
my $code2 = ord substr($src, $pos + 1, 1); # 2バイト目
my $code3 = ord substr($src, $pos + 2, 1); # 3バイト目
if ($code2 == 0xBC) {
if ($code3 >= 0x90 && $code3 <= 0x99) {
$dest .= chr(0x30 + ($code3 - 0x90));
$hit = 1;
}
elsif ($code3 >= 0xA1 && $code3 <= 0xBA) {
$dest .= chr(0x41 + ($code3 - 0xA1));
$hit = 1;
}
}
elsif ($code2 == 0xBD) {
if ($code3 >= 0x80 && $code3 <= 0x9A) {
$dest .= chr(0x61 + ($code3 - 0x80));
$hit = 1;
}
}
}
if(!$hit) {
$dest .= substr($src, $pos, $bytelen);
}
$pos += $bytelen;
}
return $dest;
}
# 文字のバイト長を求める
sub _bytesize {
my $code = shift;
my $size = 1;
if (0x80 & $code) { # 1バイト文字以外
$code <<= 1;
for my $i (2 .. 8) {
$size++;
$code <<= 1;
last if (!(0x80 & $code));
}
}
return $size;
}
オープン | 0 point | Link (1) | Trackback (0) | Comment (0)
キーワード
[Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコード 関連リンク
Perlで全角半角変換を行う方法 | |
日本語の文章では半角の英数字と全角の英数字、また、半角のカタカナと全角のカタカナが混在していることがよくあります。意味は半角でも全角でも同じですので、コンピュータで処理する場合はどちらかに統一してから... |
[Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコード トラックバック
トラックバックURL :
[Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコードへのコメント
アクセスランキング
今日のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (38 PV)
- 2NN 2ちゃんねるニュース速報+ナビ (8 PV)
- 2chまとめサイト - 痛いニュース(ノ∀`) (3 PV)
- SQLiteのSELECT文で上位 (TOP) n件のデータを取得する (2 PV)
- 安全性重視の完全無料ナンピンマーチンEA「Million Dollar(ミリオンダラー)」 #FX #ゴールド #ビットコイン (2 PV)
- ハイレバギャンブルトレードで爆益か爆損か? MT4向けの無料EA「10bagger(テンバガー)」 (1 PV)
- [FX]高値更新・安値更新でエントリー、MT4向け無料スキャルピングEA「1Scalper」#システムトレード (1 PV)
- [FX]裁量ポジションを簡単に管理できるMT4向け無料の裁量補助EA「PositionKeeper」 (1 PV)
- [FX]乱数によってランダムにポジションを建てるMT4向け無料EA「2bunno1」をリリース #コイントストレード (1 PV)
- [FX]裁量ポジションの管理が簡単にできるMT4向け無料ツール(EA)「PositionKeeper」をバージョンアップ(Ver 1.03) (1 PV)
今月のアクセスランキング TOP 10
- 2NN 2ちゃんねるニュース速報+ナビ (3273 PV)
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (486 PV)
- 安全性重視の完全無料ナンピンマーチンEA「Million Dollar(ミリオンダラー)」 #FX #ゴールド #ビットコイン (88 PV)
- 自作のMT4向け無料EA(口座縛り無し、ブローカー縛り無し、使用期限無し)とゴゴジャン出品中の有料EAの一覧 #MT4 (86 PV)
- SQLiteのSELECT文で上位 (TOP) n件のデータを取得する (70 PV)
- Million Dollar Ver 1.09向けの収益性を重視したゴールド(Gold、XAUUSD)ロングセットファイル (64 PV)
- 無料のMT4向けナンピンマーチン爆益(爆損)EA「Jipangu(ジパング)」 (59 PV)
- 仲値トレードが簡単にできる無料EA「NAKANE3 Ver 2.04」 #MT4 (58 PV)
- [FX]裁量ポジションを簡単に管理できるMT4向け無料の裁量補助EA「PositionKeeper」 (49 PV)
- 2chまとめサイト - 痛いニュース(ノ∀`) (46 PV)
アクセス統計
ディレクトリ
関連サイト