[JIS]の検索結果
Unicodeの文字コード表によるとUTF-8の半角英数、全角英数、半角カナ、全角カナの文字コードは以下のようになるようです。 英数字の場合は半角と全角の文字がそれぞれ対応していますが、カタカナの場合は半角と全角では文字の数が違うようです。
半角数字:0 - 9
30 - 39
全角数字
EFBC90 - EFBC99
2バイト目まではEFBC
半角アルファベット大文字:A - Z
41 - 5A
全角アルファベット大文字:A - Z
EFBCA1 - EFBCBA
2バイト目まではEFBC
半角アルファベット小文字:a - z
61 - 7A
全角アルファベット小文字:a - z
EFBD80 - EFBD9A
2バイト目まではEFBD
半角カナ(JISカナ)
EFBDA1 - EFBE9F
1バイト目がEFで2バイト目、3バイト目がBDA1 - BE9Fの範囲
全角カタカナ
E38299 - E383BF
1バイト目がE3で2バイト目、3バイト目が82A1 - 83BFの範囲
Unicode対応 文字コード表
http://ash.jp/code/unitbl1.htm
http://ash.jp/code/unitbl21.htm
動作確認用にまずUTF-8の文字コードを表示するプログラムを作成します。
#!/usr/bin/perl
use strict;
use warnings;
use Encode;
my $hanAlnum = "ABCDE12345abcde";
my $zenAlnum = "ABCDE12345abcde";
my $hanKana = "アイウエオ";
my $zenKana = "アイウエオ";
print_charcode($hanAlnum);
print "\n";
print_charcode($zenAlnum);
print "\n";
print_charcode($hanKana);
print "\n";
print_charcode($zenKana);
print "\n";
# UTF-8でエンコードされた文字列の文字コードを表示する
sub print_charcode {
my ($src) = @_;
my $srclen = length($src);
my $pos = 0;
while ($pos < $srclen) {
my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
my $bytelen = _bytesize($code);
my $srcchar = substr($src, $pos, $bytelen);
my $codestr = sprintf("%2.2X ", $code);
if ($bytelen > 1) {
my $times = $bytelen - 1;
for my $i (1 .. $times) {
my $charcode = ord substr($src, $pos + $i, 1);
$codestr .= sprintf("%2.2X ", $charcode);
}
}
# Windowsで表示するのでcp932(シフトJIS)に変換
Encode::from_to($srcchar, 'utf8', 'cp932');
print "$srcchar : $codestr\n";
$pos += $bytelen;
}
}
# 文字のバイト長を求める
sub _bytesize {
my $code = shift;
my $size = 1;
if (0x80 & $code) { # 1バイト文字以外
$code <<= 1;
for my $i (2 .. 8) {
$size++;
$code <<= 1;
last if (!(0x80 & $code));
}
}
return $size;
}
Perl Hacks ―プロが教えるテクニック & ツール101選
オライリー・ジャパン 著者:chromatic,Damian Conway,Curtis "Ovid" Poe
amazon.co.jpのカスタマーレビューを見る
powered by amalink
単にテキストファイル等の文字エンコードを変換するのであれば、iconvコマンドを使用して変換すれば良いのですが、 プログラム内部で取得した文字列の文字エンコードを変換したい場合もあります。
以下のプログラムはLinuxやCygwinの環境でC言語のプログラムからiconvを呼び出して文字エンコードを 変換する場合の手順を示したサンプルプログラムです。
--- tst_iconv.c ---
#include <stdio.h>
#include <iconv.h>
#define BUFSIZE 1024
char outbuf[BUFSIZE];
int convert(char const *src,
char const *dest,
char const *text,
char *buf,
size_t bufsize);
main(void)
{
int ret;
ret = convert("SHIFT-JIS", "UTF-8",
"日本語テストメッセージおはよう",
outbuf, sizeof(outbuf));
if (ret) {
printf("%s\n", outbuf);
}
else {
printf("Oops!\n");
}
}
int convert(char const *src,
char const *dest,
char const *text,
char *buf,
size_t bufsize)
{
iconv_t cd;
size_t srclen, destlen;
size_t ret;
cd = iconv_open(dest, src);
if (cd == (iconv_t)-1) {
perror("iconv open");
return 0;
}
srclen = strlen(text);
destlen = bufsize - 1;
memset(buf, '\0', bufsize);
ret = iconv(cd, &text, &srclen, &buf, &destlen);
if (ret == -1) {
perror("iconv");
return 0;
}
iconv_close(cd);
return 1;
}
コンパイル方法
$ gcc -o tst_iconv tst_iconv.c -liconv
公示されたJIS規格は、Webサービス技術を推進する国際的な業界団体であるWS-Iが、2008年に制定したISO/IEC 29361:2008、ISO/IEC 29362:2008及びISO/IEC 29363:2008の三つの国際規格を、国内のITベンダー及び国内のユーザーからもより容易に、広く活用されることを目指し、IPAが日本語への翻訳を行うとともに、JIS規格とするための作業に取り組んできたもの。
情報処理推進機構:プレス発表:記事:Webサービス相互運用性関連JIS規格の公示について
アクセスランキング
今日のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (6 PV)
- 2NN 2ちゃんねるニュース速報+ナビ (3 PV)
- Google Finance(グーグルファイナンス)- リアルタイム株価情報、金融ニュース、日本株 (2 PV)
- 10baggerの配布は終了しました (2 PV)
- さきゅばす - ニコニコ動画コメント付き動画保存ソフト (2 PV)
- FC2WiFI (2 PV)
- 裁量トレードを半自動化する無料のMT5向け裁量トレード支援ツール(裁量補助EA)「PositionKeeper MT5」 #FX (2 PV)
- ニコニコ動画は本気でMADを削除する気があるのだろうか (2 PV)
- 人気ナンピンマーチンEA「NPNM_v3」向けサンプルセットファイル (1 PV)
- RIA(Rich Internet Application、リッチインターネットアプリケーション) (1 PV)
今月のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (67 PV)
- 2NN 2ちゃんねるニュース速報+ナビ (14 PV)
- Google Finance(グーグルファイナンス)- リアルタイム株価情報、金融ニュース、日本株 (10 PV)
- 裁量トレードを半自動化する無料のMT5向け裁量トレード支援ツール(裁量補助EA)「PositionKeeper MT5」 #FX (7 PV)
- SQLiteのSELECT文で上位 (TOP) n件のデータを取得する (6 PV)
- StartPage(スタートページ) - 匿名検索エンジン (5 PV)
- FC2まとめ (5 PV)
- 人気ナンピンマーチンEA「NPNM_v3」向けサンプルセットファイル (5 PV)
- YouTube(ユーチューブ)日本版 - 動画共有、ライブ配信 (5 PV)
- 日経平均株価(にっけいへいきんかぶか) (4 PV)
アクセス統計
ディレクトリ
関連サイト
