[C言語]UTF-8でエンコードされた文字列の文字数を取得するコード
C言語のstrlen関数では文字列の長さとして返ってくる値はバイト単位となるので、UTF-8でエンコードされている場合、漢字、ひらがな、カタカナなどは1文字で3となってしまいます。
Webアプリケーションのテキスト処理ではそれでは不都合な場合もことも多いので、半角英数も全角文字(漢字、ひらがな、カタカナなど) も1文字としてカウントする関数を作成することにします。
#include <stdio.h>
#include <string.h>
int strlen_utf8(char *cp);
int _bytesize(unsigned char code);
int main(void)
{
char *testAscii = "ABCDEFG";
char *testHira = "あいうえお";
char *testKata = "アイウエ";
char *testKanji = "愛々木";
char *testAll = "ABCDEFGあいうえおアイウエオ愛夢佐々木";
printf("strlen(testAscii) = %d\n", strlen(testAscii));
printf("strlen_utf8(testAscii) = %d\n", strlen_utf8(testAscii));
printf("strlen(testHira) = %d\n", strlen(testHira));
printf("strlen_utf8(testHira) = %d\n", strlen_utf8(testHira));
printf("strlen(testKata) = %d\n", strlen(testKata));
printf("strlen_utf8(testKata) = %d\n", strlen_utf8(testKata));
printf("strlen(testKanji) = %d\n", strlen(testKanji));
printf("strlen_utf8(testKanji) = %d\n", strlen_utf8(testKanji));
printf("strlen(testAll) = %d\n", strlen(testAll));
printf("strlen_utf8(testAll) = %d\n", strlen_utf8(testAll));
return 0;
}
/* UTF-8でエンコードされた文字列の文字数を取得 */
int strlen_utf8(char *cp)
{
int textlen = strlen(cp);
int pos = 0;
int count = 0;
while (pos < textlen) {
unsigned char code;
code = *(cp + pos); /* ASCIIコード値を取得 */
int bytelen = _bytesize(code);
pos += bytelen;
count++; /* 文字数をカウント */
}
return count;
}
/* 文字のバイト長を求める */
int _bytesize(unsigned char code)
{
int size = 1;
int i;
if (0x80 & code) { /* 1バイト文字以外 */
for (i = 2; i <= 8; i++) {
code <<= 1;
if (!(0x80 & code)) {
break;
}
size++;
}
}
return size;
}
strlen_utf8関数では、1バイト目のASCIIコード値をパラメータとして_bytesize関数を呼び出して文字のバイト数を求め、1文字分の処理を行うたびに文字数をカウントアップしています。
また、_bytesize関数ではパラメータで渡されたコード値の場合の文字のバイト数を、コード値のビットの状態から判定して戻り値として返しています。
プロクラムの実行結果は以下のようになります。
kagahiro@kagahiro-PC ~/sample/c
$ ./strlen_utf8
strlen(testAscii) = 7
strlen_utf8(testAscii) = 7
strlen(testHira) = 15
strlen_utf8(testHira) = 5
strlen(testKata) = 12
strlen_utf8(testKata) = 4
strlen(testKanji) = 9
strlen_utf8(testKanji) = 3
strlen(testAll) = 52
strlen_utf8(testAll) = 22
オープン | 1 point | Link (3) | Trackback (0) | Comment (1)
キーワード
C言語 サンプル プログラム プログラミング UTF8 文字列 文字数
[C言語]UTF-8でエンコードされた文字列の文字数を取得するコード 関連リンク
[C言語]1バイト(8bit)の10進数を2進数の文字列に変換するコード | |
1バイト(8bit)の10進数を2進数の文字列に変換するコードのC言語版です。C言語では、PerlやPHPなどのように2進文字列に変換してくれる便利な関数は関数はないので、ビット演... |
[Perl]UTF-8でエンコードされた文字列の文字数を取得するコード | |
Perlのlength関数ではバイト単位となるので、UTF-8でエンコードされている場合、漢字、ひらがな、カタカナなどは1文字で3となってしまいます。ブログなどのアプリケーションのテキスト処理ではそれでは不都合な場合も... |
[C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコード | |
C言語のstrncpy関数やmemcpy関数ではバイト単位の操作になるので、漢字、ひらがな、カタカナなどの全角文字を文字数で指定して部分文字列を取り出すことができません。そこで半角英数も全角文字も1文字として部分文字... |
[C言語]UTF-8でエンコードされた文字列の文字数を取得するコード トラックバック
トラックバックURL :
[C言語]UTF-8でエンコードされた文字列の文字数を取得するコードへのコメント
1 Posted by kagahiro at 2013/07/02 10:43:26 | |
_bytesize関数を修正 |
アクセスランキング
今日のアクセスランキング TOP 10
- 東証一部上場とは (1 PV)
- レスポンシブウェブデザイン (1 PV)
- AWSの開発者向けイベント「AWS Dev Day Tokyo 2017」が5月31日から6月2日に開催される (1 PV)
- GCC開発者らがGoogleの「Go言語」をサポートする方針を発表 - SourceForge.JP Magazine (1 PV)
- [将棋]豊島将之八段の作戦勝ちで前回準優勝の佐藤和俊六段に完全勝利 #NHK杯 (1 PV)
- WordPressが使いやすい (1 PV)
- PRISM(プリズム) (1 PV)
- [プログラミング言語]Processing(プロセッシング) (1 PV)
- 民主党小沢代表辞意撤回の茶番劇 (1 PV)
- Windows Live Writer(ブログエディタ) (1 PV)
今月のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (345 PV)
- 2NN 2ちゃんねるニュース速報+ナビ (43 PV)
- 安全性重視の完全無料ナンピンマーチンEA「Million Dollar(ミリオンダラー)」 #FX #ゴールド #ビットコイン (31 PV)
- [PR]noteで販売している自作EAの一覧 (31 PV)
- DECOLOG(デコログ) (29 PV)
- SQLiteのSELECT文で上位 (TOP) n件のデータを取得する (28 PV)
- 裁量トレードを半自動化する無料のMT5向け裁量トレード支援ツール(裁量補助EA)「PositionKeeper MT5」 #FX (27 PV)
- Google News (グーグルニュース)日本版 (26 PV)
- 仲値トレードが簡単にできる無料EA「NAKANE3 Ver 2.04」 #MT4 (23 PV)
- 自作のMT4向け無料EA(口座縛り無し、ブローカー縛り無し、使用期限無し)とゴゴジャン出品中の有料EAの一覧 #MT4 (22 PV)
アクセス統計
ディレクトリ
関連サイト