[date:20130701]の検索結果


C言語のstrlen関数では文字列の長さとして返ってくる値はバイト単位となるので、UTF-8でエンコードされている場合、漢字、ひらがな、カタカナなどは1文字で3となってしまいます。

Webアプリケーションのテキスト処理ではそれでは不都合な場合もことも多いので、半角英数も全角文字(漢字、ひらがな、カタカナなど) も1文字としてカウントする関数を作成することにします。

#include <stdio.h>
#include <string.h>

int strlen_utf8(char *cp);
int _bytesize(unsigned char code);

int main(void)
{
    char *testAscii = "ABCDEFG";
    char *testHira  = "あいうえお";
    char *testKata  = "アイウエ";
    char *testKanji = "愛々木";
    char *testAll = "ABCDEFGあいうえおアイウエオ愛夢佐々木";

    printf("strlen(testAscii) = %d\n", strlen(testAscii));
    printf("strlen_utf8(testAscii) = %d\n", strlen_utf8(testAscii));

    printf("strlen(testHira) = %d\n", strlen(testHira));
    printf("strlen_utf8(testHira) = %d\n", strlen_utf8(testHira));

    printf("strlen(testKata) = %d\n", strlen(testKata));
    printf("strlen_utf8(testKata) = %d\n", strlen_utf8(testKata));

    printf("strlen(testKanji) = %d\n", strlen(testKanji));
    printf("strlen_utf8(testKanji) = %d\n", strlen_utf8(testKanji));

    printf("strlen(testAll) = %d\n", strlen(testAll));
    printf("strlen_utf8(testAll) = %d\n", strlen_utf8(testAll));

    return 0;
}

/* UTF-8でエンコードされた文字列の文字数を取得 */
int strlen_utf8(char *cp)
{
    int textlen = strlen(cp);
    int pos = 0;
    int count = 0;

    while (pos < textlen) {
        unsigned char code;
        code = *(cp + pos); /* ASCIIコード値を取得 */
        int bytelen = _bytesize(code);
        pos += bytelen;
        count++; /* 文字数をカウント */
    }

    return count;
}

/* 文字のバイト長を求める */
int _bytesize(unsigned char code)
{
    int size = 1;
    int i;

    if (0x80 & code) { /* 1バイト文字以外 */
        for (i = 2; i <= 8; i++) {
            code <<= 1;
            if (!(0x80 & code)) {
                break;
            }
            size++;
        }
    }
    return size;
}

strlen_utf8関数では、1バイト目のASCIIコード値をパラメータとして_bytesize関数を呼び出して文字のバイト数を求め、1文字分の処理を行うたびに文字数をカウントアップしています。

また、_bytesize関数ではパラメータで渡されたコード値の場合の文字のバイト数を、コード値のビットの状態から判定して戻り値として返しています。

プロクラムの実行結果は以下のようになります。

kagahiro@kagahiro-PC ~/sample/c
$ ./strlen_utf8
strlen(testAscii) = 7
strlen_utf8(testAscii) = 7
strlen(testHira) = 15
strlen_utf8(testHira) = 5
strlen(testKata) = 12
strlen_utf8(testKata) = 4
strlen(testKanji) = 9
strlen_utf8(testKanji) = 3
strlen(testAll) = 52
strlen_utf8(testAll) = 22

[2323] Posted by kagahiro at 2013/07/01 20:46:54
1 point | Link (3) | Trackback (0) | Comment (1)

Unicodeエスケープシーケンスは、\uXXXX(Xは十六進)の6バイトの形でUnicodeの1文字が表される文字の表記方法で、例えば、「あ」という文字はUnicodeエスケープシーケンスで「\u3042」と表記される。

Unicode エスケープシーケンス 変換
Unicodeエスケープシーケンス変換ツール
C++でunicode escape sequenceをutf8にする
[2322] Posted by kagahiro at 2013/07/01 17:23:39
0 point | Link (1) | Trackback (0) | Comment (0)

Wikibooks(ウィキブックス、 Wiki-textbook を略した名称)は、インターネット上で共同して自由に利用できるオープンコンテントの参考書・教科書を作成してするプロジェクト。プロジェクトで作成される本の著作権はGNU Free Documentation Licenseとなっている。

Wikibooks 日本語版
[2321] Posted by kagahiro at 2013/07/01 13:21:18
0 point | Link (1) | Trackback (0) | Comment (0)

  1  


アクセスランキング

今日のアクセスランキング TOP 10

  1. SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (24 PV)
  2. NAVERまとめ (10 PV)
  3. W3CがHTMLの第5版である「HTML5」を勧告に到達したと発表 (10 PV)
  4. 無料掲示板CGIのダウンロード (10 PV)
  5. [Perl][HTML::Template]<TMPL_LOOP>タグのサンプルプログラム (9 PV)
  6. Topilog(トピログ) (9 PV)
  7. ピクシブが「Pawoo(パウー)」以外のインスタンスでも利用可能なMastodon(マストドン)Androidアプリを公開 (9 PV)
  8. Ruby Draft Specification (9 PV)
  9. Perl6ディストリビューション「Rakudo Star」 (9 PV)
  10. 初恋の人からの手紙 (9 PV)

今月のアクセスランキング TOP 10

  1. SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (129 PV)
  2. 無料掲示板CGIのダウンロード (43 PV)
  3. 裁量トレードを半自動化する無料のMT5向け裁量トレード支援ツール(裁量補助EA)「PositionKeeper MT5」 #FX (22 PV)
  4. Google News (グーグルニュース)日本版 (22 PV)
  5. 自作のMT4向け無料EA(口座縛り無し、ブローカー縛り無し、使用期限無し)とゴゴジャン出品中の有料EAの一覧 #MT4 (21 PV)
  6. 仲値トレードが簡単にできる無料EA「NAKANE3 Ver 2.04」 #MT4 (20 PV)
  7. USTREAM(ユーストリーム) 日本語版 無料のライブ映像配信サービス (19 PV)
  8. 「国家非常事態」トランプ米大統領が日本に24%の関税を課すと表明 日経平均株価が急落 (18 PV)
  9. 究極の爆益ゴールドナンピンマーチンEA「Extreme MT5」 (17 PV)
  10. 究極の爆益ゴールドナンピンマーチンEA「Extreme(エクストリーム)」 MT4向け (16 PV)

アクセス統計

ディレクトリ

関連サイト