[date:20130702]の検索結果


C言語のstrncpy関数やmemcpy関数ではバイト単位の操作になるので、漢字、ひらがな、カタカナなどの全角文字を文字数で指定して部分文字列を取り出すことができません。 そこで半角英数も全角文字も1文字として部分文字列を取り出すことができる関数を作成します。

以下はそのコードです。[C言語]UTF-8でエンコードされた文字列の文字数を取得するコードと同様に、文字の1バイト目のビットの状態を調べることによってその文字が何バイト文字を判定しています。

#include <stdio.h>
#include <string.h>

char *substr_utf8(char *dest, char *src, int offset, int len);
int _bytesize(unsigned char code);


int main(void)
{
    char *testStr = "ABCDEFGあいうえおアイウエオ愛夢佐々木";
    char strBuf[256];

    memset(strBuf, 0sizeof strBuf);

    printf("substr_utf8($testStr, 0, 5) = %s\n", substr_utf8(strBuf, testStr, 05));
    printf("substr_utf8($testStr, 3, 3) = %s\n", substr_utf8(strBuf, testStr, 33));
    printf("substr_utf8($testStr, 10, 4) = %s\n", substr_utf8(strBuf, testStr, 104));
    printf("substr_utf8($testStr, 13, 5) = %s\n", substr_utf8(strBuf, testStr, 135));

    return 0;
}

/* UTF-8でエンコードされた文字列の部分文字列を取り出す */
/* substr_utf8 (文字列式, オフセット, 長さ)*/
char *substr_utf8(char *dest, char *src, int offset, int len)
{
    int srclen = strlen(src);
    int pos = 0;
    int count = 0;
    char *cp = dest;

    while (pos < srclen) {
        unsigned char code;
        code = *(src + pos); /* ASCIIコード値を取得 */
        int bytelen = _bytesize(code);

        if (count >= offset && count < (offset + len)) {
            memcpy(cp, (src + pos), bytelen);
            cp += bytelen;
            *cp = '\0';
        }
        pos += bytelen;
        count++; /* 文字数をカウント */
    }

    return dest;
}

/* 文字のバイト長を求める */
int _bytesize(unsigned char code)
{
    int size = 1;
    int i;

    if (0x80 & code) { /* 1バイト文字以外 */
        for (i = 2; i <= 8; i++) {
            code <<= 1;
            if (!(0x80 & code)) {
                break;
            }
            size++;
        }
    }
    return size;
}

実行結果
$ ./substr_utf8
substr_utf8($testStr, 0, 5) = ABCDE
substr_utf8($testStr, 3, 3) = DEF
substr_utf8($testStr, 10, 4) = えおアイ
substr_utf8($testStr, 13, 5) = イウエオ愛

[2324] Posted by kagahiro at 2013/07/02 11:02:48
0 point | Link (3) | Trackback (0) | Comment (0)

  1  


アクセスランキング

今日のアクセスランキング TOP 10

  1. SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (61 PV)
  2. [将棋]NHKトーナメントで佐藤康光九段がなめプ角頭歩戦法で佐藤天彦名人を撃破 (6 PV)
  3. [将棋]佐藤康光九段が佐藤和俊六段を乱戦の末破り優勝、将棋界佐藤四天王最強であることを示す #NHK杯 (5 PV)
  4. FC2動画 - 映画、ドラマ、アニメなどが無料で見られる動画共有サイト (4 PV)
  5. [Perl]メールフォームCGIの作り方 (3 PV)
  6. ウェブページを1回だけリロード(再表示)する方法 (3 PV)
  7. [プログラミング]opensource.google.com Googleの #オープンソース プロジェクトに関するポータルサイト (3 PV)
  8. [C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコード (3 PV)
  9. [囲碁]若手トップ棋士「一力遼七段」がコンピュータ囲碁AIプログラムに惨敗 #人口知能 (3 PV)
  10. [gcc]iconvで文字エンコードを変換するサンプルプログラム (2 PV)

今月のアクセスランキング TOP 10

  1. SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (3903 PV)
  2. [将棋]NHKトーナメントで佐藤康光九段がなめプ角頭歩戦法で佐藤天彦名人を撃破 (546 PV)
  3. ウェブページを1回だけリロード(再表示)する方法 (321 PV)
  4. [将棋]佐藤和俊六段がまさかの陽動居飛車で橋本崇載八段に勝ち決勝進出 #NHK杯 (200 PV)
  5. [食べ物]七草粥(ななくさがゆ) (195 PV)
  6. FC2動画やYouTubeなどから無料動画(映画やドラマ、アニメ、音楽など)を探す方法 (183 PV)
  7. [C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコード (173 PV)
  8. フリーソフトウェア/オープンソースのタブー (168 PV)
  9. [将棋]佐藤康光九段が佐藤和俊六段を乱戦の末破り優勝、将棋界佐藤四天王最強であることを示す #NHK杯 (167 PV)
  10. [将棋]竜王戦第三局は居飛車振り飛車の対向型で丸山忠久九段が勝利 #竜王戦 (156 PV)

アクセス統計

ディレクトリ

関連サイト