[C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコード
C言語のstrncpy関数やmemcpy関数ではバイト単位の操作になるので、漢字、ひらがな、カタカナなどの全角文字を文字数で指定して部分文字列を取り出すことができません。 そこで半角英数も全角文字も1文字として部分文字列を取り出すことができる関数を作成します。
以下はそのコードです。[C言語]UTF-8でエンコードされた文字列の文字数を取得するコードと同様に、文字の1バイト目のビットの状態を調べることによってその文字が何バイト文字を判定しています。
#include <stdio.h>
#include <string.h>
char *substr_utf8(char *dest, char *src, int offset, int len);
int _bytesize(unsigned char code);
int main(void)
{
char *testStr = "ABCDEFGあいうえおアイウエオ愛夢佐々木";
char strBuf[256];
memset(strBuf, 0, sizeof strBuf);
printf("substr_utf8($testStr, 0, 5) = %s\n", substr_utf8(strBuf, testStr, 0, 5));
printf("substr_utf8($testStr, 3, 3) = %s\n", substr_utf8(strBuf, testStr, 3, 3));
printf("substr_utf8($testStr, 10, 4) = %s\n", substr_utf8(strBuf, testStr, 10, 4));
printf("substr_utf8($testStr, 13, 5) = %s\n", substr_utf8(strBuf, testStr, 13, 5));
return 0;
}
/* UTF-8でエンコードされた文字列の部分文字列を取り出す */
/* substr_utf8 (文字列式, オフセット, 長さ)*/
char *substr_utf8(char *dest, char *src, int offset, int len)
{
int srclen = strlen(src);
int pos = 0;
int count = 0;
char *cp = dest;
while (pos < srclen) {
unsigned char code;
code = *(src + pos); /* ASCIIコード値を取得 */
int bytelen = _bytesize(code);
if (count >= offset && count < (offset + len)) {
memcpy(cp, (src + pos), bytelen);
cp += bytelen;
*cp = '\0';
}
pos += bytelen;
count++; /* 文字数をカウント */
}
return dest;
}
/* 文字のバイト長を求める */
int _bytesize(unsigned char code)
{
int size = 1;
int i;
if (0x80 & code) { /* 1バイト文字以外 */
for (i = 2; i <= 8; i++) {
code <<= 1;
if (!(0x80 & code)) {
break;
}
size++;
}
}
return size;
}
実行結果
$ ./substr_utf8
substr_utf8($testStr, 0, 5) = ABCDE
substr_utf8($testStr, 3, 3) = DEF
substr_utf8($testStr, 10, 4) = えおアイ
substr_utf8($testStr, 13, 5) = イウエオ愛
オープン | 0 point | Link (3) | Trackback (0) | Comment (0)
キーワード
C言語 サンプル プログラム プログラミング UTF8 substr 文字列
[C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコード 関連リンク
[C言語]UTF-8でエンコードされた文字列の文字数を取得するコード | |
C言語のstrlen関数では文字列の長さとして返ってくる値はバイト単位となるので、UTF-8でエンコードされている場合、漢字、ひらがな、カタカナなどは1文字で3となってしまいます。We... |
[Perl]UTF-8でエンコードされた文字列の部分文字列を取り出すコード | |
Perlのsubstr関数ではバイト単位の操作になるので、漢字、ひらがな、カタカナなどの全角文字を文字数で指定して部分文字列を取り出すことができません。それでは不都合なことも多いので、半角英数も全角文字も1文字と... |
[C言語]1バイト(8bit)の10進数を2進数の文字列に変換するコード | |
1バイト(8bit)の10進数を2進数の文字列に変換するコードのC言語版です。C言語では、PerlやPHPなどのように2進文字列に変換してくれる便利な関数は関数はないので、ビット演... |
[C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコード トラックバック
トラックバックURL :
[C言語]UTF-8でエンコードされた文字列の部分文字列を取り出すコードへのコメント
アクセスランキング
今日のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (13 PV)
- PHPでMySQLに接続して、SELECTでデータを取得するサンプルプログラム (6 PV)
- Google News (グーグルニュース)日本版 (6 PV)
- [将棋]ユーチューバーのクロノさんが将棋ウォーズ運営からアカウント停止の警告を受ける #ソフト指し #複垢 #アカBAN (5 PV)
- 最新のGoogle News(グーグルニュース)日本版のRSSが取得できるURL (4 PV)
- [Perl]UTF-8でエンコードされた文字列の文字数を取得するコード (4 PV)
- Google Finance(グーグルファイナンス)日本版が表示されるようになってますが・・・ (3 PV)
- Google Maps(グーグルマップ)日本版 - 地図検索、ルート検索 (2 PV)
- 嬉野流開発者のたまごん(嬉野宏明)さんがソフト指し疑惑で将棋倶楽部24のアカウントを停止されてしまう #将棋 (2 PV)
- Tumblr(タンブラー)のダッシュボードからおすすめ投稿を消す(非表示にする)方法 (2 PV)
今月のアクセスランキング TOP 10
- SQLのSELECT文で先頭から上位(TOP)10件のレコードを取得する方法(SQL Server、Oracle、MySQL、PostgreSQL) (1867 PV)
- Google News (グーグルニュース)日本版 (246 PV)
- [将棋]ユーチューバーのクロノさんが将棋ウォーズ運営からアカウント停止の警告を受ける #ソフト指し #複垢 #アカBAN (204 PV)
- SQLiteのSELECT文で上位 (TOP) n件のデータを取得する (200 PV)
- [Perl]UTF-8でエンコードされた文字列の文字数を取得するコード (171 PV)
- 最新のGoogle News(グーグルニュース)日本版のRSSが取得できるURL (165 PV)
- 掲示板CGI ThreadPlus 1.1 のリリース (156 PV)
- Google Finance(グーグルファイナンス)日本版が表示されるようになってますが・・・ (147 PV)
- Google Finance(グーグルファイナンス)- リアルタイム株価情報、金融ニュース、日本株 (145 PV)
- 有力将棋系ユーチューバーのショウヤンさんが将棋ウォーズで「ソフト指し」を告白し衝撃走る (113 PV)
アクセス統計
ディレクトリ
関連サイト