[プログラミング]の検索結果

－

A [Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコード

まずカタカナより比較的プログラミングしやすそうな英数字の全角半角変換から作成します。

半角から全角への変換の処理手順は、

・半角英数字の場合は、同じ全角英数字に置き換えて戻り値として返す文字列に連結
・それ以外の文字の場合はそのまま戻り値として返す文字列に連結

また、全角から半角への変換の処理手順は、

・全角英数字の場合は、同じ半角英数字に置き換えて戻り値として返す文字列に連結
・それ以外の文字の場合はそのまま戻り値として返す文字列に連結

となります。

文字コードはそれぞれ以下の通りですので、これらに該当する文字があったら置き換えを行います。

半角数字:0 - 9
30 - 39

全角数字:０ - ９
EFBC90 - EFBC99
2バイト目まではEFBC

半角アルファベット大文字:A - Z
41 - 5A

全角アルファベット大文字:Ａ - Ｚ
EFBCA1 - EFBCBA
2バイト目まではEFBC

半角アルファベット小文字:a - z
61 - 7A

全角アルファベット小文字:ａ - ｚ
EFBD80 - EFBD9A
2バイト目まではEFBD

以下が英数字の半角から全角へ、全角から半角への変換を行うコード（プログラム）です。

#!/usr/bin/perl

use strict;
use warnings;
use Encode;

my $hanAlnum = "ABCDEい12345あabcde";
my $zenAlnum = "ＡＢＣＤＥい１２３４５あａｂｃｄｅカ";

my $zenstr = han2zen_alnum($hanAlnum);
Encode::from_to($hanAlnum, 'utf8', 'cp932');
Encode::from_to($zenstr, 'utf8', 'cp932');
print "$hanAlnum ---> $zenstr\n";

my $hanstr = zen2han_alnum($zenAlnum);
Encode::from_to($zenAlnum, 'utf8', 'cp932');
Encode::from_to($hanstr, 'utf8', 'cp932');
print "$zenAlnum ---> $hanstr\n";

# UTF-8でエンコードされた半角英数字を全角英数字に変換する
sub han2zen_alnum {
    my ($src) = @_;

    my $srclen = length($src);
    my $pos = 0;
    my $dest = '';
    while ($pos < $srclen) {
        my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
        my $bytelen = _bytesize($code);

        my $lastbyte = 0;
        my $bytechar = '';
        my $flagged_utf8 = '';
        if ($code >= 0x30 && $code <= 0x39) { # 数字
            $lastbyte = 0x90 + ($code - 0x30);
            $bytechar = pack("C3", 0xEF, 0xBC, $lastbyte);
            $dest .= $bytechar;
        }
        elsif ($code >= 0x41 && $code <= 0x5A) { # 大文字英字
            $lastbyte = 0xA1 + ($code - 0x41);
            $bytechar = pack("C3", 0xEF, 0xBC, $lastbyte);
            $dest .= $bytechar;

        }
        elsif ($code >= 0x61 && $code <= 0x7A) { # 小文字英字
            $lastbyte = 0x81 + ($code - 0x61);
            $bytechar = pack("C3", 0xEF, 0xBD, $lastbyte);
            $dest .= $bytechar;
        }
        else {
            $dest .= substr($src, $pos, $bytelen);
        }
        $pos += $bytelen;
    }

    return $dest;
}

# UTF-8でエンコードされた全角英数字を半角英数字に変換する
sub zen2han_alnum {
    my ($src) = @_;

    my $srclen = length($src);
    my $pos = 0;
    my $dest = '';

    while ($pos < $srclen) {
        my $code = ord substr($src, $pos, 1); # 先頭のASCIIコード値を取得
        my $bytelen = _bytesize($code);
        my $hit = 0;
        if ($code == 0xEF) { # 全角英数の場合は1バイト目がEF
            my $code2 = ord substr($src, $pos + 1, 1);  # 2バイト目
            my $code3 = ord substr($src, $pos + 2, 1);  # 3バイト目
            if ($code2 == 0xBC) {
                if ($code3 >= 0x90 && $code3 <= 0x99) {
                    $dest .= chr(0x30 + ($code3 - 0x90));
                    $hit = 1;
                }
                elsif ($code3 >= 0xA1 && $code3 <= 0xBA) {
                    $dest .= chr(0x41 + ($code3 - 0xA1));
                    $hit = 1;
                }
            }
            elsif ($code2 == 0xBD) {
                if ($code3 >= 0x80 && $code3 <= 0x9A) {
                    $dest .= chr(0x61 + ($code3 - 0x80));
                    $hit = 1;
                }
            }
        }
        if(!$hit) {
            $dest .= substr($src, $pos, $bytelen);
        }
        $pos += $bytelen;
    }

    return $dest;
}

# 文字のバイト長を求める
sub _bytesize {
    my $code = shift;
    my $size = 1;
    if (0x80 & $code) { # 1バイト文字以外
        $code <<= 1;
        for my $i (2 .. 8) {
            $size++;
            $code <<= 1;
            last if (!(0x80 & $code));
        }
    }
    return $size;
}

[2250] Posted by kagahiro at 2012/12/19 16:54:42
0 point | Link (1) | Trackback (0) | Comment (0)

－

A Perlで全角半角変換を行う方法

日本語の文章では半角の英数字と全角の英数字、また、半角のカタカナと全角のカタカナが混在していることがよくあります。意味は半角でも全角でも同じですので、コンピュータで処理する場合はどちらかに統一してから処理したいところです。

Perlで全角半角変換を行う主な方法としては、

・標準モジュールのEncode.pmを使う
・Unicode::Japaneseモジュールを使う
・全角半角の変換に特化したLingua::JA::Regular::Unicodeモジュールを使う

などがあります。

Encode.pmは標準モジュールですので比較的使いやすいですが、euc-jp以外の文字エンコードの場合はeuc-jpに変換する必要があります。

Unicode::Japaneseモジュールは、現状では一番使いやすいと思われますが、標準モジュールではないのでレンタルサーバーで動かすWebアプリケーションではちょっと使いにくい面もあります。

Lingua::JA::Regular::Unicodeは、全角半角の変換に特化したモジュールですので非常に軽量ですが、全角半角の変換以外の処理を考えるとuse utf8;しないと動作しないというのはかなり面倒です。

これらのモジュールを使った全角半角の変換のコードについては、以下のブログ記事などに記述されています。

Encodeで全角半角変換
Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング
perl - で全角半角変換をモダンに行う

しかし、いずれの方法もそれぞれ若干使いにくい面があるので、モジュールを使わずに自力で全角半角変換を行う方法を考えたいと思います。

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)
技術評論社著者：矢野啓介

amazon.co.jpのカスタマーレビューを見る
powered by amalink

[2247] Posted by kagahiro at 2012/12/14 23:52:52
0 point | Link (4) | Trackback (0) | Comment (0)

－

A 自然言語処理（しぜんげんごしょり）

自然言語処理（しぜんげんごしょり、natural language processing、NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野。「計算言語学」（computational linguistics）も同じ意味だが、自然言語処理が工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い。データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な（コンピュータが理解しやすい）表現に変換するといった処理が含まれる。

自然言語処理の基礎技術にはさまざまなものがあるが、現在のところ、日本語を処理する基礎技術としては、形態素解析、構文解析、語義の曖昧性解消照応解析が主に研究されている。

自然言語処理 - Wikipedia
言語処理学会 The Association for Natural Language Processing
自然言語処理ツール
 Python による日本語自然言語処理
 Perl で自然言語処理

入門自然言語処理
オライリージャパン著者：Steven Bird,Ewan Klein,Edward Loper

amazon.co.jpのカスタマーレビューを見る
powered by amalink

[2240] Posted by kagahiro at 2012/12/09 22:59:04
0 point | Link (1) | Trackback (0) | Comment (0)

＋

A [Perl]1バイト(8bit)の10進数を2進数の文字列に変換するコード

Perlの関数を使用して、以下の手順で10進数を2進文字列に変換することができます。sprintf関数で10進数を16進文字列に変換pack関数で16進文字列をバイナリーにパックunpack関数で2進文字列に変換例えば、文字列の先頭...

[2239] Posted by kagahiro at 2012/12/09 20:36:29
0 point | Link (4) | Trackback (0) | Comment (0)

＋

A 機械学習（きかいがくしゅう）

機械学習（きかいがくしゅう）とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術や手法のこと。1959年にアーサー・サミュエルは機械学習を...

[2238] Posted by kagahiro at 2012/12/09 00:14:58
0 point | Link (10) | Trackback (0) | Comment (0)

＋

B Node.js専用クラウドサービス「Node Ninja」

ブックマーク先へ

「Node Ninja」は、レンタルサーバー事業を展開しているファーストサーバが提供を開始した日本初のNode.js専用クラウドサービス。現在ベータ版として無料で提供されている。「Node Ninja」では、ハイパフォーマンスか...

[2207] Posted by kagahiro at 2012/06/05 22:35:26
0 point | Link (4) | Trackback (0) | Comment (0)

＋

B [プログラミング言語]Processing（プロセッシング）

ブックマーク先へ

Processing（プロセッシング）は、イメージ、アニメーション、インタラクティブなグラフィックスをプログラムするためのオープンソースのプログラミング言語。紙にスケッチするように、すぐに結果が確認できることか...

[2190] Posted by kagahiro at 2012/05/22 16:56:25
0 point | Link (1) | Trackback (0) | Comment (0)

＋

A 掲示板CGI ThreadPlus 1.0 のリリース

オープンソースのシンプルな掲示板CGI「ThreadPlus 1.0」をリリースしました。プログラミング言語はperl、ライセンスはGPLv2です。ThreadPlusは、以前公開していた掲示板 CGI（bbsCGI.CGI）の機能を見直し、若干の機能...

[2140] Posted by kagahiro at 2012/01/17 23:17:11
1 point | Link (2) | Trackback (0) | Comment (1)

＋

A プログラミング言語「C」の開発者、デニス・リッチー博士が死去

世界で最も有名なプログラミング言語「C」の開発者の一人であるデニス・リッチー（Dennis RitChie）博士が70歳で死去したとのこと。デニス・リッチー博士の死は、Rob Pike氏のGoogle+への投稿で明らかになったが、今...

[2129] Posted by kagahiro at 2011/10/13 17:56:37
0 point | Link (1) | Trackback (0) | Comment (0)

＋

A Googleが開発した新しいプログラミング言語「Dart」

「Dart」は大規模なWebアプリケーションを開発するために新しく開発したプログラミング言語。現在のところ「Dart」で作成したプログラムを動作させるためには、Dartバーチャルマシン上で実行するか、JavaScriptに変換...

[2128] Posted by kagahiro at 2011/10/12 18:30:23
0 point | Link (2) | Trackback (0) | Comment (0)

|< 先頭へ < 前へ 1 2 3 4 5 次へ >

語句ログ - ニュース、プログラミング、システムトレードの用語解説

[プログラミング]の検索結果

A [Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコード

A [Perl]UTF-8でエンコードされた英数字の全角半角変換を行うコード

A Perlで全角半角変換を行う方法

A Perlで全角半角変換を行う方法

A 自然言語処理（しぜんげんごしょり）

A 自然言語処理（しぜんげんごしょり）

A [Perl]1バイト(8bit)の10進数を2進数の文字列に変換するコード

A [Perl]1バイト(8bit)の10進数を2進数の文字列に変換するコード

A 機械学習（きかいがくしゅう）

A 機械学習（きかいがくしゅう）

B Node.js専用クラウドサービス「Node Ninja」

B Node.js専用クラウドサービス「Node Ninja」

B [プログラミング言語]Processing（プロセッシング）

B [プログラミング言語]Processing（プロセッシング）

A 掲示板CGI ThreadPlus 1.0 のリリース

A 掲示板CGI ThreadPlus 1.0 のリリース

ThreadPlusの特徴

A プログラミング言語「C」の開発者、デニス・リッチー博士が死去

A プログラミング言語「C」の開発者、デニス・リッチー博士が死去

A Googleが開発した新しいプログラミング言語「Dart」

A Googleが開発した新しいプログラミング言語「Dart」

From quick prototypes to serious apps

アクセスランキング

今日のアクセスランキング TOP 10

今月のアクセスランキング TOP 10

アクセス統計

ディレクトリ

関連サイト

おすすめの商品、サービス

最新情報

最新コメント

注目キーワード

<<	2025/07
日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31