大阪のデザイン事務所 アドアチーブ株式会社のオフィシャルブログ

大阪のデザイン事務所 アドアチーブ株式会社のオフィシャルブログ

2006.12.22形態素解析と脳の神秘

SEOの観点からも、前々から気になっていたジャンルなので

ちょっとだけトライしてみました。

プレーンテキスト分解

やってみたのは

プレーンテキストから単語レベルに分解しながら、

文字の重複を取り出すという作業。

とりあえず茶筅を使わずに

やってみたかったのですが、

これは、はまりそうです。(面白いという意味で)

年末で忙しいし、本業では無いのであまり追ってませんけど。

いまのところの仕組みは

文章を句読点などで分解し、節にする。

節を文字レベルまで分解して、

2文字以上の重複を調べる。

(1文字は無視)

ピンポイントで重複が多ければ、

その文字列にポイント加算。

そうでなければ文字列から減算。

ポイントが高い文字列は単語。

という感じです。

問題点は

・重複がない文章は判断できない

・長すぎる文章だとパンク

・「東京都」と「京都」なら「京都」はノイズ

・意味のある一文字でもノイズ扱い。

ほかいろいろ、、というか数え切れないくらい。

感想は

・大手企業の数多の天才達がやっていることの難しさを身をもって実感

・googleはやっぱりすごいです。

・辞書なしでは効率悪ス

・人体の神秘

ですね。

実用には辞書を入れるのがやっぱし手っ取り早いかと。

検索技術に興味のある方はこちらを是非一度見ることをオススメいたします。

僕的にはかなり参考になりました。

あまねく検索エンジンの会社に本気で戦いを挑む場合の

一般的な観点と無謀さがよくわかります。

namazuの中の人は偉いです。

意味不明な人は形態素解析@wikipediaを読んでからの方がいいかもです。

で、感想の最後の「人体の神秘」について。

私感雑感なのですが、思うところがありまして。

単語を文字レベルまで分解して、数学的に組み立てることを考えると、

組み立ての際に接着剤的な文字を見極める必要が出てきます。

英語ならスペースがそれに当たりますし。

日本語では「の」とか「が」とかですね。

英語ならいいのですが、日本語は

接着剤でもあり、別の単語の一部でもあったりします。

「にわにはにわうらにわにはにわとりがいる」とか、人間でもわかりません。

文章を文字に分解すると、1文字はともかく、

2文字、3文字の文字列なんて組み合わせ次第で無限に出てきます。

単語の中の1文字と、接着剤一文字、とか。

サンプルのプログラムでいうなら

Junk?------------------------------

以下に連なる情報のことです。

この雑多な情報を「ノイズの海」と。そう呼んでみます。

サンプルのプログラムでは

ノイズの海の中で重複を見つけ出して、ここまでで単語っぽい。

と判断するようにプログラムしていました。

もちろん少ないテキストリソースの中では単語判別の精度は低いです。が

ノイズの海が広ければ広いほど、単語判別の精度が上がります。

記憶というのは

ニューロンとニューロンの間のシナプスに電流やら電位やらが…

という感じのことを聞いたことがあります。(シナプス@wikipedia

繰り返しor強い情報が流れると、より流れやすくなる。とか。

こうゆう原理をプログラムで再現できないものかな?と思います。

(誰か既にしてそうですけどね。)

文章中の繰り返し使われる文字列にポイントを付加する。

強い情報(WEBページならH1タグとか)にもポイントを付加する。

そんでノイズの海(広大なデータベース)から

最も近い文字列(単語)を引っ張り出す。

そんで、取り出した文字列を単語データベースに登録。

みたいな。

人間の場合、年齢を重ねるごとに判断能力が上がります。

単語という概念が無くても、単語を使えるようになります。

多くの人が最初に教える「パパ」「ママ」は生活の中のH1タグみたいなもんですね。

よく人間の脳って5%程度しか使われてないって言いますよね。

残りは使われてないとか。

しかし、脳の残りの大部分は、確立の精度を上げる、

ノイズの海なのではないでしょうか?と思えてきます。

ノイズの海から抽出された言葉(単語)だけが、

使われている部分と思われているだけ。

だから解析できないジャンクって言われてる。みたいな。

調べた訳ではないので、

そーとーもーそーぼーそー気味ですが、

そんなことを考えながら形態素解析のサンプルプログラムを作っていました。

さらに、書きながら思ったのですが、

上記のようなことをミクロの視点とした場合、

マクロの視点で見るなら、ノイズの海がWEB全体、抽出プログラムがgoogle、

ページランクはさながら単語である可能性、みたいな感じでしょうか?

止まりませんね。この辺で。

話は全然変わりますが、

ここんとこアクセス数が増えていると思ったら

googlemapのブログからいろんなお客様が。

これって自動で追加されるんでしょうかね?

誰かが追加してくださったのでしょうか?

どちらにしても嬉しいです◎

有益な情報を提供できていればいいのですが。。。と。

この記事へのトラックバック

トラックバックURL:  http://www.adachieve.com/~mt/mt334/mt-tb.cgi/785


この記事へのコメント


名前:
E-mail:
URL:
  情報を記憶:
 
 
 

▼ Advertisement ▼

ソファーなら激安のソファーACへ!

最高のソファーをお求めなら価格も質も魅力的なソファー卸通販店で!

デザイナーの作品や、ふわふわもっちもちのソファーまで、幅広く取り揃えております!

気軽なTシャツやパーカースタイルでおくつろぎください。

▼ Advertisement ▼

最適な税理士をご紹介!

税理士は、ご相談の内容やご希望に合った方を選ぶと効率的!貴社にそんな税理士をご紹介いたします!紹介料は無料です!


当社サービス一覧

Branding

制作実績

Design

ロゴマーク
キャラクター
名刺
封筒
便箋
クリアファイル
紙袋
不織布バッグ
リーフレット
会社案内
社章

販売促進

チラシ
DM
ポケットティッシュ
横断幕
シール
挨拶状

WEB

ホームページ作成

EC

Tシャツ
作業服
ル・コルビジェ

不動産会社向け

不動産契約書ファイル
宅建業者票

Etc.

税理士紹介
イラストダウンロード
カメラマン探しのフリカム
アンケート・統計調査