スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
[--/--/-- --:--] | スポンサー広告 | page top
ITMedia Virtual EXPO 2012 #2
昨日は、ウェブキャスト(講演・座談会)を取り上げたので、今日は資料について書きます。
ウェブキャストよりも資料が充実してました。

日本IBMが提供していたテキストマイニングについてまとめました。
タイトル:文章(テキスト)データと分析技術

・構造化データと非構造化データ
構造化データ:CSV、RDB、XMLのように、整理されたデータ。定義付け(プログラミング)すれば、コンピュータでも理解できる。
非構造化データ:散文。人間であれば文章を読みながら、情報を整理できる。しかし、現在のコンピュータでは不可能

・自然言語解析
1.言語の特定
2.分節(セグメント)化
 文などで区切る
3.形態素解析
 単語に分解し、品詞を特定
4.品詞をさらに種類(固有名詞など)に分解

・テキストマイニング
①言語学的な処理
②統計手法
 単語の出現回数、相関などのキーワード分析

・IBM Content Analytics
大量データ、多言語(15ヶ国語)の分析が出来るソフトウェア
評判分析も可能

・活用事例
コールセンターで問題の早期発見に活用した。
問題の起きた機種名と、問題の内容を相関づけた。

■感想
PDFのプレゼン資料を読んだだけですが、IBM Content Analyticsは、
今はやりのビッグデータの一部(ソーシャルメディアの分析)に有効活用できそうです。

最近よく言われていますが、データを活用するのが難しいです。
決まったパターンに従ってやれば、ある程度のところまで出来るかもしれません。
ですが、本当に情報を有効活用するには、データ分析の本格的なスキルが必要だと思います。

今後、ビッグデータがどうなるかは分かりませんが、
データの分析の仕方は自分も含め、学んだ方がよいと思います。

また、非構造化テキストについては、HTML5が普及すれば減っていくのではないかと思います。
ただし、Webページやログなどのタグ付けが可能なものに限られます。
ですので、出来るところはセマンティック(意味づけ)するが、
できないものはテキストマイニングで処理するのかなと思います。

まとめると、
セマンティック化 + テキストマイニング = 情報の有効活用
になるのではないでしょうか。
関連記事
[2012/09/20 00:26] | 勉強会 | トラックバック(0) | コメント(0) | page top
<<Officeファイル検証機能で問題が出たファイルの修復#1 | ホーム | ITMedia Virtual EXPO 2012 #1>>
コメント
コメントの投稿














管理者にだけ表示を許可する

トラックバック
トラックバック URL
http://gogyosan.blog.fc2.com/tb.php/8-3bba1730
この記事にトラックバックする(FC2ブログユーザー)
| ホーム |
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。