2011/04/17(日)「第2回さくさくテキストマイニング勉強会」に行ってきた

 「初心者向け」ということで、テキストマイニング勉強会に行ってきました。

(SlideShareの埋め込みが上手く表示されないようなので、リンクを押すと発表者のスライドに飛びます)

第2回 さくさくテキストマイニング勉強会
http://atnd.org/events/13744

TeamLabさんがUstの録画付きでまとめを掲載してくださっています。
正直↓こっちの方がわかりやすいよ
http://dev.team-lab.com/index.php?itemid=254

なんでテキストマイニングの勉強会に行ったのか?
 テキストマイニングに興味を持ったのは、去年の忘年会LTで
「2010年Kobatさんのつぶやきランキング」を作るために「ChaSen 茶筅」を使ったのがきっかけなのですが、テキストマイニングのことについて何も知らないので、何か面白い情報を知るきっかけになったら良いと思ったのですが、「テキストマイニング」奥が深すぎて挫折・・・。

AntiBayesianさん : 「言語処理学会へ遊びに行ったよ~不自然言語処理へのお誘い~」

資料:http://www24.atpages.jp/antibayesian/up/src/up0013.pdf

テキストマイニング業界で「必ずチェックすべき10のブログ」のうち
上位5つくらいは見ておいた方が良いらしい
1.コーパスいぢり(langstat)http://d.hatena.ne.jp/langstat/
2.あらびき日記(a_bicky)http://d.hatena.ne.jp/a_bicky/
3.睡眠不足?(sleepy_yoshi)http://d.hatena.ne.jp/sleepy_yoshi/
4.EchizenBlog-Zwei(echizen_tm)http://d.hatena.ne.jp/echizen_tm/
5.Overlasting::Life(overlast)http://diary.overlasting.net/

はてなダイアリー率高いな。

簡単に言うと
自然言語処理→MeCabで分析できる言語
不自然言語処理→顔文字 略語 隠語 AA

 顔文字とかアスキーアートとか不自然言語に含まれる感情についての分析ができたら面白いっていうお話が最後にありました。

toilet_lunchさん : 「今日から使える! みんなのクラスタリング超入門」

最近twitterで「俺は~クラスタだ!」って言っている人のクラスタの意味です。
インフラ冗長化の「クラスタリング」とは意味が違うので注意(個人的に)

k-means(k平均法)データの平均手法 クラスタリングの手法

クラスタリングを視覚化するとこんな感じらしい↓
http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise

データ量の違うクラスを分けるときにはk-meansは不向きということらしい。

クラスタリングを仕事で使えるツール↓ここにもクラスタリングの説明が書いてあります。
「軽量データクラスタリングツールbayon」
http://alpha.mixi.co.jp/blog/?p=1049

gepuroさん : 「条件付き頻度分布 with NLTK」

↓スライド


今回自分がやってみたいと思っているtweetのテキストマイニングのイメージに近い。
パブリックTLと自分のTLを比較するという処理を実践してみた発表。

ts_3156さん : 「~『可視化するだけ』でも面白い~ テキストマイニング最初の一歩」

えごったーhttp://www.egotter.com/ を作っている人

色々と難しい理論も大切だけど、「まず実装してみよう」っていう話
理論よりアイディアで面白いことができるかもしれませんよ!
熱く語るプレゼンだった。

todeskingさん : 「概観テキストマイニング」

東急ハンズのこれカモさんを作った大先生 http://korekamo.net/

オンラインショップで当たり前のように使っているけど、
「お客様にはこんなものがおすすめです」というシステムを「推薦エンジン」というらしく、推薦エンジンを作るすごい人らしい。

テキストマイニングは大量のデータから価値ある情報を出力すること。
出力した情報をどう活用するか→テキストマイニングでメイクマネーするにはどうすればいいの?

stakemuraさん : 「WordNetで作ろう、言語横断検索サービス」

↓スライド


テキストマイニングは数学の世界だと思った。

NICTって日本標準時と通信の研究だけじゃなかったんだ。

yokkunsさん : 「R言語によるはじめてのテキストマイニング」

↓スライド


Yahooデベロッパーネットワークっていうところで色々なWeb APIが公開されていて、
その中でテキスト解析というカテゴリがあり、「日本語形態素解析」ができます。

という衝撃的な情報があった。Yahooそんなサービスしてたんだ。
http://developer.yahoo.co.jp/

なんかいろんなWeb API出してるよ。これはいじってみたくなる。

番外編 tksさん : 「コレカモ紹介」

↓スライド


昨年の第2回twitter研究会でも取り上げられていた「コレカモ」についての紹介。
2010年「楽天テクノロジーカンファレンス」でLTをされていたとのこと。

「楽天テクノロジーカンファレンス」今年は行ってみたい。

コピー&ペーストのみで始めるテキストマイニング超入門 (前回の発表資料)

twitterを見ていたらこんな↓資料もありました。
「テキストマイニングをしてみたいけど、プログラミングは無理(涙)」という貴方に
↓スライド


------

 久しぶりに勉強会に行ってみて発表を聞いて、勉強になる情報を仕入れられた。「テキストマイニングやってみたい」と思ったので、面白かったです。やっぱりテキストを読む勉強に比べると勉強会で受ける刺激は強い。

今年の忘年会LTあたりにはまともな2011年「つぶやいた言葉」ランキングを作れそうだ。