検索条件
「初心者向け」ということで、テキストマイニング勉強会に行ってきました。
(SlideShareの埋め込みが上手く表示されないようなので、リンクを押すと発表者のスライドに飛びます)
第2回 さくさくテキストマイニング勉強会
http://atnd.org/events/13744
TeamLabさんがUstの録画付きでまとめを掲載してくださっています。
正直↓こっちの方がわかりやすいよ
http://dev.team-lab.com/index.php?itemid=254
なんでテキストマイニングの勉強会に行ったのか?
テキストマイニングに興味を持ったのは、去年の忘年会LTで
「2010年Kobatさんのつぶやきランキング」を作るために「ChaSen 茶筅」を使ったのがきっかけなのですが、テキストマイニングのことについて何も知らないので、何か面白い情報を知るきっかけになったら良いと思ったのですが、「テキストマイニング」奥が深すぎて挫折・・・。
資料:http://www24.atpages.jp/antibayesian/up/src/up0013.pdf
テキストマイニング業界で「必ずチェックすべき10のブログ」のうち
上位5つくらいは見ておいた方が良いらしい
1.コーパスいぢり(langstat)http://d.hatena.ne.jp/langstat/
2.あらびき日記(a_bicky)http://d.hatena.ne.jp/a_bicky/
3.睡眠不足?(sleepy_yoshi)http://d.hatena.ne.jp/sleepy_yoshi/
4.EchizenBlog-Zwei(echizen_tm)http://d.hatena.ne.jp/echizen_tm/
5.Overlasting::Life(overlast)http://diary.overlasting.net/
はてなダイアリー率高いな。
簡単に言うと
自然言語処理→MeCabで分析できる言語
不自然言語処理→顔文字 略語 隠語 AA
顔文字とかアスキーアートとか不自然言語に含まれる感情についての分析ができたら面白いっていうお話が最後にありました。
最近twitterで「俺は~クラスタだ!」って言っている人のクラスタの意味です。
インフラ冗長化の「クラスタリング」とは意味が違うので注意(個人的に)
k-means(k平均法)データの平均手法 クラスタリングの手法
クラスタリングを視覚化するとこんな感じらしい↓
http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise
データ量の違うクラスを分けるときにはk-meansは不向きということらしい。
クラスタリングを仕事で使えるツール↓ここにもクラスタリングの説明が書いてあります。
「軽量データクラスタリングツールbayon」
http://alpha.mixi.co.jp/blog/?p=1049
↓スライド
今回自分がやってみたいと思っているtweetのテキストマイニングのイメージに近い。
パブリックTLと自分のTLを比較するという処理を実践してみた発表。
えごったーhttp://www.egotter.com/ を作っている人
色々と難しい理論も大切だけど、「まず実装してみよう」っていう話
理論よりアイディアで面白いことができるかもしれませんよ!
熱く語るプレゼンだった。
東急ハンズのこれカモさんを作った大先生 http://korekamo.net/
オンラインショップで当たり前のように使っているけど、
「お客様にはこんなものがおすすめです」というシステムを「推薦エンジン」というらしく、推薦エンジンを作るすごい人らしい。
テキストマイニングは大量のデータから価値ある情報を出力すること。
出力した情報をどう活用するか→テキストマイニングでメイクマネーするにはどうすればいいの?
↓スライド
テキストマイニングは数学の世界だと思った。
NICTって日本標準時と通信の研究だけじゃなかったんだ。
↓スライド
Yahooデベロッパーネットワークっていうところで色々なWeb APIが公開されていて、
その中でテキスト解析というカテゴリがあり、「日本語形態素解析」ができます。
という衝撃的な情報があった。Yahooそんなサービスしてたんだ。
http://developer.yahoo.co.jp/
なんかいろんなWeb API出してるよ。これはいじってみたくなる。
↓スライド
昨年の第2回twitter研究会でも取り上げられていた「コレカモ」についての紹介。
2010年「楽天テクノロジーカンファレンス」でLTをされていたとのこと。
「楽天テクノロジーカンファレンス」今年は行ってみたい。
twitterを見ていたらこんな↓資料もありました。
「テキストマイニングをしてみたいけど、プログラミングは無理(涙)」という貴方に
↓スライド
------
久しぶりに勉強会に行ってみて発表を聞いて、勉強になる情報を仕入れられた。「テキストマイニングやってみたい」と思ったので、面白かったです。やっぱりテキストを読む勉強に比べると勉強会で受ける刺激は強い。
今年の忘年会LTあたりにはまともな2011年「つぶやいた言葉」ランキングを作れそうだ。
今日も夕方に大きく揺れたらしい。
外出先から会社の事務所に戻ろうかというときで、大江戸線で電車が駅のホームに着いていつもならすぐに開くドアが開かないので、オーバーランでもしたのかと思っていた。
揺れには全く気づかないまま事務所に戻ると、会社の人が「今揺れたのわかったか!」って言われて「え?揺れたんですか?駅にいて全く気づきませんでした」という平和な状態でした。
定時をすぎて駅に行っても混んでいるだろうと思って19時半くらいまで会社で残業。
実は仕事もそこそこ忙しい。
相変わらず絶望感から抜け出せない。
たぶん、神経症圏のうつ状態くらいにはなっているのではないだろうか。
3月11日を振り返る画像を見ていたらやっぱり結構衝撃的な写真があって、見て後悔するものがあったけど、見て良かった物もあった。
絶望感を感じながらも昨日は新宿御苑にサクラを見に行ってきた。
年に1回のチャンスを逃すのはもったいない。ということで写真だけは撮ってきた。
やっぱりサクラの花見はいいなぁ