FC2ブログ

Anaconda 学習:Gensim って何?

2018-04-13 :  PCクリニック
ひょんなことから、
“情報処理学会 研究報告”の、
「人工知能技術を用いた情報処理学会・・・」
を見ていたら、

  Python の Gensim = Doc2Vec
とか、
  Word2Vec
とか、
  MeCab ( 単語分割 )
  TensorBoard ( ビジュアライザ )

とかと云った言葉が載っていた。


些か気になったので、調べてみた。


「Python Gensim」検索で、

scikit-learnとgensimでニュース記事を分類する - Qiita
が見つかった。

記事の中には、

  ・・・・・
  ・・・・・
  ということは、特徴語を決定する必要がある。
  このあたりは、Gensimというライブラリが良いそうなので、それ使います。

  あと、日本語文章の特徴語を抽出するということは、
  その前に形態素解析をする必要がある。これはMeCabを使えば良いでしょう。

  手順をまとめると、
   1. 記事からMeCabで単語だけ切り出して記事を単語リストに変換
   2. 単語リスト群から、Gensimで特徴語の辞書を定義
   3. BoWの要領で各文章に特徴語が何個あるかカウントして特徴ベクトル作る
   4. この特徴ベクトルで学習。
   5. 未知の文章も、3の方法で特徴ベクトルを作れば、
    分類器にかけてカテゴリを当てられるはず

  という感じだと思います。

と載っており、

これも気になった用語「ランダムフォレスト」も載っていた。


この“Gensim”はデフォルトでは入っていないが、
Conda Cloud には、
anaconda / packages / gensim 3.4.0
があった。



それから、
「ランダムフォレスト」検索では、

決定木とランダムフォレスト - Qiita
が見つかる。


この記事のコメントに、

  Udemyで「実践Pythonデータサイエンス」を公開している辻と申します。
  ・・・・・
  ・・・・・

とある。


序でに、
「実践Pythonデータサイエンス」検索では、

Udemyの「実践 Python データサイエンス」を受けてみた - Qiita
が見つかる。

この記事の中では、

  データの可視化
  ・Seabornの利用
   Seabornは非常にすぐれたデータの可視化用ライブラリで、
   色を簡単に変えることができるという特徴もあります。
   ヒストグラム、カーネル密度推定(簡単に言うとなめらかなヒストグラム)
   ボックスプロット(箱ひげ図)、ヴァイオリンプロット、回帰直線
   などを表示させることができます。

と云った記述がある。


さらに、
「Seaborn」検索では、

pythonで美しいグラフ描画 - seabornを使えば・・・
が見つかる。

  ・・・・・
  ・・・・・
  この記事ではMatplotlibの機能をより美しく、またより簡単に実現するための
  ラッパー的存在である、「Seaborn」の使い方を取り上げます。

と云うこと。


Pandas、 Seaborn、 ggplot、 Bokeh、 pygal、 Plotly

の6つについての記事から、

Matplotlib と、Seaborn との比較?


あっちこっちと、手を広げ過ぎたようで、
取り留めの無いことになってしまった。


本日はここまで。


Anaconda ( Python ) 学習は続く。


見ていただいた序でとは厚かましい限りですが、
お帰りに投票して頂けるとなお嬉しいです。 ⇒ blogram投票ボタン


180302
関連記事
スポンサーサイト

コメントの投稿

管理者にだけ表示を許可する

おきてがみ/blogram
blogram投票ボタン



おきてがみ

最新記事
カレンダー
07 | 2018/08 | 09
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 -
月別アーカイブ
カテゴリ
最新コメント
検索フォーム
リンク
プロフィール

<紙>

Author:<紙>
ようこそ。
「パソコンヲタクの雑記帳」
もろもろなことを綴っています。
パソコン ヲタクってねくら?
画像は kami でなく kani です。

カウンター(fc2、i2i) /Google Analytics


i2i(from 2010-08-24)
Total =
Today  =  
Yesterday=
アンチエイジング

Google Analytics
ブックマーク