Python 学習:nkf 利用

2015-11-15 :  PCクリニック
本文の前に、
-・・・ -・-
現時点での blogramのランクインカテゴリは、
6、2、1、0、1、 0、0、0、0、0(41)で、換算ポイント 84pt 。
「Firefox」6位ダウン、5位アップ。「化学業界」「硝子業界」、
「e-radio」「グルコサミン」「FM COCOLO」bg値変動のみ。
「C言語」「Perl」「Python」「FM青森」全く変化無し。
・-・ - -・

さて、本文。

文字コードが“Shift JIS”コードであるテキストファイルを、
“utf-8”コードに変換したい!


Google検索で、
「@IT」の「nkfツールで文字コードを変換する
  Windows OSをCUIで使うにはコマンド・プロンプト(コマンドの実体はcmd.exe)
  を開いて作業するが、日本語Windows OSのコマンド・プロンプトで
  サポートされている文字コードは、基本的にはShift JISコードだけである。
  コマンド・プロンプト上で使う各コマンドに対して日本語文字列の引数や
  パス名を与える場合は、Shift JISコードにする必要がある。
  テキスト処理するコマンド、例えばfindやmoreなどはShift JISコードしか
  正しく処理できない(表示だけならUTF-16が使える場合もある)。
  だが最近ではUnicode、中でもUTF-8が使われるケースも多くなっており
  ・・・・・
  ・・・・・
  本TIPSでは、このような用途では定番の「nkf(Network Kanji Filter)」
  というツールを紹介する。

や、
「Developers.IO」の
nkfを使ってファイルの文字コードを変換する
  『ファイルの文字コードを変換する』- この作業はいつの時代でも
  我々を悩ませる問題です。日本語を扱う場合であれば尚更。
  システムでデータをインポートする際に文字コードを指定する
  (環境側で指定されている)場合はこの問題に対して対処していく
  必要があります(例えば、Amazon Redshiftに於いては、
  その構造上utf-8を文字コードとして使用・統一せざるを得ない環境
  となっています)が、生成され、環境へ投入する事になる各種ファイルの
  エンコードが投入先の環境と異なる場合、
  ・・・・・
  ・・・・・

が見つかる。


このnkfを使えば良さそうダ?

早速、導入してみた。

2番目のサイトの、
nkfのインストール(Windowsの場合)
に解説がある。

  上記でインストールしたnkfはWindows版でも提供されている
  ようですので、こちらでも導入してみます。
  Windows版の場合ですとアーカイブファイルを入手し、
  中に入っているexeファイルを配置するだけで扱えるようです。
  必要に応じて環境変数Pathにファイルパスを通す
  などしておくと良いでしょう。

  nkfwin/vc2005/win32(98,Me,NT,2000,XP,Vista,7)Windows-31J/
  フォルダ配下のnkf32.exeを任意の場所に配置、
  上記Mac/Linuxで扱ったファイルを同じように操作してみます。
  (※コマンドプロンプトで実施。同じ内容の処理をPowerShell上でも
  試してみましたがutf-8への変換処理が上手く行きませんでした。
  何か環境上の違いでもあるのでしょうか。)


“VECTOR”の
nkf.exe nkf32.dll Windows用
から
「nkfwin.zip」867KB
をダウンロード。

「nkf.exe」272KB 1つダケですね。

早速、確認実行・・・・・
nkf hoge.txt

これでは、ダメ。
出力コードは“Shift JIS”コードで、
出力先は“STDOUT”ですね。


それでは、・・・・・
nke -w8 hoge.txt >hogehoge.txt

これでOK!


以上は、DOSコマンドプロンプト作業!

Python で制御したい!!!


from  subprocess  import  call
call( [ 'nkf', '-w8', 'hoge.txt', '>hogehoge.txt' ] )

これでは、どうかな?

“>”が使えない!

?????


from  subprocess  import  call
OT = open( 'hogehoge.txt', 'wt' )
call( [ 'nkf', '-w8', 'hoge.txt' ], stdout=OT )
OT.close()

こう云うふうにすべきでした。


メデタシ目出度し。


本日はここまで。


見ていただいた序でとは厚かましい限りですが、
お帰りに投票して頂けるとなお嬉しいです。 ⇒ blogram投票ボタン


150427,1108
関連記事
スポンサーサイト

コメントの投稿

管理者にだけ表示を許可する

おきてがみ/blogram
blogram投票ボタン



おきてがみ

最新記事
カレンダー
07 | 2017/08 | 09
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -
月別アーカイブ
カテゴリ
最新コメント
検索フォーム
リンク
プロフィール

<紙>

Author:<紙>
ようこそ。
「パソコンヲタクの雑記帳」
もろもろなことを綴っています。
パソコン ヲタクってねくら?
画像は kami でなく kani です。

カウンター(fc2、i2i) /Google Analytics


i2i(from 2010-08-24)
Total =
Today  =  
Yesterday=
アンチエイジング

Google Analytics
ブックマーク