AbyssLukeのガイドライン(更新停止)

はてダから移転。このブログは更新されません。

MS-IME用の単語リスト(txt)をことえり用に変換した時のメモ

テイルズ術技用語辞書登録用テキストことえり(OSX 10.4.11に付属のもの)に登録(以下インポート)しようとしたときにやったことのメモ。

WindowsのATOK2009(月額版)にもインポートしたが、ATOKMS-IME形式の単語リストをインポートできるので問題なし。
だがことえりMS-IME用の単語リストはインポート不可。ことえり形式のみ。
というわけでファイル形式の変換をすることに。

Tales_of_Skillというユーザー辞書を作って、そのなかにいじったファイルをインポートする作業。 [Win/Twn]
http://twitter.com/abyssluke/status/2700698944

新規に辞書を作っておく事により他の辞書に影響が及ばないようにする。バージョンupも簡単?
で、いじったファイルとは…

最初のコメント行を削ってsedでタブをカンマに変換したり名詞を普通名詞に変換したりするスクリプトをネットで見つけて変換してOOoでコメント列を削除して改行コードをCRにして… [Win/Twn]
http://twitter.com/abyssluke/status/2700741513

という、ちょっと面倒い作業。
コメント行というのは「!」で始まる行(Ex.「!Microsoft IME Dictionary Tool」)。
sedでタブをカンマに変換したり〜」はhttp://dadabreton.blog113.fc2.com/blog-entry-105.htmlにあるスクリプトを利用。
しかしこれを使って変換してもインポートできなかった(UTF-8でやってみたが)ので、Windows側でOpenOffice.orgを使いコメント(注訳)列を削除、TeraPadでゴミ(行末の「,,」)を取り除いた(置換を利用)がインポートできなった。
形式等を確認すべくユーザー辞書をtxt(Shift_JIS)でエクスポート。
エクスポートしたファイルをmiで開いてみると改行コードがCRだったので、miで文字コードShift_JIS、改行コードをCRにし、インポートを試みたら成功した。2131件。
なお上に書いたように、コメント列は削除している(というか対応していない)ので、タイトルによって文字(漢字)が違う技については使い分けに注意。

簡単に纏めると

  • コメント行(!から始まる行)は削除
  • 「名詞」のみの単語リストファイルであれば「普通名詞」に置換(他の品詞の場合は上のsedスクリプトのURLを参照)
  • タブはカンマに置換
  • コメント列がある場合は削る(OpenOffice.orgで削った場合は行末の「,,」があると思われるのでテキストエディタで削除する)
  • 念のため、各列を" "で囲った方が吉(OpenOffice.orgで保存時にそうなったし、ユーザー辞書をエクスポートしたら囲ってあった)
  • 改行コードはCRにする(文字コードUTF-8でも大丈夫??)
    • -

//今回、ZumoDrive上で作業した。圧縮ファイルはWindowsで解凍した。
//そのせいなのかは知らないがなぜか「/Volumes/ZumoDrive/tales_dic_405/tales_dic_405/IME/テイルズ術技_IME.txt」がMacで開けなかった。
//Windows側でZumoDriveのルートにtalesdic.txtとしてコピーしたら開けた。
//日本語ファイル名の扱いはあれなのかな…でもWindowsでルートに保存した、英語+日本語混じりのファイルはMacでも開けた。謎。
//ことえりさん、ちゃんと空気読んでくださいね…