codicで妄想中の機能
codicでいろいろやりたい事があるのですが、時間なくて実装できていないです。すいません。ひとまず忘れないように、自分の妄想を覚え書きとして書いています。こんな機能欲しいぜ!みたいなものも受け付けていますので、コメント頂けると嬉しいです。
1. エンジンの改良
今のcodicのエンジンは、統計翻訳+パターンのハイブリッドなのですが、パターンを直接ユーザーが編集したりする事はできません。これを、改良してパターン(ネーミングルール)を直接ユーザーが編集できるようにしたいです。
イメージ的にはこんな感じ。
〜するか → should ~ 〜か → is ~
codicは元々、統計翻訳ベースで開発していたものを、パターンベースに変更した経緯があります。統計翻訳の方が翻訳の自由度は高いのですが、ユーザーが直接、結果をコントロールしようとすると難しいという特性があります。なので、統計翻訳とパターンベースの「いいとこ取り」でやってるんですが、なかなか難しい…。研究あるのみですね。
2. 候補の複数表示
今のcodicは、最良解を1件だけ表示する仕様なのですが、N件(k-best) 出すようにできればいいなぁと思っています。例えば、「コード」という単語が入力された場合に、候補としては “code”, “cord”, “chord”の3つがあって、どれが正解かって人それぞれだと思います。こういった問題が、ある程度は候補を出して選択できるようになる事で、解決できるんじゃなかなぁと思っています。
3. 類語
辞書的な同意語とかではなくて、統計的に似ている単語を分析して、「言い換え」みたいなヤツができれば便利かな。一応、アルゴリズムのアイディアはあります。まぁやってみないとわからないですからw。時間がある時にでも研究が必要ですね。
4. イントラ向けパッケージ
ネットに接続できない環境向けに、イントラでcodicを運用できるパッケージを検討しています。大手だと結構ありますよねー個人情報うんたらで。ちなみに、プラグインも接続先を変更できるように、対応が必要ですね。
5. これってどうネーミングする?
実は、リニューアルする前 (v2) のcodicはユーザーが自由に投稿できる、英和、英和の辞書でした。知っている人もいるかな..。あれはあれで良かったので、復活させようかと思っています。「これってどうネーミングする?」みたいなヤツが出来れば面白いかなと思っています。
6. 省略形の管理
単語を省略形とセットで管理できるといいですね。Oracleのカラム名を付ける時とか、これないときついです。省略形も適当なアルゴリズムで自動生成したりとか、いろいろオプションは付きます。
まとめ
こんな感じで日々、方向性を考えたりしています。あっ、あとブログも書きかけの記事がたくさんあるのですが、構成で手間取ってしまって出せていない状態です。こちらの方もがんばって書きますので、よろしくお願いいたします。