codicで妄想中の機能

codicでいろいろやりたい事があるのですが、時間なくて実装できていないです。すいません。ひとまず忘れないように、自分の妄想を覚え書きとして書いています。こんな機能欲しいぜ!みたいなものも受け付けていますので、コメント頂けると嬉しいです。

 

1. エンジンの改良

今のcodicのエンジンは、統計翻訳+パターンのハイブリッドなのですが、パターンを直接ユーザーが編集したりする事はできません。これを、改良してパターン(ネーミングルール)を直接ユーザーが編集できるようにしたいです。
イメージ的にはこんな感じ。

〜するか → should ~
〜か → is ~

 

codicは元々、統計翻訳ベースで開発していたものを、パターンベースに変更した経緯があります。統計翻訳の方が翻訳の自由度は高いのですが、ユーザーが直接、結果をコントロールしようとすると難しいという特性があります。なので、統計翻訳とパターンベースの「いいとこ取り」でやってるんですが、なかなか難しい…。研究あるのみですね。

 

2. 候補の複数表示

今のcodicは、最良解を1件だけ表示する仕様なのですが、N件(k-best) 出すようにできればいいなぁと思っています。例えば、「コード」という単語が入力された場合に、候補としては “code”, “cord”, “chord”の3つがあって、どれが正解かって人それぞれだと思います。こういった問題が、ある程度は候補を出して選択できるようになる事で、解決できるんじゃなかなぁと思っています。

 

3. 類語

辞書的な同意語とかではなくて、統計的に似ている単語を分析して、「言い換え」みたいなヤツができれば便利かな。一応、アルゴリズムのアイディアはあります。まぁやってみないとわからないですからw。時間がある時にでも研究が必要ですね。

 

4. イントラ向けパッケージ

ネットに接続できない環境向けに、イントラでcodicを運用できるパッケージを検討しています。大手だと結構ありますよねー個人情報うんたらで。ちなみに、プラグインも接続先を変更できるように、対応が必要ですね。

 

5. これってどうネーミングする?

実は、リニューアルする前 (v2) のcodicはユーザーが自由に投稿できる、英和、英和の辞書でした。知っている人もいるかな..。あれはあれで良かったので、復活させようかと思っています。「これってどうネーミングする?」みたいなヤツが出来れば面白いかなと思っています。

 

6. 省略形の管理

単語を省略形とセットで管理できるといいですね。Oracleのカラム名を付ける時とか、これないときついです。省略形も適当なアルゴリズムで自動生成したりとか、いろいろオプションは付きます。

 

まとめ

こんな感じで日々、方向性を考えたりしています。あっ、あとブログも書きかけの記事がたくさんあるのですが、構成で手間取ってしまって出せていない状態です。こちらの方もがんばって書きますので、よろしくお願いいたします。

 


Kenji in codic

codic のリードプログラマー / デザイナーです。時間があれば、英語やネーミング、NLPについて研究したりしています。