MecabWithExtendedDic

MeCabに辞書を追加する

このドキュメントは

FUN Part3 Advent Calendar 2022 - Adventarの21日目の記事です。

とりま、3行でまとめると

辞書追加の方法

書くきっかけ

形態素解析を行うときに,思ったように形態素に分割できないときがあります。その時、すぐに思いつくのが辞書を追加する方法です。 形態素解析エンジンMeCabでは、システム辞書を変更したり,ユーザ辞書を追加することができます。

ぱっと思い付くのは,wikipeidaやはてなキーワードから辞書を作成する方法です。だれでも思い付くので,ネット上で辞書追加の方法の記事が公開されています。 また、Web上の多数の言語資源からシステム辞書を作成するmecab-ipadic-NEologdも有名です。

ただ、どちらもちょっと古い方法なので,ネット上で情報が探しにくくなってきました。

私もまとめた記事を書きましたが,すでに古くなっています。 (記事を書いたことも忘れていました。) 形態素解析ツールの辞書を追加する - Qiita

今回,アドベントカレンダーきっかけで,ドキュメントをGitHub上に公開してしまえば,内容が古くなっても誰かが更新してくれるかもと思い、ドキュメントにまとめました。 (Qiitaは自分で更新しないといけないですが、GitHubなら誰かが引きついでくれるかも!!)

ところで

ところで、辞書追加だけでは、形態素分割の問題を解決できないことが多いです。 むしろ、辞書追加は問題解決のスタートラインで、これ以降の工夫が研究として面白いところです。

このドキュメントが研究のよいきっかけになれば幸いです。