誤字を無くすのは、本当に難しいです。普段から気をつけているつもりでも、後で見つけて悔やんでしまいます。そんな時は、機械の力を借りましょう。つまり、Pythonにお願いします。
一番手っ取り早いのは、何らかの方法で文章を分解して、おかしな語句・単語を見つけることです。問題はどうやって文章を分解するかです。形態素解析を用いてもよいですが、もっとシンプルにできると助かります。
ずばりの方法が、あの「退屈なことはPythonにやらせよう」にあります。それが、訳者の相川愛三氏が、翻訳の際に誤記のチェックに用いたPythonスクリプトです。
日本語版オリジナルの記事として「付録D 日本語テキスト処理」にあります。個人的には、この記事が本編と並ぶかそれ以上に面白かったです。
今回のスクリプトのコードは以下のGitHubのページで閲覧できます
『退屈なことはPythonにやらせよう』のリポジトリ – appendix-D
そのPythonスクリプトでは、語句の抽出に以下の正規表現を用いています。
re.compile(r'([一-龥]+|[A-Za-z][0-9A-Za-z_]*|[ァ-ヾ]+)')
これが何ともエレガントです。最小の労力で、日本語の文章中から「漢字だけ、英数字だけ、カタカナだけのひとかたまりの言葉」を取り出すことができます。
さらに、面白いアイデアと思ったのが、疑わしい語句を見つけるのに、抽出した語句をソートして、頻度=1とその前後の語句(計3つ)に着目していることです。そうすれば、誤記かどうかをその場で判断できます。詳細は本書にてご確認ください(この本は本当にオススメです)。
弊社でも少しボリュームのある原稿などの誤字チェックに応用させていただき大変助かっています。このようなことが、Pythonを覚えれば自分でできるようになります。是非、Pythonをはじめてみましょう!