誤字は本当に無くすのが難しいです。普段から気をつけているつもりでも、後で見つけて悔やんでしまいます。このような時は、機械の力を借りましょう。つまり、Pythonにお願いします

一番手っ取り早いのは、何らかの方法で文章を分解して、おかしな語句・単語を見つけることです。そうすれば、文章から誤字を見つけるよりも相当省力化できます。問題はどうやって文章を分解するかです。形態素解析を用いてもよいですが、もっとシンプルにできると助かります。

ずばりの方法が、あの「退屈なことはPythonにやらせよう」にあります。それが、訳者の相川愛三氏が、翻訳の際に誤記のチェックに用いたPythonスクリプトです。日本語版オリジナルの記事として「付録D 日本語テキスト処理」に載せていただいてます。個人的には、この記事が本編と並ぶかそれ以上に面白かったです。

そのPythonスクリプトでは、語句の抽出に以下の正規表現を用いています。

re.compile(r'([一-龥]+|[A-Za-z][0-9A-Za-z_]*|[ァ-ヾ]+)')

これが何ともエレガントです。最小の労力で、日本語の文章中から「漢字だけ、英数字だけ、カタカナだけのひとかたまりの言葉」を取り出すことができます

さらに、面白いアイデアと思ったのが、疑わしい語句を見つけるのに、抽出した語句をソートして、頻度=1とその前後の語句(計3つ)に着目していることです。そうすれば、誤記かどうかをその場で判断できます。詳細は本書にてご確認ください(この本は本当にオススメです)。

弊社でもPythonプログラミング通信講座の教材の誤字チェックに応用させていただき大変助かりました。このようなことが、Pythonを覚えれば自分でできるようになります。是非、Pythonをはじめてみましょう!