大名力 『言語研究のための正規表現によるコーパス検索』

最終更新: 3月20日


 まじめな著者が、まじめに、まじめな本を書いた。


 近年、言語研究と関連して、「コーパス」ということばを耳にすることが多い。実際、「コーパス言語学」と呼ばれる分野が存在し、関心を寄せる研究者も多い。「コーパス」を電子版『広辞苑第6版』で検索すると、「言語を分析する際の対象となる資料集。文字で記された資料や録音された言語資料の集合体」とある。最近では、この規定よりももう少し特定的に、電子化された言語資料(集)を指すことが一般的である。

 コーパスを利用して、さまざまな検索を行い、その結果を資料として利用して言語分析を行う。電子化されたコーパスを利用し始めると、とたんにその利便性の虜になる。なにせ、検索したい項目(たとえば、文字列)を入力して、あとは、キー一押しか、ワン・クリックでことが達成される。

 これだけの簡単な説明でもわかるように、コーパスの作成と並行して、そのコーパスを検索するための方法が必要となる。検索すべき対象を指定し、その検索をコンピュータに命令するツールを開発しなくてはいけない。コーパスとその利用が普及してくると、このツールもできるだけ「ユーザー・フレンドリー」なものを開発しようという試みが盛んになる。手軽にコーパスが利用できるようになるのだから、それでいいのではないかと考える向きもあるかもしれないが、著者はそう考えない。

 検索ツールのユーザー・フレンドリー度が増せば増すほど、そのツールを利用して検索を行ったときに、一体なにがなされているのかについての不透明度も増す。検索の結果、得られた情報が一体なにを意味するのかがにわかには判断できないという事態も起こりうる。

 同じことを著者に語ってもらおう。


ユーザーフレンドリーなツールで文字列を指定して検索すれば何らかの結果は得られるが、コンピューターは機械的に指示通り処理しているだけで、研究目的、利用者の意図に照らし、正しく条件が指定されているか、結果が適当かどうかは、判断してはくれない。結果が正しいかどうか判断するためには、入力・処理・出力(処理対象・処理内容・処理結果)の3点をセットとして考える必要があるが、ユーザーフレンドリーなツールでは、入力と処理の部分が隠されてしまうため、出力の正しさの検証が難しくなるだけでなく、そもそも、検証の必要性自体が意識されにくくなる。(p.iii)

実際、コーパス言語学の専門家の中にも、この落とし穴にはまっているとしか思えない人たちもいる。入門書の中にも、この点へのきちんとした気配りに欠けるものもある。いや、けっこうある。まじめな著者はこの状況に危機感を抱いた。

著者は入門者に対してほど、この点を徹底的に教え込み、コーパスを利用する際の心がけをきちんと身につけさせるべきであると考えた。そして、この本を著した。


「言語研究のための正規表現によるコーパス検索」いかにもまじめな著者らしい、いま受けしない書名を選んだ。せいぜい、「きちんと学ぼう、コーパスの使い方」とかいう書名にしておけば、売れ行きは3割5分は増えたに違いない。

しかし、著者が選んだ書名は的確にその内容を表している。検索をする場合、検索の対象となる文字列を、そして、それのみを正確に規定する必要があるが、「正規表現」とはその「文字列のパターンを記述する記法で、そのパターンにマッチする文字列の集合を指定することができる」(p.1)。

となると、正規表現を使って検索をするためには、正規表現の「文法」を学ぶ必要がある。この本はまさにその文法学習のための演習をするために作られたものである。

著者は優れた研究者であるが、同時に、卓越した教師でもあることがこの本の記述の随所から窺える。適度に親切なのである。親切だが、親切過ぎない。長年の教授経験から得たわざに違いない。

文法を学ぶなどめんどうだなと思うかもしれないが、正規表現は学びやすく、学びたいという気持ちさえあれば、本文の150ページは実習しながらでも数日で読み終えることができると思う。


ということはあるのだが、じつは、この本の一番優れた点は、コーパスおよび検索ツールはあくまで道具であって、これに研究の肩代わりをさせることはできないという、ごくごく当たり前だが、じつは、あまりきちんとは教えられていない(ようにわたくしには思える)点を読者が実感できることにある。コーパスと検索ツールを生かすも殺すも使う側の研究者の力量しだいなのだ。もう少し言えば、なにをどう検索するかは研究者が判断すべきことであり、その判断はすぐれて研究者の言語学者としての眼力に左右される。

この本を通読すると、そのことが非常にはっきりと理解できる。


 まじめな著者が、まじめに書いたまじめな本がまじめな版元から世に送り出されたことを心からうれしく思う。コーパス(言語学)に関心を持つすべての人にお勧めしたい。

【注】著者の名前は「おおな・つとむ」と読む。

#本の紹介 #言語の認知科学

1回の閲覧

​コミュニティ

 ブログ

 フォーラム

  • Facebook

© Copyright 2020 by General Incorporated Association Kotobanokyoiku