« future direction | トップページ | engaging audiences »

コーパスをつくる

Corpus Linguisticsのプロジェクトでコーパスをつくっている.

医学,コンピュータサイエンス,経済,言語など異なる分野のリサーチ・ペーパーを集めたコーパス.

英語で論文を書くとき,ある単語がどんな単語と共起するのかとか,どんなフレーズで使われるのかとか,どんなかっこいい言い方があるのかとか考えることが多い. 

こういうとき,リサーチ・ペーパーを収めたコーパスがあれば,あなたの論文用辞書として大活躍することうけあいです.

と思って,そんな夢のコーパスをつくろうとしている.

オンライン・ジャーナルの論文を集めてきて,PDFファイルをテキストファイルに変換し,コーパスに収めていく.

先日,PDFファイルをテキストファイルに変換するOCRを購入した. OCRというのは,Optimal Character Recognitionの略で「光学文字認識」というらしい. 光学で文字を認識してくれるのですね. すばらしい. ハイテク. 

でも,最初に購入した「やさしくPDF OCR v.2.0」は,英語の認識はぜんぜんダメだった. 文字化けだらけで,"availability(アベイラビリティ)"が"availabili血"(アベイラビリち(血))"とかになっている. 「血」はいやですね. そして,"Ken Hyland"という名前がなぜか「麗欲」っていう中国人みたいな名前になっている. でも麗欲って. なんでそうなっちゃうんですかね. こんなんじゃコーパスになりません. 

ということで,英語専用の読み取りソフト"Midas Extractor"を買ってみた.これがすごい. すばらしく速いし,正確に読み取ってくれる. "availabili血"にも「麗欲」にもなってない. すごい. かなり感動してしまった. 世の中はほんとうに便利になったものです.

510zmqb9qel_aa240_ Ken Hyland (2000) "Disciplinary Discourses: Social Interactions in Academic Writing" 

コーパス作りの参考にしている.

Metadiscourse Markersのモデルはよくできていると思った.

Ken Hylandはこのネタで何十本も論文を出している. 他のネタでも毎年2-3本はかならず出版している. すごい人だと思う. 華麗で貪欲な人なのだ. だからOCRに「麗欲」と読まれてしまったのだな,きっと. 

わたしも麗欲になろう.

|

« future direction | トップページ | engaging audiences »

コメント

Satchyさんはdiscourse marker (tag?)を付けてらっしゃるんでしたっけ?どうやって大量のテキストでdiscourseを分析されてるのか、すごく興味があります。やっぱりコンピューターにさせてるんですよねぇ?そのテク、いつか教えてください!

私は、プロジェクトと言うほどでもない、POSタグをPythonで付けるだけという無難なものに収まりそうです。

OCRとかいうのがあるんですねぇ。便利な世の中だ。私はマニュアルでコピペしてます…(笑)。きっとエスペラント用のOCRなんてないだろうな…

セメスターが終わったら、癒されに行きましょう!そして、もしチーズケーキが好きだったら、特大のおいしいケーキが食べられるカフェがカイムキにあるので、そこへも一服しに行きませんか?

投稿: Mari | 2007年11月27日 (火) 03:12

Mariさん

discourse markersの機能は文脈によって変わるのでタグ付けは難しいんでしょうね.

なのでfrequency countsでヒットした文をひとつひとつチェックしていく必要がありそうです.今回はひとつのコーパスが4-5万語になるので,手作業もまぁ可能かなという感じです.

なんか原始的やね.計算機が処理してくれるようになる日が来るのでしょうか.

エスペラントの話また聞かせてくださいね.

チーズケーキ大好きです.
おいしいチーズケーキが食べたいです.
しかも特大ってうれしいです.
ところでカイムキってどこですか.

たのしみにしてまーす.

投稿: satchy | 2007年11月28日 (水) 14:53

コメントを書く



(ウェブ上には掲載しません)




« future direction | トップページ | engaging audiences »