語中がデタラメでも英文は読める

 多少なりとも英語の読める方。これ、読めますか?

Aoccdrnig to a rscheearch at an Elingsh uinervtisy, it deosn't mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht frist and lsat ltteer is at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit porbelm. Tihs is bcuseae we do not raed ervey lteter by it slef but the wrod as a wlohe. ceehiro.
単語がデタラメなんだけど、中学英語くらいの知識があれば案外読めてしまうんじゃないかな。

※この記事は2003年のものです。この記事をもとにした最新の情報は「読めてしまう」文章ネタの起源と歴史[絵文録ことのは]2009/05/10をご参照ください。

2003年9月20日06:05| 記事内容分類:言葉| by 松永英明
この記事のリンク用URL| ≪ 前の記事 ≫ 次の記事
| コメント(2) | トラックバック(1)
twitterでこの記事をつぶやく (旧:

 この話題を知ったのは「医学都市伝説」"September 17, 2003 Can You Raed Tihs?"の記事。この文章は英語圏でかなり広まったらしい。ただ、それがなぜ広まったかについては、文章自体の内容もさることながら、「英国の研究者」という曖昧な出典であったがゆえに、都市伝説的に広まったという。以下、この件について最も詳しい「Uncle Jazzbeau's Gallimaufrey(ジャズボーおじさんのがらくた)」の投稿をいくつか訳して載せておく。これでこの件の概要は大体わかると思う。

2003年9月14日
c-n y-- r--d th-s?

Languagehatは、文字の順序がごちゃごちゃにされた英語の文章(ただし各単語の語頭と語尾は正しくなっているもの)は判読可能であるということについての投稿をしている[ロシア語のAvvaの記事より]。私はこの現象について、今年3月に別の攪乱文章で触れていた(私は、これらの出典不明の文章がウェブ上に都市伝説の如く広がったことに驚いている)。引用されたテキストの情報源を見つけることは難しかったが、カリフォルニア大学アーヴァイン校のKourosh Saberiと、ロサンゼルスのカリフォルニア州立大学のDavid R. Perrottの著述がもとになっていると思われる。この著述はカリフォルニア大学サンタクルーズ校のD. W. Massaro論文で言及されている。私はSaberi 教授に電子メールを送ったが、まだ返事をもらっていない。その結論はネイチャー誌1999年4月29日号に書かれているが、オンラインでは読めないようだ。その論文のプレスリリースはここ。ネイチャー・サイエンス誌での論評も参照。

[03年09月15日追加:文字順の混乱した文はさらに広がり続けている。まさに都市伝説的な状況で、私は二つの変形を見た。一つは"Aoccdrnig to a rscheearch at an Elingsh uinervtisy"(あるイリギスの大学の研究によると)で始まるもので、第2は"Aoccdrnig to rscheearch at Cmabrigde Uinervtisy"(ケンリブッジ大学での研究によると)で始まるものだ。ABCNEWSドットコムサイトにはSaberi+Perrott論文についてのもう一つの記事がある。]

[03年09月16日追加:ネイチャーの記事をEd Snibbleが突き止めてくれた。私は今日、続報を投稿した。]

[03年09月17日追加:第一の混乱文章の情報源をRoger Willcocsが突き止めてくれた。今日の投稿を見てください。]


  Languagehatの記事というのは、今日の冒頭に載せてある文章のこと。次は、このブログの著者Jim氏の過去の投稿、もう一つのランダム文章である。
2003年05月01日
自然言語のパターン認識

以下の断片的文章がネット上にしばらく出回っていた。"... randomising letters in the middle of words [has] little or no effect on the ability of skilled readers to understand the text. This is easy to denmtrasote. In a pubiltacion of New Scnieitst you could ramdinose all the letetrs, keipeng the first two and last two the same, and reibadailty would hadrly be aftcfeed. My ansaylis did not come to much beucase the thoery at the time was for shape and senqeuce retigcionon. Saberi's work sugsegts we may have some pofrweul palrlael prsooscers at work. The resaon for this is suerly that idnetiyfing coentnt by paarllel prseocsing speeds up regnicoiton. We only need the first and last two letetrs to spot chganes in meniang."
(修正して訳:単語の語中の文字をランダムにしたものは、もとの文章を読める能力のある人にとっては理解力にほとんど、あるいはまったく影響を及ぼさない。これをデトンスモレーションするのは簡単だ。ニューサイエンティストの出版物で、最初の2文字と最後の2文字だけを同じにして残りすべての文字をランダム化しても、可読性についてはほどんと影響を及ぼさない。私の分析はあまり大したことがなかった。当時の理論は形状と連続性についての理論だったからだ。Saberiの論文は、何らかの強力な並行処理が働いていることを示唆している。その理由は、並行処理による内容特定が認識速度をあげるからである。我々は、意味の変化を見ぬくのに、最初と最後の2文字しか必要としていない。)

同様に、母音を全部ハイフンで置き換えて単語を書いたり、私が一度やったように話し言葉のデジタル録音で全部曖昧母音に変えてみたりしてもいい。L-ng--g- -s -n -m-z-ngl- c-mpl-x th-ng. (Language is an amazingly complex thing.)


 続いて、最近の投稿に戻る。
2003年9月16日
視覚的な単語認識

ブログ投稿が面白いのは、どの記事が元の文脈を離れて人々に感心を抱かせるか、あるいは過去記事に静かに埋もれていくか、わからないということだ。語中の文字順がかき混ぜられた単語であっても文意の理解を妨げることはない、ということについてはもう少し考えたことがあり、それに加えて、投稿されたコメントや広くブロゴヴィア(Blogovia=ブログ界)への意見をここに掲載したい。

 まず、ここに2つのテキストがある。第一のものは9月12日に登場した。

Aoccdrnig to a rscheearch at an Elingsh uinervtisy, it deosn't mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht frist and lsat ltteer is at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit porbelm. Tihs is bcuseae we do not raed ervey lteter by it slef but the wrod as a wlohe.

 第2のテキストは4月の終わりまでに現われ、私はそれを5月1日にブログ投稿した。
Randomising letters in the middle of words [has] little or no effect on the ability of skilled readers to understand the text. This is easy to denmtrasote. In a pubiltacion of New Scnieitst you could ramdinose all the letetrs, keipeng the first two and last two the same, and reibadailty would hadrly be aftcfeed. My ansaylis did not come to much beucase the thoery at the time was for shape and senqeuce retigcionon. Saberi's work sugsegts we may have some pofrweul palrlael prsooscers at work. The resaon for this is suerly that idnetiyfing coentnt by paarllel prseocsing speeds up regnicoiton. We only need the first and last two letetrs to spot chganes in meniang.(※上記記事参照)

 デイビッド・ハリスから第一の文章が始まった。ハリスはそれがどのようにネット上で広まるかを追跡するために少し変えてみた。ハリスは9月12日金曜日に電子メール経由で原文を受け取った。

 第一のテキストの文字を元に戻すと、次のようになる。

 イギリスの大学の研究者によれば、単語の中の文字の順序がどのようなものであっても影響しない。ただ一つ重要なのは、最初と最後の文字だけが正しい位置にあるということだ。残りは完全にめちゃくちゃであっても、問題なく読める。これはわたしたちが個々の文字それ自体を読んでいるのではなく、単語全体を読んでいるからなのである。

 そして、すでに述べたように、また多くの人が指摘しているように、これは都市伝説の典型例となりつつあるようだ。特に厄介なのは「イギリスの大学」という曖昧さ、「研究者」の詳細がないことである。デイビッド・ハリスは少しつづりを整えたが、2つのヴァージョンを残しておいた。

 SaberiとParrottの論文が発端の可能性があると私が突き止めたのは、第2の、といっても実は第1のより古く5月1日に私がブログ投稿していた文章に名前が載っていた(のを元の綴りに戻した)からである。けれども、多くの人が指摘するように、彼らの論文(オンラインにはないので私はまだ読んでいない)は、話し言葉について扱っているのであり、書き言葉についてではない。Saberiは語中の断片を取ってそれを反転させたが、人々はそれでも理解可能だったという。Googleで「認知科学」「心理言語学」「視覚的単語認識」などの文字列を適切に検索するなら、まるで泥沼の心理学的論文を読むことになるのがすぐにわかるだろう。読む理解、聞く理解についてのあらゆる側面についての研究が多くの人によってなされてきた。被験者が単語の意味分野を前もって知らされていれば、単語認識にかかる時間は減る。多かれ少なかれランダムな文のリストが配られたときには、単語認識に何が起こるだろうか? 文字だけがごちゃまぜにされるのではない。語順でたらめ言語においては単語そのものも並べ替えられたのだ。Mark Seidenbergは、眼球運動、難読症、精神的傷害、読解、正書法、ヘブライ語を扱った視覚的単語認識飽和についての興味深い論文を書いている。また、私の記事への反応としてWesleyが"Fear Everything"で指摘したとおり、ある単語の語順をどのように脳内で変換するのかということについての論文がここにある。

 これらの論文の文献目録だけで、興味深いウェブ散策・読書が何時間もできることだろう。

[03年09月16日追加:私はSaberi とPerrottの論文を読んだ。彼らが反転した単語の固まりというのは、会話の流れのどこからでも取られており、単語の語中だけではないようである。騒々しい環境でもメッセージを理解できるということについて、これは大きな意味を持つように思われる。]

[03年09月17日追加:第一の混乱文章についての起源については今日の投稿を見てください。]

[03年09月19日:最近のテキストでは、researcherとimportantも綴りを間違っている。私が正確なテキストを作ったときには、こっそり(無意識に)それを修正していた。]


2003年9月17日
50ミリ秒の分割

 英雄である読者Roger Willcocksは、Saberiについて言及している第一の混乱文章の起源を発見した。1999年5月1日号ニューサイエンティスト誌の投書だ。それはSaberiとPerriottのネイチャー誌論文についての短い記事に対する反応である(ニューサイエンティスト・サイトに掲載されている)。手紙の著者ハンプシャー州オールダショット市のGraham Rawlinson氏は、1976年にノッティンガム大学で書いた学術論文に触れている。そこで氏は「単語の語中の文字をランダムにしたものは、文章を理解できる読者の読解能力にはほとんど、あるいはまったく影響を及ぼさないことを示した。実際のところ、本当に速い読み手は、混乱した文章のA41ページ文のなかで、たった4つか5つの間違いにしか気づかなかった」と述べている。Rogerは、このUsenet(alt.2600グループ)の投稿(1999年6月7日から)で、文字はそれ以上の詳細を伝えるものではないことについて言及している。第2の書き手やそれ以降の文章についてはわかるかどうかはっきりしない。ありがとう、Roger。

[03年09月17日追加:Rawlinsonの学術論文は「単語認識に置ける文字の位置の重要性」というものである。ノッチンガム大学オンライン図書館蔵書目録にあった。]

この記事のトラックバックとして、英語圏ブログには「randomized letters are readble even Japanese readers. But, Japanese texts cannot do same, because Japanese is some ideography and some syllabic.」という文章を送っておいた。「ランダム化された文字は日本人読者でも読めます。でも日本語の文章は同じことはできません。日本語は表意文字と音節文字だからです」。今回の場合、多少間違っていても大目に見てもらえそうなのがラッキーである(笑)

[2003.09.23追加]この記事へのコメントとして、言語学者の方による上記記事への反論が投稿されている。これを翻訳して公開した。

【広告】★文中キーワードによる自動生成アフィリエイトリンク
以下の広告はこの記事内のキーワードをもとに自動的に選ばれた書籍・音楽等へのリンクです。場合によっては本文内容と矛盾するもの、関係なさそうなものが表示されることもあります。
2003年9月20日06:05| 記事内容分類:言葉| by 松永英明
この記事のリンク用URL| ≪ 前の記事 ≫ 次の記事
| コメント(2) | トラックバック(1)
twitterでこの記事をつぶやく (旧:

トラックバック(1)

※当ブログへトラックバックされる場合は必ずこのページへのリンクを入れてください。こちらへのリンクのない一方通行トラックバックは承認されません。

トラックバックURL: http://www.kotono8.com/mt5/mt-tb.cgi/5

ひらがなばかりで書かれた文章なのだが、文字の順序がでたらめになっていても読めてしまうという現象が話題を呼んでいる。 ねとらぼ:確かに"読めてしまう"コピペ... 続きを読む

コメント(2)

So we have (what we could henceforth call) the "msesgae":

"Aoccdrnig to a rscheearch at an Elingsh uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht frist and lsat ltteer is at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit porbelm. Tihs is bcuseae we do not raed ervey lteter by it slef but the wrod as a wlohe".

Even if it’s funny, this "msesgae" is an improper and excessive generalization, which conveys an extremely reductive vision. Moreover, whereas it should only remain what it is, i.e. a simple fantasist and entertaining text, it is taking worrying forms (we see it in mails, weblogs, chat-rooms where participants, absolutely amazed and amused, are venerating this "sensational discovery" and friends from everywhere (also excited) are forwarding it in different languages (apparently, this “hoaxmeme” (hoax + meme) is floating all over the web).

Let’s try to encircle the topic (not by haughty pedantry but just by anticonformism and anti-“simplistism”). If you were looking for a serious explanation of it, here is an “anti-hoaxmeme”:

Introduction
Reading is a complex activity that involves many aspects of knowledge, which are of various natures and various complexities (this is due besides to the fact that “writing” is complex). It's an activity, which implies cognitive processes but also, simultaneously, perceptive processes: reading, it's to perceive and to identify words.

Development
Many linguists worked on the description of the mechanisms’ evolution of the words’ identification and there are now many developmental models of reading. The principal models comprise three way of reading, which correspond actually to three chronological stages of acquisition (for this presentation, let's start with the second one):

- the alphabetical reading (second stage): the reader connects the oral examination with the writing (in other words, he learns how to make correspondence between letters and sounds (ex: the sound [k]can be written with 'c' (cot), 'k' (kiss) or 'ch' (chord)). At this stage of phonological mediation, there is a code training; the learner enriches its phonological knowledge and transfers it to new words (it’s a form of self-training). This stage is called an "indirect way" because the reader reads the words through a decoding process.

- the orthographical reading (third stage): the words are analyzed in orthographical units (orthography indicates here the sequence of letters forming the word). There is no phonological conversion; the words are read and recognized directly in reference to a memorized orthographical lexicon. This stage replaces gradually (but not entirely) the alphabetical one. The reader does not need to decipher anymore: he recognizes the words through a "direct way".

- the logographic reading (which is actually the FIRST stage in the reading training): at this stage, the reader uses various kinds of clues to 'read' the words, inter alia, those provided by the extralinguistic environment. The letters’ order and the phonological factors are not taken in account, but the visual clues are. There can be at this stage an instantaneous recognition of familiar words (or somehow ‘learned by heart’), and the riddles made on the basis of projecting visual clues allow the constitution of a first total vocabulary. The visual clues can simply be the length of the word or its "silhouette" (outline) or even just one letter. The classic example to illustrate this stage is the word: "Coca-Cola”, of which logo is easily identified by almost all children of 5-6 years old. If we change only one letter of the word: “Coca-Coca”, children will not notice the difference from the original word (adults neither sometimes, as some experiments proved it).

The most perspicacious of you may have already understood: what occurs actually when we read the "msesgae", it is that we, literate readers to whom reading and writing have been taught, use our competences, acquired and automated thanks to years of reading experience. In other words, we have developed "HABITS" of reading.

The "msesgae" experiment could let us think that we get back to a logographic reading, in which access to significance is carried out directly via the pictorial semantic system (with words treated like images-logos), but this is not completely true.

Actually, we continue to use the orthographical reading system (in which access to significance is carried out via the verbal semantic system). If we look at the "msesgae » more closely, we can notice that 34 of its 68 words (short and common by the way), are correctly spelled (50%, half of the text, and most of them are "grammatical words"). Added to a simple and common syntax (journalistic style of the “forma brevis”) and our capacity of anticipation and auto-reflex correction of more or less experienced reader (the system used is close to the "typing error" one, and anyway, teachers manage quite well to read our essays stuffed with spelling mistakes. In other words, you don’t have to be a Professor of literature to spot "what" in " waht "!!!), it gives many visual clues!!! (Moreover, there is a syllabic facilitation phenomenon, but I skip the details).

Conclusion
The proposition, which is conveyed through the «msesgae», is not completely false but it is very reductive, and completely incorrect when it affirms that only the place of the first and the last letter of the words do matter. Actually, it deals more with their "silhouette" (from which our (almost standard) system of abbreviations rises (another facilitating clue)). If we can read the "msesgae" without any problem, it is because we are good readers reading a text easily accessible in spite of its orthographic and spelling mistakes.
To prove it, if I give you the correctly spelled words "acetoxybutynylbithiophene deacetylase" or "carboxymethylenebutenolidase", dear expert readers, you will resort to an alphabetical analysis (second stage) and will use a grapho-phonological decoding for these unknown words (I suppose, this experiment may not always work if you are chemist, druggist or doctor... if it’s the case, sorry for this affront :-).
Another counterexample: if you read AT THE FIRST GO the following sentence as quickly and fluently as you did with the "msesgae", all my theoric explanation goes down the drain (or you are an innate champion of anagrams!):

“Nreuuoms pmeeononnhs peossss uiapocmltecnd etaaoilxnpn; nwttdtsniinoahg, the pdseuo-snfiiiectc spssliiimtm is not snfiiiectc and eieecndvs are oetfn mdanleiisg”*.

Guillaume Fon Sing,
(alias GUITCHUS)
guitchus@hotmail.com
Linguist

* “Numerous phenomenons possess uncomplicated explanation; notwithstanding, the pseudo-scientific simplistism is not scientific and evidences are often misleading”.

Please forward it, …it can teach sb a thing or two.

thank you for comment, guitchus!
this is an adequate description, I think.
I've translate it in Japanese and post here (23 Sep.).

コメントする

OpenID対応しています OpenIDについて

このブログ記事について

このページは、松永英明が2003年9月20日 06:05に書いたブログ記事です。
同じジャンルの記事は、言葉をご参照ください。

ひとつ前のブログ記事は「PermalinkとTrackbackの訳語」です。

次のブログ記事は「部落格/博客/网絡日志/网志」です。

最近のコンテンツはインデックスページで見られます。
過去に書かれたものは月別・カテゴリ別の過去記事ページで見られます。