このサイトについて

一 文体診断ロゴーンについて

 文体診断ロゴーンは、あなたの入力した文章を解析して、その文体の特徴を診断します。
 診断では、文章の区切りは句読点だけで判断しています。改行などで文章を区切っている場合はご注意ください。また、文章が短かすぎる場合や、極度にくだけている場合は診断の信頼性が低い場合があります。目安として、適切な診断には、文体の一致指数の最大値が50以上であることが必要だと考えています。
 まあ、しかし、そんなに難しく考えずとも、適当に文章を貼り付けていただければ、それなりに楽しんでいただけると思います。これをきっかけに名作に触れる機会が増えれば、作者として喜びとするところです。

二 使用したテキストについて

 テキストは64名の著者から各1作品を選びました。こちらにテキストの一覧をまとめてあります。著者の先生には、テキストを使用させていただいたこと、深く感謝いたします。
 また、テキストの特徴をこちらの散布図(PNG)で表現しました。近くにいるほど、似た文体であることを意味しています。この散布図は、主成分分析を用いて、10項目の粗点を2得点に縮約したものです。文体診断に用いた一致指数とは、また考え方が違いますが、特徴を視覚的に把握できると考え、付録として掲載しました。
 テキストの統計情報(CSV)はこちらに用意しました。基本統計量、ならびに各テキストの粗点、および偏差値のデータです。厳密な検定は行っていませんが、各得点はおおむね正規分布に従っています。

三 診断の方法について

 文体診断ロゴーンは、まず、入力された文章を形態素解析し、そこから得られた形態素数の情報と、文の長さに関する情報を10項目の得点にまとめます。そして、それらの得点を使って、文体の一致指数や文章評価を導き出すという流れで診断を行っています。
 10項目の得点についてですが、平均文長と平均句読点間隔は、文章の総字数をそれぞれ句点数と句読点数で割ったものです。
 特殊語出現率から助動詞出現率までは、それぞれの品詞数を総形態素数で割ったものです。特殊語とは句読点、カッコ、記号などをいいます。また、ひらがな出現率・カタカナ出現率は、それぞれ、すべてひらがなの形態素数・すべてカタカナの形態素数を総形態素数で割ったものです。
 異なり形態素比率は、文章で一度しか出ていない形態素の数を総形態素数で割ったものです。

四 文体の一致指数について

 文体診断ロゴーンは、得点詳細に記された10項目の偏差値(ss)を用いて一致指数の計算を行います。
 ある著者(a)とあなた(b)との一致指数(CI)の計算式は次の通りです。CI=100-10*Σ(|ss[a,i]-ss[b,i]|/40) for i=1 to 10. これによると、一致指数は100点満点からの減点法で計算されています。今回の計算では各項目の重みを1としましたが、今後は、同一著者のテキスト同士の一致指数ができるだけ高くなるように、重みを最適化していく予定です。
 なお偏差値は、64著者のテキストを標本に、平均50、標準偏差10となるようにして計算しています。

五 文章評価について

 文章の読みやすさは、平均文長と平均句読点間隔を用いて評価しました。一文が短いほど評価が高くなっています。
 また、文章の硬さは、ひらがな出現率をもとに評価しました。平均に近いほど評価が高くなっています。
 文章の表現力は、異なり形態素比率により評価しました。比率が高いほど評価が高くなっています。
 文章の個性は、ss[a,i]=50としたときのCIを基準に評価しました。CIが低い、つまり平均から離れているほど個性的であると評価しています。
 評価は、AからEまでの5段階評価、評価分布は各20%ずつとなっています。

六 お礼の言葉

 文体診断ロゴーンは、Yahoo!デベロッパーネットワーク提供の日本語形態素解析Webサービスを利用させていただきました。このような高機能のシステムを無料で使わせていただき、とてもうれしく思います。
 また、テキストを提供してくださった青空文庫電子文藝館国会会議録検索システム判例検索システムの各サイトの皆様、入力に携われた方々に感謝申し上げます。著名なテキストを誰もが読める環境があるということは、とても素晴らしいことだと思います。
 文体や文章評価に関する先行研究からは多くを取り入れさせていただきました。これらがなければ、ここまで来られなかったと思います。ただ、一部の成果につきましては、作者の力量不足のため、あるいは省略し、あるいは簡便な方法を用いざるを得ませんでした。これらは今後改良していきたいと思います。

七 参考文献

 石岡恒憲ほか(2002)「コンピュータによる日本語小論文の自動採点システム」
 石田栄美ほか(2004)「文体から見た学術文献の特徴分析」
 金明哲(2006)「計量文体学から見たテキストマイニング」

八 お問い合わせ

 お問い合わせはlogoon.org@gmail.comまでお願いします。

ホームページ
Copyright : (C)2009 文体診断ロゴーン All Rights Reserved.
Web Services by Yahoo! JAPAN