本章では、本研究の一環として実施する「スパゲッティの試食評価実験」について述べる。
本章では、本研究の一環として実施する「スパゲッティの試食評価実験」について述べる。
本研究の第一義である「可食化」の提案にあたり、その有効性を検証するため当実験を執り行う。 従来型の「可視化」と比較した時の「可食化」の優位性を立証し、論旨主張の根拠にすることを目的とする。
上記の目的を果たすため、可視化と可食化の比較を行う。 従来用いられてきた手法である「可視化」と比較して優位な評価を得ることができたなら、その「可食化」の有効性も示すことができよう、と考えたのである。 ただし、その比較や評価は人間の感覚に基づくものであり、つまり人間による評価を要する。そこで、当実験では被験者にご協力いただき、可視化及び可食化に関する評価実験を行うことにした。
まず、可食化の実例として、ソフトウェアプログラムをスパゲッティとして表現することを示す。 そのスパゲッティを試食してもらい、被験者自身が感じ取った「スパゲッティの良し悪し」を評価してもらう。 次に、可視化の実例として、プログラムのメトリクス結果を従来の方法(一覧表示)で提示する。 その計測結果を通して、被験者自身が感じ取った「プログラムの良し悪し」を評価してもらう。 双方の詳しい手順は次節で述べるとして、この二部構成の後、被験者には「可視化」と「可食化」のそれぞれに対する評価を求める。 その評価結果を統計的に分析・検定し、「直感的な理解・認知」における可食化の優位性を示すことが、当実験の目標である。
当実験は、実施に関する問題点を洗い出すための予備実験と、それら問題点を改めて実施する本実験とで構成する。 なお、「当実験」とは、本章で述べる一連の実験を指し、また「本実験」とは、予備実験に対する本番の実験を指すものとする。
序論では、可食化に対して、次のようなねらいを定めていた。
可食化が有効な情報表現手段であることを実証し、その新たな活用の可能性を見出すこと。
可食化が「情報表現手段」として有効であることを示したい、と述べたのだが、やや抽象的な表現であり、その対象は広域に渡る。 広く一般に「有効である」と述べることができるのならば、この表現でも良いのだが、その実証もまた広域を網羅する形で行なわなければならず、いささか現実的ではない。 そのため、より限定した対象への有効性を述べようと考え、その対象を「直感的な理解・認知」に絞り込んだのだ。 つまり、当実験では、直感的な理解・認知における「可食化」の有効性を検証することになる。
開発したメトリクスツールを用いて、ソフトウェアプログラムをスパゲッティとして可食化し、被験者にはその試食を通してアンケート記入をお願いする。 被験者に試食してもらうスパゲッティには四種類あり、それぞれを個別に評価してもらうのだが、その違いは、先の章で述べた「スパゲッティの指標」の値の違いである。
#(対応するプログラム) | オリーブオイル量 | 待ち時間 | ゆで時間ばらつき |
---|---|---|---|
一皿目(01_Normal) | 適量【良い】 | 0分【良い】 | 0分【良い】 |
二皿目(02_BadComment) | なし【悪い】 | 0分【良い】 | 0分【良い】 |
三皿目(03_BadLPF) | 適量【良い】 | 1分47秒【悪い】 | 0分【良い】 |
四皿目(04_BadIndent) | 適量【良い】 | 0分【良い】 | 6分18分【悪い】 |
最初に試食してもらうスパゲッティは、全ての指標が良い結果を示す場合のもの(良いスパゲッティ)である。ただし、これが「良いスパゲッティ」であるということは被験者に伝えない。 事前知識(先入観)がない状態で試食してもらい、その上で「直感的にどのような印象を持ったか」という観点で、良し悪し七段階からの択一で評価してもらう。 ちなみに、この後の三種類についても、同様の観点で評価してもらうものとする。また、七段階評価とは別に自由記述欄を設け、その評価に至った理由を書いてもらう。
事前に評価基準を示すこともなく試食してもらうため、被験者の評価には「ばらつき」が生じるはずである。 この「ばらつき」を抑えるためには、やはり評価基準を示す必要があり、それは可視化と同様であると結論づけたい。 つまり、可視化と可食化の前提条件を揃えることで、後の議論を用意にすることがねらいである。
なお、この一皿目のスパゲッティを基準として、以後の実験項目を評価してもらいたい。その旨は試食後の被験者に伝達するものとする。
二皿目として、オリーブオイルを絡めていない「乾燥しやすいスパゲッティ」を試食・評価してもらう。 一皿目と同様に、良し悪しを七段階で評価してもらうが、それ以外に「どの指標が最も特徴的だったか」という質問を用意しており、 アンケート用紙に記載する四つの語群(指標の名称)の中から一つ選び出すことになる。 その上で、選択した理由を自由記述欄に書いてもらう。この新しい評価項目は、この後の二種類についても同様に存在する。
もちろん、期待することは「悪い」という評価である。また、スパゲッティの表面光沢や乾燥によるまとまりを理由として指標「オリーブオイル量」を選択するはずである。 この予想が的中するならば、スパゲッティへの可食化の指標として「オリーブオイル量」を用いることが適切だったと言えよう。
三皿目として、ゆで上げから時間が経過して乾燥してしまった、俗にいう「作り置きのスパゲッティ」を試食・評価してもらう。 二皿目と同様に、七段階評価及び特徴的な指標の選択を求める。
これも「悪い」という評価が与えられると期待する。また、乾燥によるまとまりを理由として指標「ゆで上げ後の待ち時間」が選択されるだろう。 この予想が的中するならば、二皿目と同様に「ゆで上げ後の待ち時間」という指標が適切だったと言えよう。
四皿目として、ゆで時間の短いものと長いものとが混在する「食感のばらつきがあるスパゲッティ」を試食・評価してもらう。 これは、二皿目や三皿目と同様の評価を求める。
同じく「悪い」という評価が与えられよう。また、柔らかいものと芯の残るものが混ざっていることを理由に指標「ゆで具合のばらつき」が選択されるはずだ。 この予想が的中するならば、「ゆで具合のばらつき」が適切な指標だったと言えよう。
五皿目は、実際のスパゲッティとして提供するわけではない。スパゲッティの指標として提案した「スパゲッティ料理名」の有効性を評価してもらうための実験項目である。 ただ、これは単なる名称であり、直接的にスパゲッティの食感に影響を与えるものではないため、可食化の指標とすることに疑問を感じるかもしれないが、 少なくとも、これまで数々のスパゲッティ料理店を渡り歩いた経験によると、料理名は、食感に対するバイアスを与えるものとして充分な役割を果たすものである。 従って、「スパゲッティ料理名」を評価に値するものとし、当実験の評価項目に含めることとした。
次に示す三種類のスパゲッティ料理名を提示し、その名称に感じる「短い」または「長い」といった印象を、七段階で評価してもらう。
# | スパゲッティ料理名 |
---|---|
一つ目 | スパA |
二つ目 | トマトソースのスパゲッティ |
三つ目 | 賀茂茄子と香草のスパゲッティ アンデス風 サルサ・ディ・ポモドーロを添えて |
一つ目は「短い」、二つ目はどちらでもない、三つ目は「長い」といった評価が期待される。 この予想と一致するならば、食感に影響を与えうる指標(可食化の指標)としての有効性が認められよう。
以上で、可食化に関する実験の手順が完了する。なお、この可食化の写像元となる「対応するプログラム」は、付録資料[5]として添えてある。
比較対象として挙げた「可視化」に関する例題として、ソフトウェアプログラムのメトリクス結果を従来型の一覧表示により提示し、プログラムの良し悪しを評価してもらう。 提示するメトリクス結果を二種類用意し、それぞれに対して「良いプログラム」「どちらとも言えない」「悪いプログラム」の三者択一の質問を行い、 その評価に至った理由を自由記述欄に記載してもらう。
被験者には、一覧表示型のメトリクス結果(図4-1)を見てもらい、入力プログラムの良し悪しを評価してもらう。 この例では、インデントのばらつきが「0.629...」となっており、インデントがばらついている「悪いプログラム」であることが分かる。
ただ、その指標の意味を理解していなければ、「0.629...」という数値の良し悪しは判定が付かないのではないか。従って、正しく判定できる被験者は少ないと予想する。
二つ目の例(図4-2)は、いずれの指標値にも大した問題点がない「良いプログラム」のメトリクス結果である。 ただ、一つ目と同じように、直感的に「良い」と感じることができるだろうか。スパゲッティのように直感的に「美味しい(良い)」と感じることはできないであろう。 従って、「良いプログラム」であることを認識できる被験者は少ないものと予想する。
以上で、可視化に関する実験の手順が完了する。
上記の例題を終えた後、「直感的な理解・認知」という観点から「可食化」及び「可視化」を評価してもらう。 具体的には、それぞれの手法に対して十点満点の評価を求め、また、その点数で評価した理由を自由記述欄に記入してもらう。 ただ、可食化の場合は「スパゲッティの良し悪し」を評価してもらうのであり、その写像元である「プログラムの良し悪し」については触れていない。 そこで、両者への評価を前に、図4-3を被験者に示すことで、可食化の評価対象を「スパゲッティ」から「プログラム」に変更してもらう。 つまり、可食化及び可視化の評価対象を、共に「プログラム」に揃えた上で評価してもらうことにする。
2013年1月15日、被験者1名にご協力いただいて予備実験を執り行った。 その中で気付いたことや被験者から頂戴したご指摘のうち、重要な事項のみ以下に説明する。
実際に調理してみると、慣れていないこともあって調理のむら(芯の残り具合が一定でないなど)が生じてしまう。 この問題を解消するため、実施者である私自身も試食し、その時々の調理むらを把握して、実験後に調整することにした。
対応するプログラム(03_BadLPF)を可食化した際、ゆで上げ後の待ち時間として「1分47秒」という指標値が得られたため、その結果に従って予備実験を実施した。 ところが、時間が短かったのか、評価結果を見ても明確な効果が認められなかった。 そのため、関数あたりの行数から待ち時間を算出するプラグイン(LinesPerFunction2WaitTime)の写像具合を再度調整し、より長い待ち時間が与えられるようにした。 修正の後には「10分43秒」という指標値を得たが、これは以前実施した「待ち時間に関する調理実験」の結果を鑑みても、スパゲッティが絡みまとまる待ち時間であることは明らかだった。 従って、本実験では後者の結果「10分43秒」を採用することにする。
「オリーブオイル量」の加減が変化すると、別の指標である「ゆで上げ後の待ち時間」への干渉が認められた。 本来、待ち時間が長い場合、スパゲッティが乾燥してまとまるのだが、オリーブオイルを絡めていると、ほとんどまとまらない。 干渉の程度も甚だしいため、「ゆで上げ後の待ち時間」に関する実験項目においてオリーブオイルは絡めないことにする。 (この場合の指標「オリーブオイル量」の取り扱いについては、後の考察で別途説明する。)
ちなみに「オリーブオイルを絡めない」とした場合のプログラムは、付録資料[5]の中の「03_BadLPF2」に相当する。 コメントを取り除くことで、オリーブオイル量を「なし」にしたのである。
#(対応するプログラム) | オリーブオイル量 | 待ち時間 | ゆで時間ばらつき |
---|---|---|---|
三皿目(03_BadLPF2) | なし【悪い】 | 10分43秒【悪い】 | 0分【良い】 |
この予備実験での失敗・気付きを活かし、有意義な本実験になるよう配慮する。
2013年1月16日、被験者7名(うち1名途中退席)にご協力いただいて本実験を執り行った。 問題が生じないように配慮していたが、被験者からご指摘を頂戴した。
一皿目は「良いスパゲッティ」として提示したのだが、これを基準にしてしまうと、残りのスパゲッティは必然的に「悪いスパゲッティ」になってしまう。 当初は「どちらとも言えない」を原点として良し悪しを評価してもらおうと考えていたのだが、指摘を受けて初めて、その原点が「良いスパゲッティ」になっていると気付かされたのだ。 この点を勘違い(また曖昧に)していたことは、当実験における反省点である。
実験時の説明通り、一皿目を「良いスパゲッティ」として(つまり「良いスパゲッティ」を原点として)評価してもらうことについて、特に問題は生じないはずである。 しかし、その質問の表現を工夫する余地はあっただろう。「良し悪し」を問うのではなく「悪さの程度」を問うべきであった。実験前に気付かなかったことが悔やまれる。
ここでは、可食化の各実験項目で得られた被験者による評価結果について述べる。 合計で四種類のスパゲッティを試食してもらったが、それぞれに対して良し悪しの七段階(とても良い・良い・少し良い・どちらとも言えない・少し悪い・悪い・とても悪い)からの択一で評価を求めた。 このデータは順序尺度であるから、その代表値として中央値ならびに四分位偏差を採用する。その際、各指標値に対して以下のように便宜上の数値を割り当てる。
1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|
とても良い | 良い | 少し良い | どちらとも言えない | 少し悪い | 悪い | とても悪い |
各実験項目について、それぞれ中央値と四分位偏差などを求め、またグラフ(箱ひげ図)も提示する。
|
|
正答率(最も特徴的な指標として「オリーブオイル量」を選択した被験者の割り合い)は、28.6%であった。
|
|
正答率(最も特徴的な指標として「ゆで上げ後の待ち時間」を選択した被験者の割り合い)は、83.3%であった。
|
|
正答率(最も特徴的な指標として「ゆで具合のばらつき」を選択した被験者の割り合い)は、83.3%であった。
|
また、四種類の試食を終えた後に「スパゲッティ料理名」に対する評価を求めた。これも同様に七段階(とても短い・短い・やや短い・どちらとも言えない・やや長い・長い・とても長い)からの択一で評価してもらった。 このデータも順序尺度であり、中央値と四分位偏差を採用する。以下は、便宜上の数値の割り当てである。
1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|
とても短い | 短い | やや短い | どちらとも言えない | やや長い | 長い | とても長い |
先程と同様に、中央値や四分位偏差などを算出し、対応するグラフ(箱ひげ図)を示す。
|
|
|
次に、可視化の各実験項目で得られた被験者による評価結果について述べる。 従来の一覧表示で提示(可視化)するメトリクス結果を見て、プログラムの良し悪しを三段階(良いプログラム・どちらとも言えない・悪いプログラム)の択一で評価してもらう。 このデータは順序尺度であり、代表値として中央値ならびに四分位偏差を採用する。 各指標値に対する便宜上の数値は、以下のように割り当てた。
1 | 2 | 3 |
---|---|---|
良いプログラム | どちらとも言えない | 悪いプログラム |
提示するメトリクス結果は二種類ある。それぞれについて中央値・四分位偏差・グラフ(箱ひげ図)を提示する。
|
|
可視化及び可食化の実例をひと通り提示し終えたところで、最後にそれぞれの手法に対する十点満点の評価を求める。 実際のアンケート用紙には、次のような設問文を記載している。
ソフトウェアプログラムの問題点や改善点を発見する上で、メトリクス結果の可視化および可食化はそれぞれ、どれくらい「直感的な理解・認知」を得られる手法でしょうか。
上記の設問に対する「可視化」への評価(十点満点)は以下の通りである。図4-16の左側を参照されたい。
同様に、「可食化」への評価(十点満点)は以下の通りである。図4-16の右側を参照されたい。
「可視化」と「可食化」の双方に評価が与えられたので、その評価結果を比較したい。 具体的には、それぞれの平均値同士に有意差があるか否かを明らかにしたい。 そこで、統計的仮説検定の一「t検定」を援用して、群間の差得点を検定することにより、有意差の有無を検証する。
対立仮説(H1) : 両者の平均点に差がある。
帰無仮説(H0) : 両者の平均点に差がない。(平均点の差が0に等しい)
この検定における仮説を上記の通り設定し、また、判断水準(有意水準)を両側5%に設定する。 この場合の自由度dfは、データ数(つまり被験者数6名)から次のように求められる。
自由度 df = (データ数 - 1) = (6 - 1) = 5
自由度5におけるt分布の臨界値(有意水準 両側5%)は「2.57」である。(cf. 参考文献[13]) また、検定統計量tの算出に必要な変数値を以下に示す。「可食化への評価」から「可視化への評価」を引いた「差得点」を被験者ごとに算出した、差得点データに関する変数値である。 図4-17も参照されたい。
ここで、検定統計量tは、次のように求めることができる。ここでsqrt(x)とは、xの平方根を表す。
検定統計量 t = ((M - μ) / (s / sqrt(n - 1))) = 3.11
検定統計量t「3.11」が、臨界値「2.57」の外側にあることから、帰無仮説(H0)は棄却される。 従って、対立仮説(H1)が採択され、5%水準で平均点同士に有意差があると言える。
以上の結果に基づいて考察を行う。
一皿目(良いスパゲッティ)について、事前知識・評価基準が明確になっていないことから、評価にばらつきが見られると予想していたのだが、 評価結果【Q1】を見ると、さほどのばらつきが見られない。 確かに、実際に提供したスパゲッティは特段の欠点が存在していたわけでもないため、無難な評価を選ぶ被験者が多かったのだと考えられる。 自由記述欄にも「突飛したものがなく評価できない」といった言葉が見受けられた。 また、「好み」という言葉で表現されていたり、「お腹がすいていたのでおいしく感じた」など、被験者の嗜好や体調なども大きく影響を与えることがわかる。
評価結果【Q4-被験者全員】や【Q4-正答者】を見ると、評価のばらつきが大きいとわかる。 オリーブオイル量が「なし」になり、乾燥しやすく、まとまりやすいスパゲッティであるから、当初の予想では、悪い評価が与えられると考えていた。 しかし、そもそも「オリーブオイル量」に着目した被験者の割り合い(正答率)自体が低かったことや、正答していても評価のばらつきが大きいことから、 (もちろん、他の指標との組み合わせもあるが、)スパゲッティへの可食化において指標「オリーブオイル量」は不適切だったとも考えられる。
また、自由記述欄には「乾燥していてはしで持ち上げると周りも全部ついてくる」という趣旨の意見が見られ、予想通りの着眼を得たのだが、その被験者が選択した指標は「ゆで上げ後の待ち時間」であった。 オリーブオイルを使わない場合は乾燥しやすいスパゲッティになるが、ゆで上げ後の待ち時間が長い場合は乾燥したスパゲッティになる。 意味合いは異なるのだが、結果として現れる状態は、どちらも「乾燥したスパゲッティ」なのだ。指標同士が干渉を起こし、正しい判断ができなかったものと考えられる。
【Q6-被験者全員】や【Q6-正答者】、【Q8-被験者全員】や【Q8-正答者】の評価結果を見ると、 そのどちらも、ほとんどの被験者が悪い評価を与えていることがわかる。特に「ゆで具合のばらつき」の結果は顕著であろう。 従って、スパゲッティへの可食化において指標「ゆで上げ後の待ち時間」「ゆで具合のばらつき」は適切であったと考えられる。
当初の予想とほぼ一致し、ばらつきもなかったことから、指標「スパゲッティ料理名」によって印象(先入観)を付与できることがわかる。 ただ、この指標については試食評価を行なわず、名称への評価のみを実施したため、可食化の指標として有効であることを示すには、根拠が不足しているだろう。 今後の課題としたい。
その上で、自由記述欄の内容から抜粋して補足したい。高級感に関する言及が散見されることから、食感への影響も考えられるのではないだろうか。
【Q12】と【Q13】について、ばらつきは同じであったが、中央値を見ると、確かにプログラムの良し悪しと相関していることがわかる。 従って、可視化によってプログラムの良し悪しを判定できることが言える。 また、自由記述欄には、「メトリクス結果を見る気がしない。良し悪しが分からない」「数字だけからは何とも言えない」などといった意見が見られたが、 同時に「比較するものがないので。項目の意味が分からず、上の条件に合てはまるかわからない」という意見もあった。 事前に指標の意味を説明していないため、その数値を見たところで良し悪しが判定できないということである。 つまり、対象分野の知識を持つことを前提にしなければ、可視化ではその良し悪しを判定できないのだと考えられる。
ただ、どうして三段階評価にしてしまったのか、実施しておきながら後悔している。 可視化した情報から判別できる段階数は多くないだろう、と勝手に判断したことが間違っていた。これまでと同じように七段階で評価してもらうべきだっただろう。
評価結果【Q14】を見るに、「可視化」「可食化」両者の平均点には差があるように見える。 ただし、評価のばらつきによっては有意な差と言えないかもしれないため、統計的な仮説検定により実証することにした。 その結果、確かに有意差があると認められ、直感的な理解・認知において「可視化」よりも「可食化」が有効であることが示された。 つまり、当初の論旨を主張するための根拠が得られたと言える。
この設問に対する自由記述欄の内容については、総括で触れることにする。
ほとんどの被験者が同様の意見を呈していたのだが、その長短を含めて分かりやすくまとめられた意見があるので、そのまま引用したい。
可視化の方はパッと見ても標準が分からないので全然良いのか悪いのか分かりませんでした。“初学者”という対象を考えると、数で見る結果より、直接感じられる可食化が良いと思います。可食化は、人によって感じ方が違ったり、難しいところも多いと思いますが、直感的な理解にはとても効果的だと思います。
可視化(数値化)は、基準を与えなければ良し悪しを判断することができない。言い換えれば、基準を与えさえすれば(その指標の意味を理解していなくとも)その良し悪しを正確に判断できるのだ。 しかし、それは可食化とて同じことである。基準となるスパゲッティを知らなければ、結局のところ良し悪しを判断することはできない。 また、嗜好や体調によっても感じ方は異なり、安定した情報提示が必要となる場面では使い物にならないであろう。誤認識を生み出しかねない。
しかし、例えば不案内な分野(上の「初学者」で言えば「プログラミングの分野」)を理解しなければならない場合、最初から厳密・正確な把握が必要だろうか。まずはその概観を把握すべく、大雑把な理解に留めることもあろう。 その際に、いくら厳密で正確な指標値を見せられたとしても、その指標の意味を理解していなければ良し悪しも判断できず、何も意味を成さない。 そこで可食化を持ち出せばどうだろう。指標の意味や数値(指標値)の良し悪しを理解できなくとも、より身近な「食べ物」という存在を介して、大雑把に理解すれば良いではないか。
もちろん、今回の実験で指標同士の干渉が問題になったように、どのような状況でも一概に有効であるとは決して言えないが、それら制約を解消して利用するならば、可食化によって直感的な理解・認知を得られたこともまた事実である。 従って、当初の論旨と比較するとやや限定的ではあるが、直感的な理解・認知において「可食化」は有効な情報表現手段であると言えよう。