ブログ · 2022/02/09

Gradescopeの開発秘話：AIを活用した採点システムの設計原則 | ターンイットイン

The Turnitin Team

Sergey Karayev

Kevin Gutowski

デジタル採点の学習評価プラットフォームGradescope（グレードスコープ）は、教員の従来の採点業務が抱える課題を解決するために、採点作業をサポートする目的で開発されました。

具体的には、Gradescopeのご利用で下記を実現します。

・独自の試験問題の作成・採点
・他項選択式だけでなく、様々な問題形式や科目の採点に対応
・学生へのフィードバックの充実
・学生の学習傾向の把握に必要なデータを取得、カリキュラム改善に活用
・学生の学習状況の追跡
・課題作成から採点・フィードバック・返却までの採点ワークフローを今までの10倍の速さで実現
・採点や関連業務に要する時間を削減し、学生とのやりとりの時間を増やし、指導の改善に活用

これらを実現するために大きな役割を担うのが、AIを活用した採点システムです。AIを活用して学生の解答をグループ分けし、それらのグループをまとめて採点することができます。問題形式によっては、AIが自動的に学生の解答をグループ分けするので、時間を大幅に短縮できます。

このAIを活用した機能は、当社のAIチームとデザインチーム、ウェブ開発チームによって生まれたものです。この記事では、その開発動機と、チームの協働の指針となったAI製品設計の3原則についてご紹介します。

開発動機

AIを活用した採点システムというイノベーションを理解するために、まずはGradescopeの基本機能をおさらいします。Gradescopeは、PDF、オンラインテスト、ソースコード、マークシートなど様々な解答形式に対応していますが、ここではPDF形式の答案について説明します。

Gradescope活用の手順は以下のとおりです。

1. 最初に教員が試験問題のテンプレートをアップロードし、それぞれの質問の解答エリアを設定します。
2. 教員は、設定した解答エリアごとにルーブリックをつくりながら、答案の採点ができます。

解答エリアごとのデジタル採点は効率的で、紙の答案を採点するより大幅に時間を短縮できますが、まだ非効率な部分が残ります。それは、教員が同じ解答（別の学生によるもの）を何度も見る点です。もし大半の学生が正答を書いているなら、教員の時間の大半が、まったく同じ解答を見て、まったく同じ採点作業をすることに費やされます。
この無駄を解消するために、私たちは学生の手書き解答を認識するAIエンジンを開発しました。

これにより、Gradescopeは学生の解答を、内容ごとに自動的に分類できるようになりました。ただし、 AIは非常に高性能なテクノロジーですが、いまだ完璧ではありません。採点は教育のなかでも最も重要なタスクのひとつで、間違いを避けなければなりません。そのため、AIが分類した解答グループが完全に正しいかを教員が判断し、もし間違いがあった場合には簡単に修正できるようなユーザー・インターフェースが必要でした。そのインターフェースは、 AIによる分類結果を教員に分かりやすく伝え、教員が快適に、効率的に、気持ちよく作業できるようなものでなくてはなりません。そのために、私たちは次の3つの原則に従いました。

原則1：ユーザーに馴染みのある言葉を使う

初期バージョンのインターフェースでは、「Cluster（集団）」という用語を使用していました。AI用語で「Cluster」は、データを自動的にグループ分けする技術を指すので、まさに本製品が行っていることそのものでした。しかし、AI用語としては適切でも、本製品のユーザーにとって「Cluster」は馴染みのない言葉であることにすぐに気づきました。そこで代わりに「グループ」という単語を使用することにしました。意味的には同じですが、よりユーザーに馴染みのある単語を選びました。
これはAI製品の設計の第1原則「ユーザーに馴染みのある言葉を使う」に則したものです。ユーザーは製品の内部がどのような仕組みになっているかを知りたいのではなく、速くて機能的で使いやすいインターフェースを望んでいます。教員にとって最も身近な言葉を使用することで、その機能を迅速かつ効果的に活用できるようになります。

ユーザーに馴染みのない用語を使わないもうひとつの例は、うえの初期のバージョンのスクリーンショットに映っている「Autograde（自動採点）」という単語です。インターフェースの最終版ではこの単語をすべて削除するよう気をつけました。というのも、 GradescopeのAIは自動採点をしないからです。Gradescopeでは解答のグループ分けを支援するだけで、採点者が採点前にその分類を承認する必要があります。正確な用語にこだわることで、「教員の代わりになるのではなく、教員を支援する」 という私たちのミッションを表明できます。（多くの人が、AIが人間にとって替わると考えがちです）。

原則2：細部にこだわる

AIを活用した採点システムは複雑で、機械と人間がやりとりする場面が多くあります。最高のユーザー・インターフェースをつくるには、この複雑な機能を、シンプルで使いやすくする必要があります。どれだけ頭のなかで設計してみても、インターフェースを可能な限りシンプルにすることはできません。結局は、人々がそのインターフェースを実際に使う様子を観察し、欠点に気づき、改善していくしかないのです。そこで、AI支援の採点システムが使用できる状態になるとすぐに、 Gradescopeのユーザーにアルファテストをしてもらいました。私たちのオフィスはカリフォルニア大学バークレー校のそばにあるので、十数人のティーチング・アシスタントや教員がランチ休憩の合間にオフィスを訪れてくれました。私たちはユーザーの隣に座って、かれらが新しいインターフェースを試すのを黙って観察しました。かれらが説明のポップアップを完全に無視してしまう様子を見ては、がっかりしました。明らかに見えているはずのボタンを苦労して探す姿を、もどかしく見ていました。キーボードのショートカットを使おうとして失敗していることに気づきました。

私たちが取り組んでいるのは、未分類の解答を適切に分類するためのインターフェースです。アルファテストの結果すべてが、改善のための知見を与えてくれました。その結果をふまえて、数え切れないほど多くの改良を加えました。たとえば、次のような点にこだわりました。

・未分類の解答を、任意のグループにドラッグで移動できる（ほぼすべてのユーザーがこの操作を直感的に行っていた）
・解答のズームレベル（拡大率）を容易に調整できる（複数の解答をグリッド表示で見たいユーザーもいれば、1枚ずつ確認したいユーザーもいた）
・ズーム操作、ナビゲーション、解答のグループ分けを、キーボードのショートカットでできる

それぞれがちょっとした機能で、重要なものではありません。しかし、それらが組み合わさると、直感的で洗練された、使い心地のよいインターフェースになり、ユーザーが安心して使用することができます。これらのこだわりから、私たちが本当に大切にしているものや、ユーザー目線で製品開発にあたっていることが分かるでしょう。

原則3：ユーザーとAIの両方に有益なインタラクション（相互作用）

GradescopeのAIによって分類されたグループをユーザーが確認するとき、ユーザーとAIの間にインタラクション（相互作用）が生まれます。そのインタラクションは、当然、快適なものであるべきです。しかし、もっとも重要なのは、ユーザーにとって有益であることです。そのため、私たちの製品に搭載されるのは、ユーザー体験に大きな変化をもたらすのに十分なAIエンジンだけです。
たとえば、ユーザーに過度な負担をかけずに、大幅な時間短縮につながるようなAIエンジンです。

私たちのAIは完璧ではないからこそ、ユーザーが素早く効率的にその間違いを正すことのできるインターフェースを徹底して追求しました。そして、ユーザーがAIの間違いを正すと、AIにとってもプラスに働きます。つまり、ユーザーがAIの結果を修正すると、そこからAI自体が学ぶことができるのです。昨今のAIソフトウェアは大量のデータ（たとえば、手書き文字の画像と、それに対応する文字表示）から機械学習をします。データが多ければ多いほど、AIの学習が進みます。

まとめ

役立つデータが生まれ、それらが正しい場所に保管され、最終的にAIの成長に活用されるようにユーザーインタラクションを設計していくために、引き続きデザインチーム、ウェブ開発チーム、 AIチームによるチームワークと多大な努力が必要です。今後も、教員の作業の効率化をしっかり支援していけるように、より良い使いやすさを追求し、これらの3原則を大切にして、Gradescope とAIの強化と開発に取り組んでいきます。

【無料ダウンロード】学習評価について知っておくべきこと〜Turnitin による「誠実な学習評価」への手引き〜