用語集

データ集約

Aggregation

特定の個人が識別される可能性を低くするために、さまざまなソースや時間からデータを組み合わせること。

拡張

Augment

機械、ソフトウェア、機能が、個人の能力または可能性を維持して拡張すること。

自動化

Automate

機械、ソフトウェア、機能が、ユーザーの関与なしにタスクを実行すること。

二項分類

Binary Classification

2クラス分類とも呼ばれる。サンプルが特徴量にもとづいて、あるカテゴリに分類されるか、もうひとつのカテゴリに分類されるかを、機械学習モデルが予測すること。

分類

Classification

機械学習モデルがオブジェクトを識別すること。識別すべき質問への答えとして、もっともシンプルな分類は「はい」と「いいえ」である。たとえば、モデルに猫の写真が提示されたとき、「猫」または「猫じゃない」として分類できる。より複雑な分類では、アイテムをいくつかのグループのいずれかに分類する。

確信度、モデルの確信度

Confidence Level, Model Confidence

モデルの確信度とは、予測または出力がどのくらい確実であるかの統計的な尺度のこと。

コンテキストエラー

Context Errors

ユーザーの現在のコンテキストにおいて、プロダクトの出力が意味を成さない状況のこと。多くのとき、この出力は関係がないとユーザーに認識されている。

反事実

Counterfactuals

任意のものが、与えられた分類のなかにはないとされる理論的な根拠。望ましい結果になるためには、世界がどのように異なっているべきか、という文の形を通常はとる。

データ収集とラベリング

Data Collection and Labeling

プロダクトチームが必要なデータをどのように入手し、どのようにして意味のあるラベルをつけるか。たとえば、「猫」または「犬」と正しくラベルづけされた、何百万という猫や犬の画像を集める。

データ分布

Data Distribution

データセット内の特定の値の頻度を示す。たとえば、データ内には、特定の値の数が多く、その他の値の数が少ないことがわかる。通常は「正規」分布か、またはガウス曲線に従う。

データサンプル

Data Examples

データセット内の行、またはデータの特定の部分。靴の写真やランニングルートなど。

データ特徴量

Data Features

観察できる実体の、測定できる個々の属性または特性のこと。特徴量は、有益で、識別力があり、独立している必要がある。

データラベル

Data Labels

1つのデータまたはサンプルに対して、人間が追加した説明。

明示的なデータ収集

Explicit Data Collection

フィードバックフォームのように、ユーザーに情報を明示的に要求すること。

明示的なフィードバック

Explicit Feedback

アプリ内で、ユーザーに要求した情報のこと。たとえば、評価システム、レビュー要求、フォーム、アンケートなど。

偽陰性

False Negatives

機械学習アルゴリズムが、オブジェクトを特定のカテゴリに属していないと分類したが、実際にはそのカテゴリに属していること。たとえば、スニーカーを探していて、スニーカーの本当の写真がいくつも返されないとき。

偽陽性

False Positives

機械学習アルゴリズムが、オブジェクトを特定のカテゴリに属すると分類したが、実際にはそのカテゴリに属していないこと。たとえば、アルゴリズムがスニーカーをラマとして誤った識別をしたとき。

特徴量

Features

予測や出力に影響を与える明らかなデータソースまたは機械学習の計算結果。

フォーク定理

Folk Theories

既存のメンタルモデルと仮定にもとづいて、プロダクトがどのように動いているかを考えること（そしてたいていは誤っている）。

システム全体の説明

General System Explanations

システム全体の機能の説明。すなわち、システムが、入力をどのようになぜ使って、その出力を生成するか。

ヒューリスティックベース

Heuristic-Based

静的なif-then関数にもとづくこと、または状況と結果のペアのルールにもとづくこと。特定の状況が起こると、ソフトウェアは毎回特定の結果を出す。

暗黙的なデータ収集

Implicit Data Collection

受動的にユーザに関する情報を集めること。通常はログの記録による。

暗黙的なフィードバック

Implicit Feedback

アプリケーションまたはプロダクト内で、ユーザーのインタラクションから収集されたユーザーの行動、好み、およびニーズに関する情報。通常はログの記録による。アプリのなかで人々が何をしているかの記録。

検者間信頼性

Inter-rater Reliability

判定者間一致、または協力関係とも呼ばれる。同じタスクをしている異なる評価者のあいだにある、多くの合意のスコアのこと。

ラベリング/ラベル

Labeling/Labeled

ラベルとは、人間がデータに付与したもの、またはユーザーの行動から導き出されたもの。たとえば、写真に「スニーカー」というラベルをつけたり、ルートを「起伏のある」としてラベルをつけたりします。

機械学習モデル

ML Model

未来の予測をするために、サンプルのあいだの統計的関係を学習する数学的アルゴリズム。

機械学習

Machine Learning

とても詳細なルールなしでタスクを実行するように、コンピュータをプログラムするための技術と手法。機械学習は、機械がパターンを認識できるようにし、新しい状況に適応できるようにする。

機械学習（ML）システム

Machine Learning (ML) Systems

とても詳細なルールでプログラムすることなく、コンピュータに何かをさせることによって、AIを開発するための技術と手法。機械学習は、機械がパターンを認識できるようにし、新しい状況に適応できるようにする。

メンタルモデル

Mental Model

何か仕組みについてのユーザーの内面の説明。それは、ユーザーがプロダクトや機能とどのようにインタラクションするかを形づくり、価値を知覚させる。

N-Best、N-Best分類、N-Bestリスト

N-Best, N-Best Classifications, N-Best Lists

特定の数「n」個の、上位の解決策またはレコメンドを表示すること。たとえば、画像検索の上位5件の表示など。

ネットワーク効果

Network Effect

ある人の人間関係の大多数が、あるプロダクトまたはサービスを使っている（または使っていない）ことを理由に、その人がそのプロダクトまたはサービスの使用を開始（または停止）すること。

過学習

AugmOverfittingent

機械学習モデルの使用目的よりも狭いトレーニングデータセットに対してモデルの予測検出力が最適化されていること。

部分的説明

Partial Explanations

システムの仕組みのある側面を説明するメッセージ。理想的には、ユーザーにとって、もっとも重要な側面になっていること。

精度

Precision

可能性のあるすべての実体（正しい答えと誤った答え）のうち、関連する実体（正しい答え）の割合。

予測検出力

Predictive Power

機械学習モデルが、特定の入力を与えられたとき、その結果を正しく予測する能力を示すパーセンテージ。予測検出力100のモデルは毎回正しい予測をする。0は純粋にランダムになる。

確率的

Probabilistic

複数の取り得る結果があり、それぞれの発生の確実性の度合いが異なる状況のこと。

段階的な開示

Progressive Disclosures

後続の画面またはインタラクションでより多くの情報が明らかになる、UXの実践方法。

定性的なフィードバック

Qualitative Feedback

特定のエクスペリエンスについて、ユーザーがどのように感じるかの数値以外のフィードバック。満足度、幸福、口頭での反応、または他の質的なものの、尺度を含む。

定量的なフィードバック

Quantitative Feedback

数値、または数値に変換されたフィードバック。暗黙的および明示的なフィードバックのメカニズムは、いずれも定量的なものになり得る。このフィードバックは、チューニングのためにモデルに戻すことができる。

評価者

Raters

機械学習アルゴリズム、とくに教師つき学習モデルのトレーニングに使うデータに、ラベルをつける人々。

再現率

Recall

関連する実体の合計数（正しい答えを正しく識別している）に対して、取得された関連する実体（正しい答え）の割合。

墨消し

Redaction

データセットまたはプロファイルの一部を削除して、そのデータプロファイルからひとりのユーザーを識別される可能性を低くすること。データの特定の特徴量を墨消しして、データプロファイルを小さくしたり、特定の期間のサンプルを墨消ししたりする。

回帰

Regressions

線形回帰アルゴリズムとも呼ばれる。グラフ上のデータ点の散らばりに最適な直線を見つけることを試みること。新しいデータ点が時間の経過とともに現れると、アルゴリズムは直線をフィットするように調整する。

報酬関数

Reward Function

機械学習アルゴリズムが出力を最適化するために使用する数式。この関数は、いくつかの結果を他の結果よりも重く評価し、特定の出力に最適化する。

二次効果

Second-order Effects

時間の経過にともなう累積や出力や行動によって、追加の予期しない結果が生じること。

特定の出力の説明

Specific Output Explanations

システムが特定の入力にもとづいて特定の出力に到る理由の説明。

教師あり学習

Supervised Learning

学習データにもとづいてアルゴリズムを「教える」こと。多くの場合、これは「正しい」答えと「間違った」答えを示すために人間が手動でラベルをつけたサンプルにもとづいている。

テストデータ

Test Data

機械学習モデルの予測が、これまで学習したことがないデータに対しても機能することを確認するためのテストに使用するデータセット。

トレーニングデータ

Training Data

どの出力がどの入力に対応するかを機械学習モデルに教えるために使用するデータセット。

透明性

Transparency

プロダクトの動作、含まれているデータソース、利用規約、プライバシー、許諾、システム出力の根拠といったものに関する情報を提供すること。

真陰性

True Negatives

機械学習アルゴリズムがオブジェクトを特定のカテゴリに属さないものとして分類し、それが実際にその特定のカテゴリに属さないこと。たとえば、ラマを「スニーカーではない」と正しく分類したとき。

真陽性

True Positives

機械学習アルゴリズムがオブジェクトを特定のカテゴリに属するものとして分類し、そのオブジェクトがそのカテゴリに属していること。

チューニング

Tuning

開発者が、フィードバックやエラーにもとづいて機械学習アルゴリズムを調整して、精度とパフォーマンスを向上させること。

未学習

Underfitting

より多様なデータセットに対してモデルの予測検出力が低いこと。

リソース

このガイドブックについて

#pairguidebook

このウェブページは、Google の People + AI Guidebook の2019年6月12日時点での最新版を羽山祥樹（@storywriter）が私的に日本語訳したものです。正確な内容については、原文（英語）をご参照ください。この翻訳には誤りが含まれていることがあります。