DALL・E2とは何ですか？初心者向けに事例を交えて解説

Windows Speedup Tool をダウンロードしてエラーを修正し、PC の動作を高速化します。

からと2ですクリップシステムテキスト情報をビジュアルに変換します。これはエンコーダ/デコーダのパラダイムであり、入力テキストが提供されると、まずマシン入力に変換され、次にシステムによって処理され、最後にデコーダに供給され、エンコードされたデータが画像に変換されます。

DALL・E2とは何ですか？

これは、フレーズを使用してまったく新しいビジュアルを生成する生成言語モデルである DALL·E の最新世代です。 DALL・E 2 は、GPT-3 ほどではありませんが、パラメーターが 3.5B ある巨大なモデルです。興味深いことに、前駆体 (12B) よりも軽量です。描写の調整とフォトリアリズムでは、サイズが大きいにもかかわらず、DALL・E 2 が DALL・E +70% の確率で人間の審査員に支持されています。

DALL.E 2 - 初心者向けに例を示して説明

具体的には、DALL・E 2 は、自然言語処理のための深層学習と画像生成のためのコンピュータービジョンを組み合わせた階層型テキスト条件付き画像合成モデルです。その目的は 2 つのモデルをトレーニングすることであり、トレーニングセットはペアの画像と説明で構成されます。 1 つ目は事前分布であり、書かれたキャプションが与えられると、CLIP 画像の埋め込みを生成するようにトレーニングできます。次に、CLIP 画像の埋め込み (および、提供されている場合はキャプション) が与えられると、トレーニングされた画像を生成できるデコーダーがあります。

DALLE 2 は、Web から取得した数億枚のキャプション付き写真を使用してトレーニングされ、これらの写真のいくつかは削除され、モデルが学習する内容を変えるために再重み付けされます。画像の複数のバリエーションを取得しますクリップの埋め込みそしてそれを使用しますデコーダそれらを一つ一つ確認していきます。次に、ユーザーからの入力を念頭に置きながら、これらすべての情報の興味深い混合物を作成します。

DALL・E2の例

DALL・E を理解するためにちょっとしたゲームをしてみましょう。以下の3つのステップに分けて考えてみましょう。

虹、雲、そして青空を飛ぶユニコーンをイメージしてください。頭の中でその絵がどうなるか想像してみてください。人間は、埋め込まれた画像の完璧な類似体に最も近いものであり、あなたの頭に浮かんだ画像はその完璧な例です。最終製品については推測することしかできませんが、何を含めるべきかについては十分なアイデアを持っています。事前モデルは、読者をフレーズ内の単語から心の中の情景へと導きます。
今すぐスケッチを始めることができます。 unCLIP が行うことは、頭の中にあるイメージを実際のスケッチに変換することです。同じ説明から、同じ基本特性を持ちながらまったく新しいビジュアルスタイルを持つ別のキャラクターを正確に再作成できるようになりました。 DALL・E 2 は、この方法で既存の画像埋め込みから独自の画像を生成することもできます。
作成したスケッチを観察します。これは、「背景の空に虹が昇る、雲の真ん中にいるユニコーン」という描写をスケッチすると何が起こるかです。次に、画像とテキストを調べて、どちらがもう一方 (太陽、家、木など) をよりよく表しており、どちらがアイテム、スタイル、色などを最もよく表しているかを判断します。CLIP が行うのは、特性をエンコードすることです。文章と絵のこと。

DALL-E とは何かを理解したところで、次のセクションに進み、その機能を理解しましょう。

ヒント:DALL-E-2 AI サービスを使用してリアルな画像を作成する方法

DALL・E2の特長

DALL・E 2の特長は以下の通りです。

バリエーション
修復
テキストの差分

それらについて詳しく話しましょう。

1]バリエーション

DALL・E 2 は、単なる文章から画像への翻訳を超えています。 OpenAI は、CLIP の堅牢な埋め込みにより、特定のキャプションに対してさまざまな結果を作成することで生成プロセスを実験できます。 CLIP が「頭」で「認識」しているのは、入力から重要なもの (画像間で同じまま) と、交換できるもの (画像間で変化する) であると考えています。可能な限り、DALL・E 2 は「意味論的な情報と美的側面」の両方を保持します。

2]修復

DALL・E 2 は、自動修復を使用して既存の写真を変更できます。次の例では、左側の写真はオリジナルですが、中央と右側の写真にはさまざまな位置にアイテムがペイントされています。 DALL・E 2 は、追加アイテムを画像のスタイルに合わせます。また、新しいアイテムを反映するためにテクスチャと反射も更新されます。

読む:ChatGPTでできること

3]テキストの差分

DALL・E 2 はテキストの差分を使用して画像を変換します。 DALL・E 2 には高度な補間機能もあり、オブジェクトの変更が可能です。 Twitter ユーザーの 1 人は、自分の iPhone を「Unmordenize」することができました。ツイッター.comそれを確認するために。

これらの機能が気に入ったら、次のサイトにアクセスするだけです。openai.comそしてサインアップしてください。新しいアカウントを作成するか、既存の Microsoft アカウントまたは Google アカウントを使用してサインアップできます。これを行うと、いくつかの無料クレジットを取得できますが、それ以上が必要な場合は、料金を支払う必要があります。

これらは DALL·E 2 の機能の一部であり、多くの優れた使用例がありますが、AI ツールにあまり依存しないことを常にお勧めします。結局のところ、それらは仕事を遂行するために使用されるツールにすぎず、人間の心の知性を置き換えることはできません。

こちらもお読みください:最高のディープフェイクアプリ、ソフトウェア、ウェブサイト。