GPT-3の预售訓練生成モデル – 中国語 – 13B

この記事は約6分で読めます。

タイトル:GPT-3中国語13Bパラメーター量テキスト生成モデル

モデルの説明
GPT-3モデルは、一般的な预售訓練生成モデルで、TransformerのDecoder-only構造を使用しています。これにより、ダウンストリームの様々な生成タスク、特にzero-shot生成能力を解決できます。モデルは大量の無標識データを用いて、自帰帰的任務を通じて预售訓練されます。テキスト生成に関連するタスクには、テキスト要約、質問生成、data-to-textなどが含まれます。

デモ体験は、右側をクリックしてAIライター創空間に進入してください!!

モデルの詳細
GPT-3モデルはTransformerのDecoder構造を使用し、いくつかの変更を加えています。元々のDecoderには2つのMulti-Head Attention構造が含まれていますが、GPT-3はMask Multi-Head Attentionだけを残しました。通常の言語モデリングの最適化を通じて、左から右への自帰帰的预售訓練を行います。このモデルはGPT-3のコードをベースに、中国語の無標識データとダウンストリームタスクデータを組み合わせて预售訓練され、さまざまなパラメーターのモデルをトレーニングしましたが、ここではGPT-3 Baseモデルを紹介します。GPT-3モデルの詳細については、Language Models are Few-Shot Learnersを参照してください。

このプロジェクトでは、異なる規模の中国語GPT3モデルのシリーズを再現しましたが、base/large/1.3B/2.7B/13B/30B/175Bなど、このモデルはその13Bのバージョンです。すべてのバージョンは以下の表の通りです。

モデル レイヤー ヘッド d_model LR バッチ
base 12 12 768 6.0e-4 0.5M
large 24 16 1024 3.0e-4 0.5M
1.3B 24 32 2048 2.0e-4 2M
2.7B 32 32 2560 1.6e-4 2M
13B 40 40 5120 1.0e-4 6M
30B 48 56 7168 1.0e-4 6M
175B(進行中) 96 96 12288 1.2e-4 6M

モデルの使用方法と適用範囲
このモデルは直接テキスト生成に使用でき、またファインチューンを通じて各種のテキスト理解タスクにも使用できます。ユーザーはさまざまな入力文を試してみることができます。具体的な呼び出し方はコードのサンプルを参照してください。

使用方法
モデルのサイズが大きいため、ダウンロードは現在サポートされていませんが、右側のデモを使用してテスト体験ができます。

モデルの限界と可能性のあるバイアス
モデルはデータセットでトレーニングされ、生成結果に一定のバイアスが生じる可能性があります。

トレーニングデータの紹介
トレーニングデータには、中国語のウィキペディアやインターネット上の公開テキストデータが含まれています。

モデルのトレーニングプロセス
このモデルのトレーニングは2つの段階に分かれています。第一阶段では、元のGPT3のパラメーター設定を厳密に遵守して、中国語wiki/Common crawlなどの無標識データで約300B字の自帰帰的トレーニングタスクを行います。第二段階では、多种の有標識データを加えてトレーニングし、モデルが多种のタスクのzero-shot処理能力を備えるようになります。

前処理
なし

トレーニング
なし

推論加速
私たちは大規模生成モデルの推論速度を極めて最適化しており、13Bモデル128字のテキスト生成は約1秒で完了できます。

データ評価および結果
ページ右側のオンラインテストでこのモデルの生成効果を体験いただけます。テストテキストを入力し、テストを実行してください。設定可能な2つのパラメーターがあります:

max_length:最大長設定、入力と出力を合わせた総最大長
top_k:サンプリングデコード生成の設定パラメーターで、現在の生成が語彙表のtop_kからサンプリングするよう設定し、その値が大きいほどモデル生成の多様性が豊かになりますが、同時に関連性と正確さは下がります。

モデルは作文生成、コード生成、小説続き書き、詩詞生成などに適用できます。以下にいくつかのモデル結果の例を示します:

作文生成
入力:《私の故郷杭州》というタイトルで作文を書いてください

出力:私の故郷は杭州です。「上有天堂、下有蘇杭」杭州は「人間天国」の美称を持ちます。杭州には西湖、京杭大運河、霊隠寺、西渓湿地など多くの有名な観光スポットがあります。
西湖のことを言えば、必ず杨贵妃と王羲之の名句「欲把西湖比西子、淡妆濃抹総相宜」を思い浮かべます。白娘子と許仙は西湖で出会い、今は西湖周辺の観光スポットが愛の象徴となっています。西湖は毎年多くの人々が訪れますが、西湖の美しい風景についていくつかの欠点も指摘されていますが、例えば西湖のゴミが多すぎたり、水質が悪くなったりなどです。
あなたに杭州のどこが好きかと聞かれたら、私は迷わずに答えます。「私は西湖が大好きです。」西湖の美しい風景を楽しみたいなら、昼間は曲苑風荷や蘇堤を選び、荷の香りのする新鮮な空気を吸いながら西湖の美しい風景を楽しみ、心を解放することができます。夜分遅くには白堤、蘇堤、楊公堤で遊覧船に乗って、遊覧船が進むにつれ西湖の様々な観光スポットが目に入ります。元々石で作られた西湖は、今はセメントと石で作られた水上の街と化していますが、心を慰めることができます。
西湖は景色が美しいだけでなく、美味しい軽食や特産品もたくさんありますが、その中で西湖の蓮根粉が私の大好きです。朝に西湖の蓮根粉を飲みますと、食欲をそそりながら健康にも良いです。あなたが私の故郷杭州に来たら、必ずあなたを連れて行ってあげますよ!

コード生成
入力:pythonのクイックソートコードを書いてください

出力:
python3
class Solution:
def quicksort(self, nums: List[int], l: List[int], r: List[int]) -> List[int]:
if r == l:
return nums
def quick_sort(l, r):
i = l-1
j = r+1
pivot = nums[l]
while i < j:
while nums[j] < pivot and i < j:
j -= 1
while nums[i] >= pivot and i < j:
i += 1
nums[i], nums[j] = nums[j], nums[i]
nums[i], nums[r] = nums[r], nums[i]
if i > r:
quick_sort(l, i-1)
elif i < r:
quick_sort(i+1, r)
quick_sort(0, len(nums)-1)
return nums

会社名:株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI
Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
DolphinSOE 英語発音評価サービスの開発&販売
DolphinVoice 音声対話SaaS Platformの開発&販売

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp

タイトルとURLをコピーしました