ホーム サービス 対応エリア FAQ 会社情報 ブログ 採用情報 キャリアパス カルチャー

複数のLPで広告配信のABテストを行う場合、3日間だけの実施でもよいか?LP ABテストに必要な期間・サンプルサイズの実践ガイド【2026年版】

「複数のランディングページ(LP)を用意して、広告配信でABテストをしたい。とりあえず3日間だけ回して、勝った方に寄せてしまってよいか?」——運用型広告の現場で非常によく出てくる質問です。結論から言うと、原則として3日間だけの実施は短すぎることが多く、おすすめできません。ただし「絶対にダメ」と断言するのも正確ではありません。テストを結論づけてよいかどうかは、『日数』そのものではなく、各LPにどれだけのコンバージョン(CV)数・サンプルが貯まったか、曜日の偏りを打ち消せているか、配信初期の学習が落ち着いているかで決まるからです。

本記事では、LPのABテストを「何日間回せばよいか」という疑問に対し、必要なCV数・サンプルサイズ・統計的有意水準・曜日や時間帯の偏りという観点から、なぜ3日間が危険になりやすいのかを実務的に解説します。さらに、必要サンプルサイズの考え方(あくまで概念・例として)実務的な最低ラインの目安(各LP1〜2週間/7日の倍数で曜日を揃える)CVが少なくてテストが回らないときの工夫(マイクロCV・上位指標での代替)ABテスト設計の実務フローよくある失敗、そしてFAQ10問までを、2026年6月時点の情報をもとに中立・実務的なトーンで一気通貫にまとめました。なお本記事に登場する統計の数値はすべて「概念・例」であり、実際の必要数は自社データとサンプルサイズ計算で確認することを前提にしています。

01 LPのABテストとは(広告配信での前提整理)

本題に入る前に、「複数のLPを広告配信でABテストする」とは具体的に何を指すのかを整理します。ここがあいまいなまま「3日でいいか?」と考えると、議論が噛み合いません。LPのABテストとは、同じ広告(同じ訴求・同じ予算・同じターゲット)から、複数の異なるランディングページへ訪問者を振り分け、どのLPが最も成果(CVR=コンバージョン率など)が高いかを比較・検証する取り組みです。広告クリエイティブのテストではなく、クリック後に着地する「受け皿」を比べるのが目的になります。

本記事のスタンス:LPのABテストに「必ず◯日でよい/ダメ」という固定の正解はありません。最適な期間は1日あたりのCV数・LP間のCVR差の大きさ・商材の曜日特性・配信規模によって変わります。本記事は「3日間は短すぎることが多い」という原則を示しつつ、その理由を統計と運用の両面から説明し、最終的には『日数ではなくサンプルと曜日で判断する』という考え方を持ち帰っていただくことを目指します。登場する数値はすべて概念・例であり、実際の必要数は自社データで確認してください。

1-1. 広告側でのLPローテーション/LPO

広告配信でLPを比較する方法は、大きく分けて2つの発想があります。1つは広告媒体側で複数のリンク先URLを設定し、ローテーション配信する方法。もう1つは1つのURLに着地させ、ツール側(サーバー側・クライアント側)で訪問者をA・Bに振り分ける方法です。後者は一般にLPO(ランディングページ最適化)ツールなどで行われます。

どちらの方法でも、テストの本質は「同条件で振り分け、十分なサンプルで比較する」ことです。振り分けが偏っていたり、計測が混ざっていたりすると、期間をいくら長くしても正しい結論は出ません。「3日でいいか?」を考える前に、まず振り分けが均等か・計測がLPごとに正しく分離されているかを確認するのが大前提になります。

1-2. 媒体機能とABテストツールの違い

注意したいのは、広告媒体のローテーション配信は、媒体の最適化アルゴリズムが成果の良い方へ配信を自動的に寄せることがある点です。これは配信効率の面では合理的ですが、「純粋なAB比較」という観点では、両LPに均等な機会が割り当てられないため、統計的なテストとしては不正確になりがちです。

方法 特徴 純粋なAB比較への向き
媒体のローテーション配信 手軽。ただし最適化が片方へ配信を寄せることがある 均等配信に設定しないと不正確になりやすい
ABテスト/LPOツール ツール側で均等振り分け・計測分離ができる 統計的なAB比較に向く

厳密にCVRを比較したいなら、配信を均等にする設定にするか、専用ツールで振り分ける方が安全です。逆に「とにかく成果の良い方に配信を寄せたい」だけなら媒体の最適化に任せる選択もありますが、その場合は「テスト」ではなく「最適化」であり、得られる結論の性質が変わる点を意識しておきましょう。LPの改善PDCA自体の進め方は、LPO×広告運用の考え方も参考になります。

※ 媒体ごとの機能名・挙動は2026年6月時点の一般的な傾向の目安です。最新仕様は各媒体のヘルプをご確認ください。

02 【結論先出し】3日間で十分か?

結論を先に述べます。複数LPのABテストを「3日間だけ」で結論づけるのは、多くのケースで短すぎます。ただし、それは「3日という日数が一律にダメ」だからではなく、3日間という短さが(1)十分なCV数・サンプルを集めにくい、(2)曜日の偏りを排除できない、(3)配信初期の学習が安定していないという3つの問題を同時に抱えやすいからです。

結論:原則「3日間は短すぎる」。LPのABテストを結論づけてよいかは、日数ではなく「各LPに統計的に判断できるだけのCV数・サンプルが集まったか」「曜日が一巡したか(7日の倍数)」「配信初期の学習が落ち着いた後か」の3点で決まります。CV数が非常に多くLP間の差が大きい大規模配信なら短くても傾向が見えることはありますが、その場合でも最低1サイクル(7日)は回して曜日バイアスを排除するのが安全です。あくまで一般的な目安であり、最終判断は自社データとサンプルサイズ計算で確認してください。

Q. 複数LPのABテスト、とりあえず3日間回して勝った方に寄せようと思うんですが、ダメですか?
A.
気持ちは分かりますが、3日だとCVが数件しか貯まらないことが多く、その差が実力なのか偶然なのか判断できません。しかも3日だと特定の曜日(たとえば火・水・木)に偏るので、週末に強いLPを見落とすリスクもあります。配信初期は機械学習の最適化も安定していません。まずは「各LPに何件のCVが必要か」をサンプルサイズの考え方でざっくり見積もり、最低でも曜日が一巡する7日(できれば14日)を一つのラインにしましょう。CVが少ない案件なら、フォーム到達率など上位指標(マイクロCV)で判定する手もあります。

つまり「3日でよいか?」という問いは、本質的には「3日で十分なサンプルが集まり、曜日が一巡し、学習が安定するか?」という問いに置き換えるべきです。そしてほとんどの案件で、3日ではそれらを満たせません。以降の章で、その理由と「では何を基準にすればよいか」を具体的に掘り下げます。

03 テスト期間を決める3要素

LPのABテスト期間は、感覚で「だいたい1週間」と決めるのではなく、次の3つの要素から逆算して考えます。この3要素が揃って初めて、結論を出してよい状態と言えます。

必要CV数(各LPに十分なCVが貯まるか)
サンプルサイズ・有意水準(差が偶然でないか)
曜日・時間帯の偏り(バイアスを打ち消せるか)

3-1. 要素①:必要CV数

ABテストの判定は、最終的には各LPのCVR(CV数 ÷ 訪問数)を比べることで行います。CV数が少ないと、CVRの数字が1件のCVで大きく揺れてしまい、安定しません。たとえば訪問100でCVが2件なら2%、3件になっただけで3%と、1件で1.5倍に跳ねます。これでは「Aが勝った」と言っても説得力がありません。各LPに十分なCV数が貯まることが、判定の前提になります。

3-2. 要素②:サンプルサイズと有意水準

サンプルサイズは「各パターンにどれだけの訪問・CVが集まったか」という量、有意水準は「観測された差が偶然ではないと言える確からしさの基準」です。実務では有意水準95%(=偶然でこの差が出る確率が5%以下)がよく使われます。差が小さいほど、それを「偶然ではない」と言い切るには多くのサンプルが必要になります。この関係を理解せず、少ないサンプルで「有意差あり」と判断すると、誤った結論を出しやすくなります。

3-3. 要素③:曜日・時間帯の偏り

3つ目が見落とされがちな曜日・時間帯のバイアスです。多くの商材で、平日と週末、昼と夜でユーザー層やCVRが変わります。テスト期間が短いと、特定の曜日・時間帯に偏ったデータで判断してしまい、別の曜日では結果が逆転する、ということが起こります。これを打ち消すには、少なくとも曜日が一巡する期間(7日)を確保する必要があります。

要素 満たせていないと起きること 対処の方向性
① 必要CV数CVRが1件のCVで大きく揺れ、判定が不安定各LPに十分なCVが貯まるまで待つ/上位指標で代替
② サンプル・有意水準偶然の差を実力差と誤認するサンプルサイズ計算で必要数を見積もる
③ 曜日・時間帯特定曜日のクセで結論が偏る/逆転する7日の倍数で回し曜日を揃える

※ 上表は一般的な考え方の整理であり、具体的な必要数・期間は商材とCV数により変わります。2026年6月時点。

04 なぜ3日では危険なのか

前章の3要素を踏まえると、なぜ「3日間だけ」が危険なのかが具体的に見えてきます。本章では、3日テストが陥りやすい4つの落とし穴を整理します。

4-1. 曜日バイアスを排除できない

3日間(たとえば火・水・木)のテストは、平日の特定の傾向しか拾えません。BtoBであれば週末はCVが激減することが多く、逆にBtoCの一部商材は週末や平日夜にCVが伸びます。3日だけ回して「Aが勝った」と判断しても、それは「その3日の曜日構成では」という条件付きの結果にすぎません。金・土・日の3日なら、今度は週末バイアスがかかります。曜日を一巡(7日)させない限り、曜日の影響を比較から取り除けないのです。

4-2. サンプル不足によるノイズ(数字のぶれ)

3日間ではCV数が少なくなりがちで、少数のCVによるノイズが結果を支配します。前述のとおり、CVが2件か3件かで数値が大きく動くような状態では、観測されたCVR差のほとんどが「たまたま」で説明できてしまいます。サンプルが少ない序盤ほど、勝ち負けが日替わりで入れ替わるのは、実力差ではなくノイズが大きいからです。

4-3. フロック(偶然)の早期判定

3日テストで最も危険なのが、偶然の差(フロック)を実力差と誤認して早期に判定してしまうことです。サンプルが少ない序盤は数字が大きくぶれるため、「今Aが勝っている」という瞬間が偶然に生まれます。そこで打ち切ると、本当はBの方が優れていたのに、たまたま勝っていたAを採用してしまう——という誤りが起こります。これは「覗き見問題(peeking)」とも呼ばれ、サンプルが貯まる前に何度も結果を見て早期終了することのリスクとして知られています。

注意:「3日見て勝っている方を採用」は、上記のフロックを実力と取り違える典型パターンです。とくに、テスト開始後に何度も管理画面を覗き、「有意差が出た瞬間」で止めると、偶然有意に見えただけの差で誤った結論を出すリスクが高まります。あらかじめ必要サンプル数と期間を決め、それに達するまで判定を保留するのが、誤判定を避ける基本動作です。期間を固定してから開始する設計が、早期判定の誘惑そのものを防ぎます。

4-4. 配信初期の学習が安定していない

運用型広告は、配信開始直後は媒体の機械学習が最適化の途中段階にあり、配信先・入札・表示の傾向が安定しません。この不安定な初期データでLPを比較すると、LPの良し悪し以前に、配信側の揺らぎが結果に混ざります。学習が落ち着くまでに一定期間(一般に数日〜1〜2週間が目安と言われます)かかるため、その途中である3日時点のデータは、LP比較の材料としても不安定になりがちです。機械学習の挙動と付き合い方の基礎はGoogle広告の機械学習の仕組みでも解説しています。

05 必要サンプルサイズの考え方

「では各LPに何件のCV・どれだけの訪問が必要なのか?」を見積もるのが、サンプルサイズの考え方です。ここで扱う数値はすべて概念・例であり、実際の必要数は自社のCVRを当てはめてサンプルサイズ計算ツールで確認することを前提とします。

5-1. 必要サンプルを決める4つのインプット

必要なサンプルサイズは、おおむね次の4つから決まります。これらは概念であり、具体的な数式の暗記より「何が必要数を増やすのか」の感覚をつかむことが実務では重要です。

  • ベースラインCVR:現状(または基準となるLP)のコンバージョン率。これが低いほど必要サンプルは増えやすい。
  • 最小検出効果(MDE):「これくらいの改善幅は検出したい」という目標差。小さい差を検出したいほど必要サンプルは大きく増える。
  • 有意水準:偶然でないと言う基準。一般に95%(α=5%)がよく使われる。
  • 検出力:本当に差がある場合にそれを検出できる確率。一般に80%程度が目安とされる。

5-2. 「差が小さいほど多くのサンプルがいる」という感覚

最も実務的に効くのは、「検出したい差が小さいほど、必要なサンプルは急激に増える」という感覚です。CVRが2%から4%へ倍増するような大きな差なら比較的少ないサンプルで見えますが、2.0%から2.2%のようなわずかな改善を「偶然ではない」と言い切るには、各LPで数百件規模のCVが必要になることも珍しくありません(これはあくまで例です)。

状況(例) 必要サンプルの傾向 テスト期間への影響
LP間のCVR差が大きい(例:2%→4%)比較的少なくて済む短めでも傾向が見えやすい(ただし曜日は一巡させる)
LP間のCVR差が小さい(例:2.0%→2.2%)非常に多く必要長期間。場合により判定不能のことも
ベースラインCVRが低い(例:0.5%)多く必要CVが貯まりにくく長期化しやすい

※ 上表の数値はすべて理解のための「例」であり、実際の必要サンプルはサンプルサイズ計算ツールで自社のCVR・目標差を入力して算出してください。2026年6月時点。

実務でのおすすめ:テストを始める前に、無料のABテスト用サンプルサイズ計算ツールに「現状CVR」「検出したい改善幅」「有意水準95%」「検出力80%」を入力し、各LPに必要な訪問数・CV数の概算を出しておくことです。その概算と「1日あたりに集まる見込みCV数」を突き合わせれば、「このテストは何日くらいかかりそうか」が事前に分かります。多くの場合、その答えは3日よりずっと長くなります。

06 実務的な最低ラインの目安

厳密なサンプルサイズ計算が理想ですが、現場では「ざっくりの目安」も必要です。ここではあくまで目安として、実務でよく使われる最低ラインの考え方を示します。すべてヘッジ付きの目安であり、CV数や商材により上下する点をご理解ください。

7日
最低でも曜日を一巡(1サイクル)
14日
できれば曜日を二巡(2サイクル)が安心
数十件〜
各LPに貯めたいCV数の一つの目安(例)

6-1. 期間は「7日の倍数」で揃える

曜日バイアスを打ち消す最もシンプルな方法は、テスト期間を7日の倍数(7日・14日・21日…)にすることです。これにより、両LPがまったく同じ曜日構成(月〜日を同じ回数)を経験するため、曜日の影響が比較から相殺されます。「3日」「5日」のような半端な日数は、特定曜日が多く含まれるぶん偏りが残りやすいので避けるのが無難です。最低ラインは7日、安心ラインは14日、と覚えておくと実務で迷いません。

6-2. CV数の目安(例・ヘッジ付き)

CV数については、各パターン(各LP)あたり最低でも数十件以上のCVが一つの目安とされることが多いです。ただしこれは、LP間の差がそこそこ大きい場合の話で、小さな差を検出したいなら各LP数百件規模が必要になることもあります。逆にCVRの差が極端に大きければ、もっと少ないCVでも傾向は見えます。「数十件」という数字は絶対的な閾値ではなく、サンプルサイズ計算の代わりに使う粗い当たりとして捉えてください。

1日あたりの見込みCV数(例) 判定までの期間感(目安)
多い(各LP1日10件以上など)1〜2週間で十分なCVが貯まりやすい(曜日は一巡させる)
中程度(各LP1日数件)2〜4週間程度を見込む。途中判定はしない
少ない(各LP1日1件以下)最終CVでの判定は長期化。上位指標での代替を検討

※ 数値はすべて理解のための一般的な目安・例であり、保証された基準ではありません。実際は自社のCVR・差の大きさで変わります。2026年6月時点。

最低ラインの整理:「3日でよいか?」への実務的な答えは、「最低でも曜日が一巡する7日(できれば14日)、かつ各LPに判定に足るCV(粗い目安で数十件〜)が貯まるまで」です。これらを満たさないうちは、3日でも5日でも結論を急がない——これが安全側の運用です。なお、これらは固定基準ではなく、最終的にはサンプルサイズ計算と自社データで確認するのが正確です。

07 短期間で回すための工夫

「7日〜14日も待てない」「そもそもCVが少なくて、何週間かけても判定に必要なサンプルが貯まらない」——現場ではこうした制約がよくあります。本章では、テストを早く・少ないトラフィックで回すための工夫を整理します。ただしいずれも「正しさ」を犠牲にしない範囲での工夫である点に注意してください。

7-1. マイクロCV・上位指標で代替する

最終CV(購入・申込・問い合わせ)は発生数が少なく、貯まるのに時間がかかります。そこで、その手前にある「上位指標(マイクロコンバージョン)」を判定の主指標に使う方法があります。最終CVより圧倒的に発生数が多いため、少ないトラフィックでも差を検出しやすくなります。

  • ファーストビュー突破率:最初の画面で離脱せず読み進めた割合。LPの第一印象の良し悪しが出やすい。
  • スクロール到達率:ページの一定地点まで読んだ割合。コンテンツの引き込み力を測る。
  • CTAクリック率:申込ボタン等のクリック率。訴求とボタン設計の差が出る。
  • フォーム到達率・入力開始率:フォームまで進んだ/入力を始めた割合。CV直前の意欲を測る。

注意:マイクロCVはあくまで「代理指標」です。フォーム到達率が上がっても、最終CVが増えるとは限りません(フォームで離脱が増えるなど)。マイクロCVで勝った方向性を見つけたら、最終的には本来のCV(売上・申込)でも確認するのが原則です。上位指標は「早く方向性の当たりをつける」ための手段であり、最終判断を置き換えるものではないと理解しておきましょう。

7-2. トラフィックを集約する

テストするパターンを増やしすぎると、1パターンあたりのサンプルが薄まり、いつまでも判定できません。比較するLPは原則2つに絞り、トラフィックを集中させるのが、早く結論を出すコツです。3パターン以上を同時に走らせると、必要サンプルが倍々で増えていきます。また、配信を複数キャンペーンに散らさず1本に寄せて振り分けることで、振り分け以外の条件を揃えつつサンプルを集めやすくなります。

7-3. 差が大きく出る仮説からテストする

必要サンプルは「検出したい差の大きさ」に強く依存します。だからこそ、最初は小さな差しか生まないであろう微調整(ボタンの色など)ではなく、大きく差が出そうな仮説(ファーストビューの訴求やオファーそのものの違い)からテストすると、少ないサンプルでも判定しやすくなります。大きな方向性を先に決め、細部のチューニングは後回しにするのが、限られたトラフィックを有効に使う順序です。

08 ABテスト設計の実務フロー

ここまでの内容を、実際にテストを走らせる手順に落とし込みます。「とりあえず2つ並べて回す」のではなく、開始前に設計を固めることが、3日問題のような失敗を防ぐ最大のポイントです。

1
仮説を立てる(何を・なぜ検証するか)
2
1テスト1要素に絞る
3
必要サンプル・期間を先に固定
4
期間まで判定を保留して結論

ステップ1:仮説を立てる

「なんとなく2案作った」ではなく、「誰の・どんな課題に対して・この変更でCVRが上がるはず」という仮説を言語化します。仮説が明確だと、何を指標にするか・どれくらいの差を期待するかが決まり、サンプルサイズの見積もりもしやすくなります。

ステップ2:検証する要素を1つに絞る

原則は「1テストにつき検証する要素は1つ」です。ファーストビュー・見出し・CTA・価格表現を一度に全部変えると、勝ってもどの要素が効いたか分からなくなります。ただし、まったく方向性の違うLPを大きく比べて方向性を決める探索的な段階では、あえて大きく変えることもあります。その場合も、勝った方向性が決まったら、次は1要素ずつ詰めるテストに移行します。

ステップ3:必要サンプル・期間を先に固定する

テスト開始前に、サンプルサイズ計算で必要な訪問・CV数を見積もり、「最低◯日(7日の倍数)回す」「各LPに◯件のCVが貯まるまで判定しない」とルールを決めて文書化します。これを先に固定しておくことが、後述する「途中で勝者判定してしまう」失敗を構造的に防ぎます。

ステップ4:期間まで判定を保留し、結論を出す

テスト中は途中経過を参考に見るのは構いませんが、設定した期間・サンプルに達するまでは判定(勝者の確定・配信停止)をしないのが鉄則です。期間到達後、CVR差が有意か(偶然で説明できないか)を確認し、勝者を採用します。差が有意でなければ「引き分け/判定不能」という結論も立派な結果です。無理に勝者を作らないことも大切です。

ステップ やること このステップの目的
1. 仮説誰の何の課題に効くかを言語化指標と期待差を明確にする
2. 1要素検証する変更を1つに絞る原因を特定できるようにする
3. 期間固定必要サンプル・7日の倍数の期間を先に決める早期判定を構造的に防ぐ
4. 判定期間到達後に有意性を確認して結論偶然を実力と取り違えない

09 LP ABテストでよくある失敗

最後に、LPのABテストで頻発する失敗パターンを整理します。多くは「テスト手法そのもの」ではなく、設計の欠如・早すぎる判定・サンプル不足から生じます。

① 3日など短期間で勝者を判定する

本記事の核心です。CVが数件しか貯まらず、曜日も偏った3日のデータで「Aが勝った」と判断すると、偶然の差(フロック)を実力差と取り違えるリスクが高くなります。最低でも曜日が一巡する7日、各LPに判定に足るCVが貯まるまで待つのが基本です。

② 複数の要素を同時に変えて比較する

ファーストビューも見出しもCTAも一度に変えたLP同士を比べると、勝ってもどの変更が効いたのか分からなくなります。原則は1テスト1要素。方向性を決める探索段階を除き、変更点は絞りましょう。

③ 途中で何度も覗いて早期終了する

サンプルが少ない序盤に何度も結果を見て、「今有意差が出た」瞬間で止める(覗き見問題)と、偶然有意に見えただけの差で誤判定します。必要サンプル・期間を先に決め、達するまで判定を保留しましょう。

④ サンプル不足のまま「有意差なし=同じ」と結論づける

サンプルが少ないと、本当は差があっても検出できません。これを「差がない」と早合点すると、優れた案を捨ててしまいます。判定不能なのか、本当に差がないのかを、必要サンプルに達したうえで判断する必要があります。

⑤ 媒体の最適化任せで「均等配信」になっていない

媒体のローテーション配信は、最適化が片方へ配信を寄せることがあり、両LPに均等な機会が割り当てられないと純粋なAB比較になりません。厳密に比較したいなら均等配信設定か専用ツールを使い、振り分けの偏りと計測の分離を確認しましょう。

⑥ 配信初期の不安定なデータで判断する

配信開始直後は機械学習の最適化が安定せず、配信側の揺らぎがLP比較に混ざります。学習が落ち着く前の数日のデータでLPの優劣を決めると、LPではなく配信の不安定さを見ていることになりがちです。

10 LP ABテストに関するQ&A

Q1. 複数LPのABテストを3日間だけで結論を出してよいですか?
A.
原則として3日間は短すぎることが多く、おすすめしません。理由は、(1)3日ではCVが統計的に判断できる量に届きにくい、(2)特定曜日に偏り曜日バイアスを排除できない、(3)配信初期は学習が安定せず数字がぶれる、の3点です。結論を出してよいかは日数ではなく、各LPに十分なCV・サンプルが貯まり、曜日が一巡したか(7日の倍数)で判断するのが実務的です。あくまで一般的な目安で、CV数や商材により変わります。
Q2. ABテストの判定に必要なCV数の目安は?
A.
公式基準はありませんが、実務上は各LPあたり最低でも数十件以上のCVが一つの目安とされることが多いです。ただし差が小さいほど多くのCVが必要で、わずかな改善を検出するなら各LP数百件規模になることもあります(あくまで例)。CVRの差が大きければ少ないCVでも傾向は見えますが、それでも曜日の偏りを避けるため最低1サイクル(7日)は回すのが安全です。具体的な数はサンプルサイズ計算ツールで概算するのが確実です。
Q3. なぜ3日間だと曜日バイアスが問題になるの?
A.
多くの商材で平日と週末、昼と夜でユーザーやCVRが変わるためです。火・水・木の3日だけだと平日の傾向しか拾えず、週末に強い/弱いLPの差を見落とします。金・土・日だけなら週末バイアスがかかります。偏りを打ち消すには月〜日の1サイクル(7日)、できれば2サイクル(14日)回して曜日を揃えます。期間を7日の倍数にすると両LPが同じ曜日構成を経験するため、比較が公平になります。
Q4. サンプルサイズや有意水準とは何ですか?
A.
サンプルサイズは各パターンに集まった訪問・CVの量、有意水準は観測された差が偶然でないと言える確からしさの基準です。実務では有意水準95%(偶然で起こる確率5%以下)がよく使われます。必要サンプルは、ベースラインCVR・最小検出効果・有意水準・検出力から逆算します。CVRが低い・差が小さいほど必要数は増えます。これらは概念であり、実際の必要数はサンプルサイズ計算ツールで例として算出し、自社の数値で確認してください。
Q5. 短期間で結論が出るのはどんなケース?
A.
CV数が非常に多い大規模配信で、かつLP間のCVR差がはっきり大きい場合は、比較的短い期間でも傾向が見えることがあります。ただしその場合でも、最低1サイクル(7日)回して曜日の偏りを排除するのが安全です。逆にCVが1日数件などの案件では、3日どころか数週間かけても判定に必要なサンプルが貯まらないこともあります。短期間で出せるかは日数ではなく、集まるCV数とLP間の差の大きさで決まります。
Q6. CVが少なくてABテストが回らないときは?
A.
最終CVだけでなく、その手前の上位指標(マイクロCV)を判定指標に使う方法があります。フォーム到達率、ファーストビュー突破率、スクロール到達率、CTAクリック率などです。発生数が多いので少ないトラフィックでも差を検出しやすい。ただしマイクロCVが増えても最終CVが増えるとは限らないため、最終的には本来のCVでも確認します。ほかに、テストを2つに絞ってトラフィックを集約する工夫も有効です。
Q7. テスト途中で勝者を判定してはいけない?
A.
途中で何度も覗いて「今Aが勝っている」と早期判定するのは避けましょう。サンプルが少ない序盤は数字が大きくぶれ、偶然の差(フロック)を実力差と誤認しやすいためです。これを見て早期終了すると、偶然有意に見えた瞬間で打ち切り、誤った結論を出すリスクが上がります。あらかじめ必要サンプル・期間を決め、それに達するまで判定を保留するのが基本です。期間を固定してから始める設計が、早期判定の誘惑を防ぎます。
Q8. 媒体のローテーション機能とABテストツール、どちらを使う?
A.
目的によります。媒体側のローテーション配信は手軽ですが、最適化が成果の良い方へ配信を寄せることがあり、純粋なAB比較にならない場合があります。厳密に統計的なテストをしたいなら、均等配信に設定するか、専用のABテスト/LPOツールで振り分ける方が向きます。いずれにせよ、振り分けが均等か・計測がLPごとに正しく分離できているかを事前に確認することが重要です。
Q9. 複数の要素を一度に変えて比較してもよい?
A.
ファーストビュー・見出し・CTA・価格表現を一度に全部変えると、どの要素が効いたか分からなくなります。原則は1テスト1要素です。ただし、まったく異なる方向性のLPを大きく比べて方向性を決める探索段階では、あえて大きく変えることもあります。その場合も、勝った方向性が決まったら次は1要素ずつ詰めるテストに移るのが定石です。何を検証したいかを最初に言語化するのが設計の出発点です。
Q10. 結局、複数LPのABテストは何日くらい回せばよい?
A.
一概には言えませんが、実務的な目安として、各LPに十分なCVが貯まることを前提に最低でも1〜2週間(7日または14日=曜日を一巡・二巡)を一つのラインと考えるケースが多いです。CVが少ない案件はさらに長くかかります。重要なのは日数そのものではなく、(1)各LPに判定に足るCV・サンプルが集まったか、(2)曜日が一巡したか、(3)配信初期の学習が安定した後か、の3点です。これらを満たさないうちは、3日でも7日でも結論を急がないのが安全です。最終判断は自社データとサンプルサイズ計算で確認してください。

11 まとめ:判定基準は「日数」ではなく「サンプルと曜日」

本記事では、「複数のLPで広告配信のABテストを行う場合、3日間だけの実施でもよいか?」という現場の疑問に対し、必要CV数・サンプルサイズ・有意水準・曜日や時間帯の偏りという観点から、なぜ3日が危険になりやすいのか、では何を基準に判断すべきかを整理しました。

  • 結論は原則「3日間は短すぎる」。ただし「日数」ではなくサンプル・曜日・学習の安定で判断する。
  • テスト期間は①必要CV数 ②サンプルサイズ・有意水準 ③曜日の偏りの3要素から逆算する。
  • 3日が危険なのは曜日バイアス・ノイズ・フロックの早期判定・配信初期の学習不安定が重なるから。
  • 必要サンプルは差が小さいほど急増する。開始前にサンプルサイズ計算で概算するのが安全(数値は例)。
  • 実務の最低ラインは7日の倍数(最低7日・できれば14日)+各LPに判定に足るCVという目安。
  • CVが少ないならマイクロCV・上位指標で代替し、テストは2つに絞ってトラフィックを集約する。
  • 失敗を防ぐ鍵は開始前に必要サンプル・期間を固定し、達するまで判定を保留すること。

「3日でいいか?」という問いの本質は、「3日で十分なサンプルが集まり、曜日が一巡し、配信の学習が安定するか?」です。ほとんどの案件で答えはNoであり、だからこそ日数ではなくサンプルと曜日を基準に設計する——これがLPのABテストで誤った結論を避けるための最も実務的な考え方です。なお、LPの改善(LPO)と広告運用は一体で回してこそ効きます。ランディングページの改善を広告費の掛け捨てにしない進め方は、LPO×広告運用の考え方も参考にしてください。

あわせて読むと理解が深まる関連記事:「Google広告の機械学習の仕組み」「ROAS・CPA改善の完全ガイド」「広告代理店とは?仕組み・種類・収益モデル」も参考にしてください。

LPのABテスト設計・LPO×広告運用のご相談は、横浜の独立系代理店「でもやるんだよ」へ

コトラー理論×ペルソナ設計で、仮説立案からサンプル設計・判定までABテストを正しく回します。計測〜広告〜LPまで一気通貫で運用し、料金体系も完全公開(直接契約20%/代理店協業10%)。「3日で結論を出してしまう」失敗を防ぐ設計から伴走します。

無料相談を申し込む