Getting started with Midjourney: a practical guide

writingbeginner3 分钟阅读2026/6/4

Midjourney入门实用指南

说实话,第一次尝试Midjourney时,我输入了"美丽风景",结果得到四张模糊、色彩柔和的噩梦图片,活像有人把鲍勃·罗斯的画作放进微波炉加热过。我感觉被欺骗了。但经过几十个小时调整提示词、与Discord界面搏斗、耗尽免费试用额度后,我终于摸索出真正有效的方法。这份指南将帮你避开最初的挫败感。

痛点:Discord是最糟糕的部分

没人告诉你的是:Midjourney没有网页应用,你必须使用Discord。如果你只用Discord玩过游戏,那感觉就像被扔进一个混乱的公共聊天室,所有人都在对着同一个机器人喊话。你会看到"想象提示词:戴帽子的猫"每两秒滚动而过,你自己的提示词瞬间就被淹没了。

我犯的第一个错误: 试图在#新手-1频道生成图像。不到三分钟,我的提示词就跑到200条消息之外,找不到结果,瞬间慌了神。

解决方案: 使用私人Discord服务器。创建自己的服务器(免费,30秒搞定),然后把Midjourney机器人加进去。这样只有你能看到生成结果。具体操作如下:

  1. 打开Discord,点击左侧边栏的加号图标创建新服务器
  2. 命名为"Midjourney实验室"或其他名称
  3. 前往Midjourney网站,点击"加入测试版",授权机器人加入你的新服务器
  4. 在任何频道输入/imagine,机器人只会回复你

不用再在混乱中翻找了。仅此一项就消除了我80%的初始挫败感。

基础:如何写出有效的提示词

Midjourney不是搜索引擎。输入"一张狗的照片"是得不到杰作的。模型需要具体、描述性的语言。这是我经过50多次失败提示词后总结的模板:

[主体] + [动作或场景] + [艺术风格] + [光线/氛围] + [技术参数]

范例(好):

/imagine prompt: 一只毛茸茸的萨摩耶犬在金色时刻奔跑过薰衣草田,照片级真实,8k,锐利对焦,温暖阳光透过花瓣洒落,电影构图

范例(差):

/imagine prompt: 田野里的狗

区别在哪?第一个给AI设定了限制:它知道品种、时间、光线和构图风格。第二个含糊不清,Midjourney只能用随机噪音填补空白。

我吃过的教训: 避免"情感""悲伤"这类抽象概念。Midjourney不懂感受。要描述悲伤的样子:"一个人独坐昏暗房间,雨水打在窗户上,色调柔和,低头垂首。"

真正重要的参数

你会看到有人在提示词后加--ar 16:9--v 6。以下是各参数的作用及使用时机:

  • --ar(宽高比): --ar 16:9适合横屏,--ar 9:16适合竖屏(手机壁纸),--ar 1:1适合正方形。我常用--ar 3:2做标准照片打印。
  • --v(版本): 始终用--v 6(截至2025年初的最新版)。版本5较旧,生成图像连贯性差。版本4基本无法处理人脸。
  • --style raw(原始风格): 移除Midjourney默认的"美化"滤镜。想要粗粝写实的图像(如纪录片照片)就加上它。不加的话,所有图像都像奇幻画作。
  • --s(风格化): 控制AI的"创意"程度。--s 0最写实,--s 1000最狂野。写实图像我保持在--s 250或更低,抽象艺术则用到--s 750

我在参数上犯的最大错误: 连续几周忽略--style raw。每张"写实"图像看起来都像电影海报——过度戏剧化,光线假得不行。加上--style raw后立刻改观。

迭代循环:如何真正得到想要的效果

Midjourney会生成四张网格图。每张网格下方有U1-U4(放大)和V1-V4(变体)按钮。我的工作流程是:

  1. 用初始提示词生成四张图像
  2. 选中最佳那张(V1-V4),点击对应的"V"按钮,以此为基础创建四个新变体
  3. 重复步骤2直到接近理想效果
  4. 用"U"按钮放大最终图像,提升分辨率、增加细节
  5. 使用**"缩小"**(带放大镜图标的按钮)扩展构图,适合将特写变成全景画面

真实案例: 我想要一张赛博朋克街头市场的照片。第一次生成的网格图一塌糊涂——模糊的霓虹灯牌、奇怪的面孔。我点击V2(第二张图,光线尚可),得到四个新变体,从中选中V3,然后放大。最终图像可用,但面孔仍扭曲。于是我用"面部修复"按钮(笑脸图标)专门重建面部。

面部问题(及解决方法)

Midjourney第六版处理面部比第五版好得多,但手部和眼睛仍有问题。我生成过七根手指的人,或眼睛像在融化的图像。

我测试过的解决方法:

  • 在提示词中加入--no deformed faces(无畸形面孔)。虽不完美,但能降低出现频率。
  • 生成特写镜头而非全身照。全身照中的面孔太小,容易变形。
  • 放大后使用**"面部修复"**。这需要额外GPU时间(使用独立模型),但对肖像照值得。
  • 明确描述面部: "对称面孔,清晰眼睛,自然皮肤纹理,无妆容"。越具体越好。

额度经济:别浪费钱

Midjourney不便宜。基础套餐(每月10美元)提供3.3小时GPU时间——听起来很多,但每次生成约需30秒,每月大约400张图像。

我节省额度的技巧:

  • 绝不放大差图。 放大消耗的额度与重新生成相同。只有构图满意时才放大。
  • 慎用混合模式。 混合模式(通过输入/settings并开启"混合"激活)允许中途编辑提示词,但每次变体都消耗额度。
  • 批量实验。 我会集中一次完成所有"乱试"(测试随机提示词),然后保存好的。不要生成一张等一会儿再生成另一张,既浪费时间又浪费额度。

你应该知道的真实缺陷

Midjourney功能强大,但我希望早些知道它的局限:

  1. 文字是乱码。 如果需要可读文字(如招牌或书封),请用其他工具。Midjourney生成的随机字母像字体但毫无意义。
  2. 不擅长特定物体。 试试生成"1967年福特野马谢尔比GT500",你会得到比例奇怪、缺乏特征的肌肉车。具体型号需要描述形状而非名称。
  3. NSFW过滤很严格。 无法生成任何涉及性内容的内容,连"浪漫"提示词都可能被拦截。过滤器也会误伤非色情内容(如医学图解、艺术裸体)。
  4. 社区动态没用。 "探索"选项卡展示热门图像,但多数过度风格化且无法复现,忽略它。

你的第一个实操步骤

别读了。去Discord创建私人服务器,运行这个提示词:

/imagine prompt: 木桌上的一杯咖啡,左边窗户透进晨光,蒸汽升腾,浅景深,照片级真实,--ar 4:3 --style raw --v 6

生成它。看网格图。点击V2创建变体。然后放大你喜欢的那个。这就是三分钟的完整工作流程。完成这一步,你就掌握了核心循环。剩下的只是调整措辞。

最难的不是学习Midjourney——而是放弃"输入一句话就能得到杰作"的期待。你做不到。但用这个工作流程,你可以非常接近。

相关 Agent

C

Canva

An AI-powered graphic design platform that makes creating visuals easy for everyone, from beginners to pros.

了解更多 →