Midjourney入门实用指南

说实话，第一次尝试Midjourney时，我输入了"美丽风景"，结果得到四张模糊、色彩柔和的噩梦图片，活像有人把鲍勃·罗斯的画作放进微波炉加热过。我感觉被欺骗了。但经过几十个小时调整提示词、与Discord界面搏斗、耗尽免费试用额度后，我终于摸索出真正有效的方法。这份指南将帮你避开最初的挫败感。

痛点：Discord是最糟糕的部分

没人告诉你的是：Midjourney没有网页应用，你必须使用Discord。如果你只用Discord玩过游戏，那感觉就像被扔进一个混乱的公共聊天室，所有人都在对着同一个机器人喊话。你会看到"想象提示词：戴帽子的猫"每两秒滚动而过，你自己的提示词瞬间就被淹没了。

我犯的第一个错误： 试图在#新手-1频道生成图像。不到三分钟，我的提示词就跑到200条消息之外，找不到结果，瞬间慌了神。

解决方案： 使用私人Discord服务器。创建自己的服务器（免费，30秒搞定），然后把Midjourney机器人加进去。这样只有你能看到生成结果。具体操作如下：

不用再在混乱中翻找了。仅此一项就消除了我80%的初始挫败感。

Midjourney不是搜索引擎。输入"一张狗的照片"是得不到杰作的。模型需要具体、描述性的语言。这是我经过50多次失败提示词后总结的模板：

[主体] + [动作或场景] + [艺术风格] + [光线/氛围] + [技术参数]

范例（好）：

/imagine prompt: 一只毛茸茸的萨摩耶犬在金色时刻奔跑过薰衣草田，照片级真实，8k，锐利对焦，温暖阳光透过花瓣洒落，电影构图

范例（差）：

/imagine prompt: 田野里的狗

区别在哪？第一个给AI设定了限制：它知道品种、时间、光线和构图风格。第二个含糊不清，Midjourney只能用随机噪音填补空白。

我吃过的教训： 避免"情感""悲伤"这类抽象概念。Midjourney不懂感受。要描述悲伤的样子："一个人独坐昏暗房间，雨水打在窗户上，色调柔和，低头垂首。"

你会看到有人在提示词后加--ar 16:9或--v 6。以下是各参数的作用及使用时机：

--ar（宽高比）： --ar 16:9适合横屏，--ar 9:16适合竖屏（手机壁纸），--ar 1:1适合正方形。我常用--ar 3:2做标准照片打印。
--v（版本）： 始终用--v 6（截至2025年初的最新版）。版本5较旧，生成图像连贯性差。版本4基本无法处理人脸。
--style raw（原始风格）： 移除Midjourney默认的"美化"滤镜。想要粗粝写实的图像（如纪录片照片）就加上它。不加的话，所有图像都像奇幻画作。
--s（风格化）： 控制AI的"创意"程度。--s 0最写实，--s 1000最狂野。写实图像我保持在--s 250或更低，抽象艺术则用到--s 750。

我在参数上犯的最大错误： 连续几周忽略--style raw。每张"写实"图像看起来都像电影海报——过度戏剧化，光线假得不行。加上--style raw后立刻改观。

Midjourney会生成四张网格图。每张网格下方有U1-U4（放大）和V1-V4（变体）按钮。我的工作流程是：

真实案例： 我想要一张赛博朋克街头市场的照片。第一次生成的网格图一塌糊涂——模糊的霓虹灯牌、奇怪的面孔。我点击V2（第二张图，光线尚可），得到四个新变体，从中选中V3，然后放大。最终图像可用，但面孔仍扭曲。于是我用"面部修复"按钮（笑脸图标）专门重建面部。

Midjourney第六版处理面部比第五版好得多，但手部和眼睛仍有问题。我生成过七根手指的人，或眼睛像在融化的图像。

我测试过的解决方法：

Midjourney不便宜。基础套餐（每月10美元）提供3.3小时GPU时间——听起来很多，但每次生成约需30秒，每月大约400张图像。

我节省额度的技巧：

Midjourney功能强大，但我希望早些知道它的局限：

别读了。去Discord创建私人服务器，运行这个提示词：

/imagine prompt: 木桌上的一杯咖啡，左边窗户透进晨光，蒸汽升腾，浅景深，照片级真实，--ar 4:3 --style raw --v 6

生成它。看网格图。点击V2创建变体。然后放大你喜欢的那个。这就是三分钟的完整工作流程。完成这一步，你就掌握了核心循环。剩下的只是调整措辞。

最难的不是学习Midjourney——而是放弃"输入一句话就能得到杰作"的期待。你做不到。但用这个工作流程，你可以非常接近。