Midjourney介绍
Midjourney是文本到图像人工智能生成器 - 它将您的文本提示转换为图像。目前,它只能通过 Discord 获得,但我们预计很快就会发布移动应用程序和用于图像生成的独立网站。您可以通过与 Midjourney 机器人的私人消息或邀请 Midjourney 机器人到您自己的服务器来在Midjourney Discord中生成图像。
使用 Midjourney 生成图像非常简单:
1.键入/imagine prompt:,然后输入您的文本提示。
2.将生成一个包含 4 个备用图像的图像网格。
3.您现在有多种选择:
(a) 如果您喜欢,可以升级其中一张图像(使用 U1、U2、U3 和 U4 按钮)。
(b) 请求您几乎喜欢的图像的变体(V1、V2、V3 和 V4)。
(c) 要再次重新滚动相同的提示(使用剩余的蓝色按钮),
4.当您升级您喜欢的图像时,您会得到另一组选项。
(a) 单击鼠标右键保存图像。
(b) 请求强烈或微妙的变化 - 您将获得一个带有四种替代方案的新图像网格。
(c) 缩小图像。
(d) 使用箭头将图像扩展到四个方向之一。
在这篇文章中,将详细介绍这些不同选项的工作原理,以及如何编写更好的文本提示,以及如何使用参数和设置来更好地控制图像生成。
提示公式
用文本提示是使用Midjourney具创建图像的主要方式。可以通过将参考图像与文本提示(图像 + 文本)相结合或通过混合两个图像(图像 + 图像)来生成图像。但是,请记住 Midjourney 不是图像编辑工具。您提供的参考图像不会被精确地重新创建,而是用于一些指导。在后,Midjourney 会识别您的参考图像中所描绘的内容、其类型、风格、灯光等,然后将这些详细信息添加到您的提示中。因此,掌握文字提示的编写是有效使用Midjourney的关键。
这不是一个强有力的规则,但是遵循一定的提示结构可以帮助许多人改进他们的提示。例如,如果相关,您的提示可能会按照建议的顺序包含以下元素:
1.图像类型(例如照片、插图、绘画等)
2.主要对象具有相关特征(例如,穿着飘逸连衣裙、头发飘逸的神秘女人)。
3.其他细节和周围环境(例如,在迷雾森林中,在向日葵田中)。
4.风格细节(例如美术摄影、毕加索风格等)。
5.参数(长宽比、风格化程度、模型等)
文本提示:A photo of a magnificent tiger, confidently passing by the shop windows on a crowded New York street, in the editorial photography style --ar 16:9
主要建议
1.写出简短而具体的提示
Midjourney提示有最大字符数限制,但不像 Twitter 的 280 个字符那么严格和精确。一旦超过一定的单词数,后续单词对最终结果的影响就可以 忽略不计。虽然不同版本的 Midjourney 可能会以不同的方式处理这些限制,但作为一般准则,大约 40 个字之后编写的任何内容都可能会被忽略;60个字之后,它很可能会被忽略,而80个字之后,它几乎肯定会被切断。
此外,提示的长度也会影响不同元素之间优先级的竞争程度。简而言之,当您的提示仅包含三个单词时,这些单词只有八种可能的组合可以在生成的图像中表达。然而,当你的提示扩展到 40 个单词时,排列的数量似乎变得不可数。虽然Midjourney已经具备了识别最重要的单词和可能的组合的能力,但提示中包含更多单词会降低获得您想要的确切组合的机会。因此,如果您正在寻找特定的结果,请保持提示简洁而具体。
2.从最重要的关键词开始
早期的Midjourney版本具有非常强的影响力下降斜率:#p#分页标题#e#
1)第 1-5 个词非常有影响力,很可能从第一卷开始就引人注目。 2)第 5-20 个单词也有影响力,但您可能需要重新滚动 2-3 次才能让它们在图像上展示。 3)第 21-40 个单词仍在发挥作用,但可能需要多次重投才能显示出来。 4)40+ 的单词很可能会被忽略。 在《Midjourney旅程》的最新版本中,词序规则仍然相关,但现在考虑了其他因素,例如令牌强度。令牌强度是指中途对提示中每个单词或短语的重要性的习得感知。虽然您无法直接影响标记强度,但您可以控制文本提示中的词序。因此,请以最重要的关键字开始文本提示
3. 在提示中使用语法正确的句子
从v5开始,Midjourney已经实现了自然语言处理(NLP)技术。因此,与碎片化或无意义的短语相比,使用语法正确的完整句子提示往往会产生更相关和连贯的结果。这意味着正确的语法可以部分补偿前面讨论的逐渐减弱的影响。事实上,以结构化的方式写作,遵守你在学校学到的语法规则,比只关注词序更重要。
4.挑选具有特定含义的单词
某些单词有多种含义,我们不知道算法会选择哪一种。例如,我首先在上面的提示中错误地使用了短语“busy street”,并且非常惊讶没有得到我预期的结果。我忽略了“繁忙”通常具有不同的含义,就我而言,“拥挤的街道”是更好的选择。
5. 选择最有可能在图像标题中找到的术语
当您寻找特定图像时,请尝试想象如果您在照片库中找到该图像,该图像的标题会是什么。Midjourney 等文本到图像生成工具的训练集与这些照片库非常相似。因此,您可以请求特定的拍摄对象、服装、图像风格和环境,但不能请求拍摄对象的相对位置、特定的相机名称或镜头 F 值。
6. 准备好看到您的描述意外地应用在图像中
图像生成由一组标记引导,没有特定的顺序。这就是为什么当您请求一张穿红鞋的女人的照片时,您可以轻松地获得一件红色连衣裙,并且除了红色连衣裙之外或代替红色连衣裙,背景中还有大量红色。该模型获得了这个“红色”标记,但不知道到底在哪里应用它。
7. 使用滑块和牛铃技巧将Midjourney的注意力吸引到您需要的地方
如果您发现 Midjourney 似乎忽略了文本提示的某些部分,您可以利用文本权重来调整特定单词的影响。
文本提示:A photo of a magnificent tiger, confidently passing by the shop windows on a crowded street, in the editorial photography style:: magnificent tiger:: 0.3 shop windows:: 0.3 crowded street:: 0.6 --ar 16:9
你把::放在基本提示符的末尾,相当于给它赋了一个权重1。然后,你希望不同提示部分的权重接近1,但又不能超过这个值,这样它们就不会变成比你的基本提示更强大。文本权重的建议正值是0.25、0.3、0.5、0.6 和 0.7。建议的负值是-0.7、-0.6、-0.5、-0.3和-0.25。
在 #prompt-faqs 频道中,他们将其称为“滑块”方法,因为您可以使用虚拟滑块来决定提示的每个部分的权重。
当滑块方法不适合您时,请尝试非常简单的“牛铃”方法。它基本上意味着多次重复被忽略的单个单词。
8.避免“质量增强”关键词
当试图获得照片级真实感图像时,人们通常会使用“照片级真实感”、“真实感”、“超详细”、“8K”、“32K”和“尼康 D780”等词语,通常都在一起 然而,这些词语中的大多数并没有对生成的图像有影响。尝试使用带有和不带有这些单词的提示,您可能会发现结果没有差异。
有趣的是,其中一些词语甚至会阻碍预期的结果。包括“照片写实”可能会导致绘画而不是照片的生成,因为照片本身已经是写实的。版本的 Midjourney 通常默认生成照片,但为了确保像照片一样的图像,只需以“...的照片”开始提示即可 - 这就足够了。
此外,这些附加单词会使提示超载,并将注意力从真正重要的基本关键词上转移开。#p#分页标题#e#
9.考虑使用 ChatGPT 来获取灵感
我知道有些人可能认为这个建议与编写简短而具体的提示的第一条建议相矛盾。但在实践中并不矛盾。您从 ChatGPT 收到的输出很大程度上取决于您的请求的性质。例如,如果您只是询问一只老虎在街上行走的图像描述,ChatGPT 可能会生成冗长且基本上不相关的文本段落。
那么,更明智的使用 ChatGPT 的方法是什么?根据我的经验,它是集思广益和语言增强的绝佳工具,特别是对于像我这样的非母语人士来说。我通常发现要求 5-10 个简洁的一句话图像描述是有益的,其中每个描述描绘了特定环境中的特定主题,如下例所示。
正如您所看到的,ChatGPT 并没有提供“美丽的老虎走在城市街道上”这样的普通提示,而是生成了更具吸引力和想象力的描述,例如“在喧嚣的城市生活中”、“雄伟的老虎”和“与老虎漫步”。镇静与安宁。” 我经常结合各种建议中的想法,同时确保它们符合我的预期风格,并删除过于诗意的元素。
然而,通过进一步的训练,ChatGPT可以变得更加具体并遵循精确的提示公式,包括以“/imagine提示:”开头并在提示末尾合并所需的参数。这将为您提供可直接在中途使用的提示。
10. 尝试风格、颜色、拍摄角度、灯光
Midjourney 为创建不同风格的图像、探索不同的配色方案、尝试相机角度、应用各种灯光效果以及通过缩放和平移扩展您的想象力提供了无限的可能性。
Midjourney是文本到图像人工智能生成器 - 它将您的文本提示转换为图像。目前,它只能通过 Discord 获得,但我们预计很快就会发布移动应用程序和用于图像生成的独立网站。您可以通过与 Midjourney 机器人的私人消息或邀请 Midjourney 机器人到您自己的服务器来在Midjourney Discord中生成图像。
1.键入/imagine prompt:,然后输入您的文本提示。
2.将生成一个包含 4 个备用图像的图像网格。
3.您现在有多种选择:
(a) 如果您喜欢,可以升级其中一张图像(使用 U1、U2、U3 和 U4 按钮)。
(b) 请求您几乎喜欢的图像的变体(V1、V2、V3 和 V4)。
(c) 要再次重新滚动相同的提示(使用剩余的蓝色按钮),
4.当您升级您喜欢的图像时,您会得到另一组选项。
(a) 单击鼠标右键保存图像。
(b) 请求强烈或微妙的变化 - 您将获得一个带有四种替代方案的新图像网格。
(c) 缩小图像。
(d) 使用箭头将图像扩展到四个方向之一。
在这篇文章中,将详细介绍这些不同选项的工作原理,以及如何编写更好的文本提示,以及如何使用参数和设置来更好地控制图像生成。
提示公式
用文本提示是使用Midjourney具创建图像的主要方式。可以通过将参考图像与文本提示(图像 + 文本)相结合或通过混合两个图像(图像 + 图像)来生成图像。但是,请记住 Midjourney 不是图像编辑工具。您提供的参考图像不会被精确地重新创建,而是用于一些指导。在后,Midjourney 会识别您的参考图像中所描绘的内容、其类型、风格、灯光等,然后将这些详细信息添加到您的提示中。因此,掌握文字提示的编写是有效使用Midjourney的关键。
这不是一个强有力的规则,但是遵循一定的提示结构可以帮助许多人改进他们的提示。例如,如果相关,您的提示可能会按照建议的顺序包含以下元素:
1.图像类型(例如照片、插图、绘画等)
2.主要对象具有相关特征(例如,穿着飘逸连衣裙、头发飘逸的神秘女人)。
3.其他细节和周围环境(例如,在迷雾森林中,在向日葵田中)。
4.风格细节(例如美术摄影、毕加索风格等)。
5.参数(长宽比、风格化程度、模型等)
文本提示:A photo of a magnificent tiger, confidently passing by the shop windows on a crowded New York street, in the editorial photography style --ar 16:9
主要建议
1.写出简短而具体的提示
Midjourney提示有最大字符数限制,但不像 Twitter 的 280 个字符那么严格和精确。一旦超过一定的单词数,后续单词对最终结果的影响就可以 忽略不计。虽然不同版本的 Midjourney 可能会以不同的方式处理这些限制,但作为一般准则,大约 40 个字之后编写的任何内容都可能会被忽略;60个字之后,它很可能会被忽略,而80个字之后,它几乎肯定会被切断。
此外,提示的长度也会影响不同元素之间优先级的竞争程度。简而言之,当您的提示仅包含三个单词时,这些单词只有八种可能的组合可以在生成的图像中表达。然而,当你的提示扩展到 40 个单词时,排列的数量似乎变得不可数。虽然Midjourney已经具备了识别最重要的单词和可能的组合的能力,但提示中包含更多单词会降低获得您想要的确切组合的机会。因此,如果您正在寻找特定的结果,请保持提示简洁而具体。
2.从最重要的关键词开始
早期的Midjourney版本具有非常强的影响力下降斜率:#p#分页标题#e#
1)第 1-5 个词非常有影响力,很可能从第一卷开始就引人注目。 2)第 5-20 个单词也有影响力,但您可能需要重新滚动 2-3 次才能让它们在图像上展示。 3)第 21-40 个单词仍在发挥作用,但可能需要多次重投才能显示出来。 4)40+ 的单词很可能会被忽略。 在《Midjourney旅程》的最新版本中,词序规则仍然相关,但现在考虑了其他因素,例如令牌强度。令牌强度是指中途对提示中每个单词或短语的重要性的习得感知。虽然您无法直接影响标记强度,但您可以控制文本提示中的词序。因此,请以最重要的关键字开始文本提示
3. 在提示中使用语法正确的句子
从v5开始,Midjourney已经实现了自然语言处理(NLP)技术。因此,与碎片化或无意义的短语相比,使用语法正确的完整句子提示往往会产生更相关和连贯的结果。这意味着正确的语法可以部分补偿前面讨论的逐渐减弱的影响。事实上,以结构化的方式写作,遵守你在学校学到的语法规则,比只关注词序更重要。
4.挑选具有特定含义的单词
某些单词有多种含义,我们不知道算法会选择哪一种。例如,我首先在上面的提示中错误地使用了短语“busy street”,并且非常惊讶没有得到我预期的结果。我忽略了“繁忙”通常具有不同的含义,就我而言,“拥挤的街道”是更好的选择。
5. 选择最有可能在图像标题中找到的术语
当您寻找特定图像时,请尝试想象如果您在照片库中找到该图像,该图像的标题会是什么。Midjourney 等文本到图像生成工具的训练集与这些照片库非常相似。因此,您可以请求特定的拍摄对象、服装、图像风格和环境,但不能请求拍摄对象的相对位置、特定的相机名称或镜头 F 值。
6. 准备好看到您的描述意外地应用在图像中
图像生成由一组标记引导,没有特定的顺序。这就是为什么当您请求一张穿红鞋的女人的照片时,您可以轻松地获得一件红色连衣裙,并且除了红色连衣裙之外或代替红色连衣裙,背景中还有大量红色。该模型获得了这个“红色”标记,但不知道到底在哪里应用它。
7. 使用滑块和牛铃技巧将Midjourney的注意力吸引到您需要的地方
如果您发现 Midjourney 似乎忽略了文本提示的某些部分,您可以利用文本权重来调整特定单词的影响。
文本提示:A photo of a magnificent tiger, confidently passing by the shop windows on a crowded street, in the editorial photography style:: magnificent tiger:: 0.3 shop windows:: 0.3 crowded street:: 0.6 --ar 16:9
你把::放在基本提示符的末尾,相当于给它赋了一个权重1。然后,你希望不同提示部分的权重接近1,但又不能超过这个值,这样它们就不会变成比你的基本提示更强大。文本权重的建议正值是0.25、0.3、0.5、0.6 和 0.7。建议的负值是-0.7、-0.6、-0.5、-0.3和-0.25。
在 #prompt-faqs 频道中,他们将其称为“滑块”方法,因为您可以使用虚拟滑块来决定提示的每个部分的权重。
当滑块方法不适合您时,请尝试非常简单的“牛铃”方法。它基本上意味着多次重复被忽略的单个单词。
8.避免“质量增强”关键词
当试图获得照片级真实感图像时,人们通常会使用“照片级真实感”、“真实感”、“超详细”、“8K”、“32K”和“尼康 D780”等词语,通常都在一起 然而,这些词语中的大多数并没有对生成的图像有影响。尝试使用带有和不带有这些单词的提示,您可能会发现结果没有差异。
有趣的是,其中一些词语甚至会阻碍预期的结果。包括“照片写实”可能会导致绘画而不是照片的生成,因为照片本身已经是写实的。版本的 Midjourney 通常默认生成照片,但为了确保像照片一样的图像,只需以“...的照片”开始提示即可 - 这就足够了。
此外,这些附加单词会使提示超载,并将注意力从真正重要的基本关键词上转移开。#p#分页标题#e#
9.考虑使用 ChatGPT 来获取灵感
我知道有些人可能认为这个建议与编写简短而具体的提示的第一条建议相矛盾。但在实践中并不矛盾。您从 ChatGPT 收到的输出很大程度上取决于您的请求的性质。例如,如果您只是询问一只老虎在街上行走的图像描述,ChatGPT 可能会生成冗长且基本上不相关的文本段落。
那么,更明智的使用 ChatGPT 的方法是什么?根据我的经验,它是集思广益和语言增强的绝佳工具,特别是对于像我这样的非母语人士来说。我通常发现要求 5-10 个简洁的一句话图像描述是有益的,其中每个描述描绘了特定环境中的特定主题,如下例所示。
正如您所看到的,ChatGPT 并没有提供“美丽的老虎走在城市街道上”这样的普通提示,而是生成了更具吸引力和想象力的描述,例如“在喧嚣的城市生活中”、“雄伟的老虎”和“与老虎漫步”。镇静与安宁。” 我经常结合各种建议中的想法,同时确保它们符合我的预期风格,并删除过于诗意的元素。
然而,通过进一步的训练,ChatGPT可以变得更加具体并遵循精确的提示公式,包括以“/imagine提示:”开头并在提示末尾合并所需的参数。这将为您提供可直接在中途使用的提示。
10. 尝试风格、颜色、拍摄角度、灯光
Midjourney 为创建不同风格的图像、探索不同的配色方案、尝试相机角度、应用各种灯光效果以及通过缩放和平移扩展您的想象力提供了无限的可能性。