AI多模态、多智能体故事视频生成系统:MM-StoryAgent 下载、安装、部署、配置教程

推荐一款由上交大和阿里开源的AI多模态故事生成系统:MM-StoryAgent ——多模态、多智能体框架 MM-StoryAgent是由上海交通大学与阿里巴巴联合开源的一款创新AI系统,致力于自

推荐一款由上交大和阿里开源的AI多模态故事生成系统:MM-StoryAgent
——多模态、多智能体框架

MM-StoryAgent是由上海交通大学与阿里巴巴联合开源的一款创新AI系统,致力于自动生成富有创意和沉浸感的故事视频。它不仅支持文本生成,还能同步生成图像、音效、背景音乐等多种模态内容,为儿童故事创作提供了高效且灵活的解决方案。该系统通过模拟专家与新手作家的对话,优化创作过程,确保故事的质量和完整性。

通过多阶段写作流程,MM-StoryAgent能够首先构建故事大纲,再逐步扩展为完整的章节,确保内容丰富、逻辑清晰。此外,系统内置的多个智能体将文本内容转化为不同模态的提示,并采用“修订-审核”机制不断迭代优化,确保各模态之间的内容一致性,特别是在图像生成时角色形象的一致性。

该系统的开源代码可通过GitHub获取:MM-StoryAgent GitHub:https://github/MaoTouHU/QW_StoryAgent

源码库克网盘链接🔗:https://pan.quark/s/63538540e6d4

文章目录

  • 作者简介
    • 作者名片 ✍️
  • 正文
      • MM-StoryAgent概述
      • 安装与使用
      • 快速入门
      • 故事内容评估
      • 结语
  • 粉丝福利
      • 联系我与版权声明 📩


作者简介

作者名片 ✍️

  • 博主猫头虎
  • 全网搜索关键词猫头虎
  • 作者微信号Libin9iOak
  • 作者公众号猫头虎技术团队
  • 更新日期2025年03月12日
  • 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能!

正文

MM-StoryAgent概述

MM-StoryAgent是一个多智能体框架,通过结合大规模语言模型(LLM)和多种模态专家工具,打造沉浸式故事生成体验。系统设计了灵活且可定制的工作流程,允许用户根据需求定义和优化生成过程,以提高创作质量。

其核心特点包括:

  • 多模态生成:系统能够生成包括文本、图像、语音和音乐在内的多种内容,最终将这些资产组合成一个高质量的故事视频。
  • 多阶段生成流程:故事创作流程分为多个阶段,先生成大纲,再逐步扩展和优化章节内容。
  • 智能体协同:通过不同的智能体协作,每个模态的生成任务都得到了精确控制,并经过优化,确保最终输出的多模态内容相互协调。

MM-StoryAgent适用于各种创意内容生成,特别是在儿童教育和娱乐领域,能够提供高质量、富有表现力的故事视频。


安装与使用

要使用MM-StoryAgent,首先需要安装依赖项并将其作为包安装:

pip install -r requirements.txt
pip install -e .

随后,您可以通过配置文件启动系统:

python run.py -c configs/mm_story_agent.yaml

每个智能体的配置和调用方式也十分灵活,可以根据需要调整各类参数,以定制不同的创作需求。

在线体验:https://huggingface.co/spaces/wsntxxn/MM-StoryAgent


快速入门

本地环境配置项:

MM-StoryAgent可以通过配置文件调用:

python run.py -c configs/mm_story_agent.yaml

每个Agent的调用格式如下:

story_writer: # agent name
    tool: qa_outline_story_writer # name registered in the definition
    cfg: # parameters for initializing the agent instance
        max_conv_turns: 3
        ...
    params: # parameters for calling the agent instance
        story_topic: "Time Management: A child learning how to manage their time effectively."
        ...

新Agent的定制可以参考music_agent.py。Agent类需要实现__init__call才能正常工作,如下所示:

from typing import Dict
from mm_story_agent.base import register_tool

@register_tool("my_speech_agent")
class MySpeechAgent:
    
    def __init__(self, cfg: Dict):
        # For example, the agent need `attr1` and `attr2` for initilization
        self.attr1 = cfg.attr1
        self.attr2 = cfg.attr2
        ...
    
    def call(self, params: Dict):
        # For example, calling the agent needs `voice` and `speed` parameters
        voice = params["voice"]
        speed = params["speed"]
        ...
    

然后只需修改配置即可调用Agent,例如:

speech_generation:
    tool: my_speech_agent
    cfg:
        attr1: val1
        attr2: val2
    params:
        voice: en_female
        speed: 1.0

故事内容评估

StoryAgent团队使用 GPT-4 根据多个方面自动评估故事质量。StoryAgent团队的故事写作Agent与直接提示 LLM 撰写故事进行了比较。评估分数显示了StoryAgent团队的多Agent、多阶段故事写作流程的优势。

评分标准吸引力温暖教育平均的
主题一:自我成长直接的3.684.424.844.31
故事Agent4.14.54.804.47
主题 2:家庭与友谊直接的3.945.04.724.55
故事Agent4.364.84.924.69
主题 3:环境直接的4.04.624.924.51
故事Agent4.444.684.864.66
主题四:知识学习直接的4.464.144.864.49
故事Agent4.844.524.904.75
全部直接的4.024.554.844.47
故事Agent4.444.634.874.65

从评估数据可以看出,MM-StoryAgent不仅提升了故事的吸引力和教育意义,还显著提高了温暖感与主题深度。


结语

MM-StoryAgent是一个革命性的多模态故事生成系统,集成了先进的AI技术,为内容创作提供了全新的工具和视角。无论是在儿童故事创作还是教育资源开发领域,它都能大幅提升创作效率与内容质量,成为AI在内容生成领域的重要突破。通过不断优化与迭代,MM-StoryAgent将在未来的故事创作中发挥更加重要的作用。

粉丝福利


👉 更多信息:有任何疑问或者需要进一步探讨的内容,欢迎点击文末名片获取更多信息。我是猫头虎,期待与您的交流! 🦉💬

联系我与版权声明 📩

  • 联系方式
    • 微信: Libin9iOak
    • 公众号: 猫头虎技术团队
  • 版权声明
    本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问猫头虎的博客首页。

点击✨⬇️下方名片⬇️✨,加入猫头虎AI共创社群,交流AI新时代变现的无限可能。一起探索科技的未来,共同成长。🚀

🔗 猫头虎抱团AI共创社群 | 🔗 100天精通八种AI编程语言基础教程 | 🔗 GitHub 代码仓库 | 🔗 Java进阶之路:必知必会的核心知识点与版本对比🔗 ✨ 猫头虎精品博文

发布者:admin,转转请注明出处:http://www.yc00.com/web/1754068747a5113961.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信