最近,松下控股(Panasonic HD)联合美国松下研发公司(PRDCA)与加州大学洛杉矶分校(UCLA),推出了一款名为“OmniFlow”的多模态生成AI。这款黑科技最大的亮点是其“任意对任意”的生成能力,可以轻松实现文本、图像和音频之间的自由转换,堪称多模态生成领域的“全能选手”。

传统多模态生成AI在处理文本、图像和音频时,往往受限于庞大的数据需求和高昂的训练成本。而OmniFlow通过灵活整合不同数据格式的生成模型(如文本-音频、文本-图像),即使在小样本场景下,也能训练出高精度的“任意对任意”模型,大幅降低了数据采集和训练门槛。

OmniFlow的核心技术在于其能够深度学习三种数据特征之间的复杂关系,而非简单地对输入数据进行平均化处理。这使得它在生成过程中不仅能保留各模态的独特特点,还能大幅提升表达能力。这一创新成果也将在2025年的CVPR大会上正式亮相。

实验结果表明,OmniFlow在“文本转图像”和“文本转音频”任务中表现出色,甚至超越了现有传统方法。更令人惊喜的是,相比其他“任意对任意”生成模型,OmniFlow所需的训练数据量仅为1/60,效率惊人!

未来,OmniFlow有望应用于工厂自动化、生活方式优化等多个领域,为用户提供高度定制化的数据生成解决方案。松下控股也将继续推动AI技术的社会化应用,致力于让AI真正服务于人们的日常生活与工作场景。