Multimodal and Crossmodal applications The new way to interact

Aug 20, 2022 Translation

example

由 OpenAI DALL.E-2 生成

介绍

随着我们寻找更有效的相互交流和共享信息方式，多模态和跨模态应用变得越来越流行。沟通的方式有很多种，每种方式都有自己的优缺点。比如说，口语对于快速传达信息非常有效，但我们很难理解口音重或者和我们说不同语言的人。书面语言更精确，但阅读大量文本可能会很慢而且乏味。

这就是多模态和跨模态出现的地方！

多模态应用允许我们通过利用每种方式的优势来结合不同的模态。例如，我们可以在对话中同时使用口语和书面语言，以确保我们相互理解。我们还可以使用图片或视频等作为视觉辅助工具，来帮助解释仅用文字难以描述的事物。

跨模态应用针对的是来自不同模态（如视觉和听觉）的输入和输出。它通过使用一种感官的信息来增强另一种感官，使用户体验比传统应用更上一层楼。比如说，我们可以通过触摸的方式来帮助我们理解在触觉地图或盲文文本中看到的内容。我们还可以使用声音来帮助我们定位环境中的事物，一般通过声纳或雷达来完成。

多模态与跨模态应用与传统交互的不同，体现在以下几点上：

虽然多模态和跨模态应用提供了许多好处，但仍然需要考虑如下挑战：

为了克服构建跨模态和多模态应用的挑战，可以利用 Jina 生态系统中的产品作为应用的构建模块：

如果不知道如何编码，仍然可以在终端上使用Jina NOW构建复杂的搜索应用。过程有三个步骤👉

输入一些命令→加载数据/选择配置→获取应用

Multimodal Crossmodal

Wir müssen wissen. Wir werden wissen.