跳出传统思维,怎样尽量减少在线视频传输耗费的网络带宽和流量

用自然语言描述一个图片的内容已经有了,但是不太成熟。我记得百度研究这个比较先进吧,但是题主描述的那种动态图片描述估计还是比较困难的。我之前有过一种畅想,和题主说的这个有点关系,我大致的描述一下。最近几年各类游戏在选角时普遍有捏脸这一步骤,我一直在想,能不能通过摄像头对人从几个角度摄像从而快速建立一个和玩家一模一样的游戏模型呢?或者只通过一张照片,比如正面照或侧面照来生成模型对应的位置,其他部分由游戏随机生成或由玩家拟定。如果这一技术能做的很好的话,那么在视频聊天时就可以通过第一张照片即可对场景中所有物体包括人物进行模型的建立。当然这个模型的建立肯定是残缺的,剩余的部分由系统进行补全甚至暂时放那不补全,然后将这一残缺的模型传输到视频聊天的另一端,在哪里对模型进行绘制放映。注意这里传递所有模型时还传递了观察模型的视角。当某一端的人物在说话时晃动,或者转身,甚至移动了摄像头导致场景变化时,系统建立的场景随之发生变化。先考虑简单点的情况,如果只是人物头有晃动,那么这个晃动就是对先前建立的残缺的模型的一个补充,通过不断的分析来不断完善模型。而每次只需要将模型变化的地方发送过去即可,模型的生成和绘制都是在双方的电脑上完成的。如果人物还有转身那么模型补充的东西就更多了,如果场景还发生了变化,就要考虑的复杂点了。如果场景只是小幅度移动,使得场景内还能识别出原先建立的模型,那么只需要添加新加入场景内的模型信息即可,如果场景变化很大很快,超出摄像头捕捉速度那么只能重新建立整个场景的模型。考虑到这是一个视频聊天的目的,所以现实更可能是场景不怎么变换,人坐着或躺着,只是面部变化较多。所以这其中的信息传递量整体来说还是很少的。回头看看整个想法,其实就是类比了以前二维上图片信息的传递方法。最开始的时候是位图的形式,后来出现矢量图。那么这个实时三维建模就类比于生成矢量图。那么模仿矢量图的话还可以给整个系统添加新功能。比如网络图片在未加载完时会显示一个模糊点的缩略图,那么空间模型也是这样,视频聊天出现信号不佳等情况时,可以发送不完整的矢量信息,从而显示模糊点的对面,以保证流畅为主。只是要实现上面说的这些的话可能面临的技术难题还不少,像根据照片建立模型、分析图片比对来发送矢量参数。不过我相信这些技术已经离我们很近了,以现在的科技发展速度,最多十年,最快五年,保证可以。
■网友
想法有点意思,不过似乎并不可行。首先自然语言来描述视频的变化根本不行,因为太不准确。而且需要的信息可能很大。比如视频里人物很多,事情很复杂的时候。其次考虑使用增量的方式来记录视频的变化也得不偿失。因为视频的变动一般是所有像素的变动。而且计算量大,容易造成卡顿。


    推荐阅读