新闻公告
学院资讯
“翻译”光和阴影到丰富的声音
作者:365bet体育注册日期:2025/06/11 浏览:
郑大学软件学院副教授周
我是计算机科学领域的科学研究人员,我们的团队很长一段时间都深入访问信息领域。访问中国盲文图书馆的经验彻底改变了我的研究方向。那天发生在筛选可访问的电影中。在黑暗中,屏幕开始在大屏幕上播放,“广播腔”在剧院的一个角落响起,这些角落提前为观众概述了故事。图片被“翻译”到声音中,观众的视觉残障像普通百姓一样沉浸在光明世界中。通过收听录制和阅读文本,将不会替换这种体验。
放映后,厌倦了制作团队,但满足了我的表情。他们在数百个小时的时间里拍了一部可访问的电影,我想拥有这种强烈的爱。在r埃特恩(Eturn),团队成员就致命的马车进行了激烈的讨论,键盘打字爆炸充满了灵感的火花。那一刻,我们决定让人工智能加速爱的传递。
我们开发的Eaglemovie智能生产系统的主要运行来自三个AI发动机的准确协作。出现的第一个是“无效绑架者”,它结合了语音识别和文本识别技术,以准确寻找安静的电影轨道间隔并使用它来输入叙述。然后“视觉评论员”开始起作用。基于多模式模型的主要模块可以理解图片中的樱花花,甚至可以解释角色的微笑。我为之骄傲的是,它可以描述“风爆炸爆炸的鲜红色围巾,就像拒绝杀死的火焰一样。”
当明智地形成的文本通过严格的验证时,“ sound magician" begins to sing. Our trained speech synthesis can adjust the speed of speech and emotional concentration, so that the voice of the commentary and the sound of the film is seamless. Once a week of work that professionals ask for, it can be compressed for hours with the help of AI. When the first batch of accessible movies was delivered to friends with disabilities by the Braille Library, we received a fed to feedBack of voice: "So how does Superman's cloak发声声音!”
在智格特殊教育学院,视觉残障的学生恢复了我的理解。一个男孩在盲文中触摸了他的笔记本,说:“老师,你知道为什么我总是坐在教室的第一行吗?当我在听电影时,我必须在我心中拉每个角色的脚步。”他们想要的不仅是故事,而且是通过图像反映社会情绪的权利。这个目的变成了一个沉重的承诺,在E的肩膀上权衡达到发展我们的研发。
目前,AI仍然缺乏了解电视连续剧中复杂场景的理解,而实时直播场景的评论不仅仅是一个巨大的挑战。在试验中,该系统被错误地描述为服装戏剧中的玉吊坠,这使我们意识到我们仍然需要开发一般的视觉理解。更重要的是,我们如何激活山东成年人和上海盲人儿童中残疾人的人,以获得适合自己语言习惯的解释?个人适应的问题是驱使我们探索更精致的算法。
当越来越多的志愿者开始录制可访问膜的家庭方言版本时,当视频平台打开插件界面界面时,技术温度最终将溶解冰。在这条道路上无限地在这条路上,但是每次我因视觉障碍的视力而收到声音时,我都坚信我们正在追求的目标正在嘲弄一个步骤。
(接受采访并与《巨人》记者王·梅耶(Wang Meiyy)和景色每日通讯员刘Yihan(Liu Yihan)结合在一起)
“每日葡萄”(2025年6月10日,第12版)
相关文章
- 2025-06-16从“选择学校”到“选择专业”,您应该
- 2025-06-15遵守真理和现代,并在现代生活中包括非
- 2025-06-14反日战争的资深人士Xu Ziwen的儿子Xu Peiz
- 2025-06-12三个“黑客铸”帮派被摧毁了,医院只需
- 2025-06-11“翻译”光和阴影到丰富的声音