【音】無音の映像から音を取り出す技術…物体の振動からその場の音声再現に成功 MITなどの研究チーム [2014/08/12]at SCIENCEPLUS
【音】無音の映像から音を取り出す技術…物体の振動からその場の音声再現に成功 MITなどの研究チーム [2014/08/12] - 暇つぶし2ch1:おんさ ★@転載は禁止
14/08/12 10:53:16.29 BE:302861487-2BP(1000)
無音の映像から音を取り出す技術…物体の振動からその場の音声再現に成功 2014.8.12 06:30
URLリンク(sankei.jp.msn.com)

(本文)
 音が生じたとき、人間の目には見えなくても、あらゆる物の表面にごくわずかな振動が起こる。鉢植えやスナ
ック袋の映像から周囲の会話等を再構築する技術を、MITなどの研究チームが開発した。

URLリンク(www.youtube.com)

音が生じたとき、人間の目には見えなくても、あらゆる物の表面にはごくわずかな振動が起こる。画像上にとら
えられたこの振動情報を使って、その場の音を再構築できるアルゴリズムが開発された。

研究チームはこのアルゴリズムを使って、防音ガラスの向こう側にあるスナック菓子の袋を約4.6mの距離から撮
影した動画から、内容がわかる話し声を取り出してみせた。

論文の筆頭著者であり、マサチューセッツ工科大学(MIT)の博士課程で学ぶエイブ・デイヴィスは、「(音が
生じるときの)振動によって、人間の肉眼には見えない、かすかな視覚信号が生じる」と説明する。

MITの研究者、マイクロソフト、およびアドビからなる研究チームは、水やアルミホイル、鉢植えの葉といった
物から、有効な音声信号を取り出すことに成功した。

このアルゴリズムがうまく機能するには、映像の周波数が音声の周波数よりも高い必要がある。そのため研究者
チームは、まずは2,000~6,000fpsで動画を撮影した。これは、市販されているハイスピードカメラが実現でき
るフレームレートよりかなり高い。

さらに研究者チームは、通常のデジタルカメラでの実験も試した。そして、60fpsで撮影した動画から、音声を
再構築することに成功した。この場合の再構築された音声も、会話に参加している複数の人々の特徴を確認でき
るほどの音質だった。

この技術は犯罪捜査や諜報活動などに利用できるだろうが、デイヴィス氏は科学的研究にも使えると考えている。
物から音を再構築することで、その物自体について知ることも可能なはずだというのだ。音への反応は物によっ
て違う。そのため研究チームは現在、さまざまな物について、物の音に対する反応から、物の素材と構造の特性
を突き止めようとしている。

この研究成果は、8月11日から14日までヴァンクーヴァーで開催される国際会議兼展示会「SIGGRAPH(シーグラ
フ)2014」で発表される。

URLリンク(s2014.siggraph.org)

2:名無しのひみつ@転載は禁止
14/08/12 11:00:21.70 xtDiy6s3
まぁ原理的に当然だわな。

3:名無しのひみつ@転載は禁止
14/08/12 11:04:33.32 4P+LVtrx
>このアルゴリズムがうまく機能するには、映像の周波数が音声の周波数よりも高い必要がある。そのため研究者
>チームは、まずは2,000~6,000fpsで動画を撮影した。これは、市販されているハイスピードカメラが実現でき
>るフレームレートよりかなり高い。

ちょっと前提がですね…

4:名無しのひみつ@転載は禁止
14/08/12 11:05:12.26 bsJWxdMq
あくまでハイスピードカメラ限定だよなw
取り出せるデータはフレーム数の半分以下。2000fpsだと1000Hzが限界。
普通のビデオ映像だと30fpsだから上限は15Hz。人間には聞こえねえw

5:名無しのひみつ@転載は禁止
14/08/12 11:17:50.63 mLmMe5Lr
>通常のデジタルカメラでの実験も試した。そして、60fpsで撮影した動画から、音声を
再構築することに成功した。この場合の再構築された音声も、会話に参加している複数の人々の特徴を確認でき
るほどの音質だった。

6:名無しのひみつ@転載は禁止
14/08/12 11:23:15.25 bUfNlRp6
>>3
こんな機能カメラに付けるぐらいなら普通に高性能集音マイク付けた方が早いんじゃないか?

7:名無しのひみつ@転載は禁止
14/08/12 11:40:48.59 qjOByf6x
60fpsの動画からの音声の再構築のほうがスゲーなw
会話のフレーズのひな形とかを動画上の振幅の強弱のパターンに当てはめるんだろうけど

まさにデジタル読唇術

8:名無しのひみつ@転載は禁止
14/08/12 11:45:12.65 bkJlhIRj
なんだ古い無声映画とかから音が出たわけじゃないのか

9:名無しのひみつ@転載は禁止
14/08/12 11:46:28.84 EqEEA/DH
光学ズームできれば盗聴できるわけですね

10:名無しのひみつ@転載は禁止
14/08/12 11:51:58.96 8CGW0m+R
国防総省からの依頼です

11:名無しのひみつ@転載は禁止
14/08/12 12:16:48.04 SHBW/FVy
レーザー盗聴器の応用みたいなもんかな

12:名無しのひみつ@転載は禁止
14/08/12 12:17:28.31 g/IZt8zH
将来的には衛星からの盗聴が可能になるな

13:名無しのひみつ@転載は禁止
14/08/12 12:22:02.61 QYGhkXsV
藤子不二夫Fの短編でこんなのあったような、あれは静止画の写真から再現すると言うしろものだったが

14:名無しのひみつ@転載は禁止
14/08/12 12:27:38.69 yzWCafl5
>>10
静止衛星から盗聴できるってことだよな。

15:名無しのひみつ@転載は禁止
14/08/12 13:05:18.82 O9Vgr+vX
スパイに使われると思ったが音声拾った方が早い罠

16:名無しのひみつ@転載は禁止
14/08/12 13:16:05.51 cWq/1isK
水やアルミホイル、鉢植えの葉、スナック菓子の袋
よりも使いやすいちっさいものが映像内にあるだけでいいのか
場所によってはとても使えそう

17:名無しのひみつ@転載は禁止
14/08/12 13:21:48.42 PXKPdfmb
唇を読んだ(幻海の視力は6.0)みたいな感じか

18:名無しのひみつ@転載は禁止
14/08/12 13:28:35.11 bsJWxdMq
原理、理解した。
フレームの差分から音声震動を取り出すんじゃなくて、デジカメの走査線移動から音声を取り出すのか。
それなら60fpsでなく、30fpsでも走査線次第で高音域でも疑似的に取り出せるな。
あとは人間の耳に、その合成音がどのような音として聞こえるかの問題か。

19:名無しのひみつ@転載は禁止
14/08/12 13:38:49.85 aCuYesZr
窓ガラスの振動をレーザー測定で音声化ってネタは冷戦スパイ映画の見過ぎです。

20:名無しのひみつ@転載は禁止
14/08/12 14:02:45.84 5DQXCDYm
>>18
あー、なるほどねー。ということはローリングシャッターのCMOSカメラ限定でCCDには使えないってことか。
自分は物体の共振周波数の違いとそれによる振幅の変化から音声を再構成するのか、とか勝手に想像してた。
今youtube見たら原理説明してたんだね。

21:名無しのひみつ@転載は禁止
14/08/12 14:25:42.93 0n3UuoAM
>>18>>20
要するに・・・
どういうことだってばよ

22:名無しのひみつ@転載は禁止
14/08/12 14:33:01.90 zV4E0RH9
>>3
最後まで読めよ

23:名無しのひみつ@転載は禁止
14/08/12 14:38:07.16 kvHeP1Bl
でっち上げに必要な技術だな
警察や検察、公安が欲しがりs。。。。。。。。。。。。。。。。。

24:名無しのひみつ@転載は禁止
14/08/12 14:59:47.49 cgYbJez1
技術よりも、こういうことをすれば声が拾えると考えた発想に驚く

25:名無しのひみつ@転載は禁止
14/08/12 15:38:51.74 BbbVFvMK
CIAは窓ガラスの振動で建物内部の会話・音声を盗聴する技術をはるか昔に実用化してずっと使ってる。

26:名無しのひみつ@転載は禁止
14/08/12 15:42:52.16 a+l0AFZk
>>21
フランソワーズ失職ってことらしい

27:名無しのひみつ@転載は禁止
14/08/12 16:00:18.57 6fvYHKGb
ハイスピードカメラって、こないだ東大が一秒間に1兆コマ撮りに成功したから
もっと精密な音声分析ができるんじゃね? なにも盗聴器使わなくてもその家の住人の
会話は丸聞こえになるんだろうな

28:名無しのひみつ@転載は禁止
14/08/12 16:12:58.37 8UUerK3U
凄い役立ちそうで、意外に役立たなさそうな技術だな

29:名無しのひみつ@転載は禁止
14/08/12 16:20:45.06 NxXPcuPG
イーグルアイのAIがこんなことやってたな

30:名無しのひみつ@転載は禁止
14/08/12 16:21:11.10 X0qJN4KD
>>28
盗聴・・・いわゆるスパイ活動にとても役立つんでは?
今までも似たような方法でやってたと思うけど。

31:名無しのひみつ@転載は禁止
14/08/12 16:32:08.42 VFptCjny
HAL9000が既に実行済み

32:名無しのひみつ@転載は禁止
14/08/12 16:36:53.87 bsJWxdMq
>>28
これは地味に役立つぞ。
本来、音声が記録されてない防犯カメラから音声を取り出せる。
口パクかどうかを判定できる。
インタビューで背中を向けて話してる人の声が、あとからアテレコされてないか判定できるw

33:名無しのひみつ@転載は禁止
14/08/12 16:40:33.73 6fvYHKGb
>>32

ハイスピードカメラはかなり高価だから防犯カメラのように多く設置できないよ

34:名無しのひみつ@転載は禁止
14/08/12 16:50:27.87 QYGhkXsV
>>33
60fpsでもできたって書いてあるぞ

35:名無しのひみつ@転載は禁止
14/08/12 17:11:26.17 as5/hQBt
マトモに文章も読めねーやつ多すぎだろ

36:名無しのひみつ@転載は禁止
14/08/12 17:13:16.73 BnMhnIYI
盗聴技術に使えるな

37:名無しのひみつ@転載は禁止
14/08/12 17:38:17.52 +GdPGj0M
面白いな
是非研究を続けてくれ

38:名無しのひみつ@転載は禁止
14/08/12 17:52:53.97 hql5nSsM
サムラゴウチ

39:名無しのひみつ@転載は禁止
14/08/12 18:18:46.09 kU6u/ZBs
昔からレーザーの反射光を音声に変換するタイプの盗聴器あるよね
車輪の再発明か?

40:名無しのひみつ@転載は禁止
14/08/12 18:42:16.41 AkgapAJH
さすがMIT

41:名無しのひみつ@転載は禁止
14/08/12 18:45:00.92 8UUerK3U
>>30
この技術を使わないと盗聴出来ない場面が思いつかんかった
別に最初から音を取ればいいだけの話だし…
映像のみしか取得できない状況てあるかな?

>>32
防犯カメラの画質じゃ厳しそう
最近の高画質の防犯カメラは、そもそも音声もセットで録音してる場合が多いしなあ

42:名無しのひみつ@転載は禁止
14/08/12 19:09:09.44 pdWJqxWf
4Kとか8Kとか解像度ばかり上げてないで、フレームレートを上げる方にも進歩してほしい。

43:名無しのひみつ@転載は禁止
14/08/12 19:31:44.53 fddk3Dw9
ガンダムで宇宙なのに爆発音とか聞こえる技術

44:名無しのひみつ@転載は禁止
14/08/12 19:43:19.93 7+pEQ326
>>41
盗聴器なんて対象者の行動を事前に調べて取り付ける必要がある上に発見される可能性もある
この技術が完成すればたまたま立ち寄ったカフェとか、集音マイクで拾えない室内とか、唇が読めない角度とかでも盗聴できるかも知れない
その場で音を拾えなくても「映像さえ残ってれば良い」というのは便利

極端な話で言えばスパイ衛星の映像から音声を取り出して屋外なら地球上どこでも盗聴が可能になるとか

45:名無しのひみつ@転載は禁止
14/08/12 20:07:59.21 JPZYuN7B
無音じゃねぇじゃん。


って思ったのは俺だけじゃ無いはず。、

46:名無しのひみつ@転載は禁止
14/08/12 20:14:23.52 YzBTjxVw
>>26
元から 001の世話がメイン

47:名無しのひみつ@転載は禁止
14/08/12 20:22:56.15 FTKnP5Y3
>>7
あー、そんな感じの技術なのか
60fpsで何重にも折りたたまれてしまった会話領域の音声情報をまともに復元出来るとは
思えないけれど、確かにひとかたまりのパターンとしてならマッチングできそうだね

あるいは、空間的に振動を拾って合成したりするのかな
例えば500Hz程度なら、1mくらいの範囲合成できればいけるような気がする

この場合は、画像の範囲が狭いほど低周波領域がエイリアシング、
画像の解像度が低いほど高周波領域がエイリアシングになるのかな

48:名無しのひみつ@転載は禁止
14/08/12 20:43:50.34 5DQXCDYm
>>47
だからローリングシャッター利用してるんだっての。

49:名無しのひみつ@転載は禁止
14/08/12 20:58:11.56 beXP6X5Y
【科学】 東大、4.37兆分の1秒の超高速で画像を撮影する「STAMP」カメラを開発 [財経新聞]
スレリンク(newsplus板:-100番)
電子シャッターがどうとかわからんが、
この辺どうなる?

50:名無しのひみつ@転載は禁止
14/08/12 21:23:13.50 kjPDESVm
>>4
最後まで読もうね

51:名無しのひみつ@転載は禁止
14/08/12 21:34:10.40 FTKnP5Y3
>>48
ああ、youtubeに説明合ったのか
これなら被写体サイズとかも関係無いわけね

この場合は、上はピクセルごとの走査間隔、
下はフレームごとの走査している時間がエイリアシングの条件に関係するのか

52:名無しのひみつ@転載は禁止
14/08/12 21:36:47.37 qFJ5wqKk
これは面白い。

53:名無しのひみつ@転載は禁止
14/08/12 21:52:24.20 uWPFh7DX
>60fpsで撮影した動画から、音声を再構築することに成功した。

サンプリング定理からすると20Hzの振動がギリギリ再構築できるくらい?
可聴域の下限だけど実際の音の課長生きがいも使って高音部を推測するとかそんなの?

54:名無しのひみつ@転載は禁止
14/08/12 21:57:15.39 qFJ5wqKk
>>53
何でそうなるんだよ・・・。ビデオの説明を見とらんのか?
解像度が効いてくるんだよ。

55:名無しのひみつ@転載は禁止
14/08/12 22:15:00.82 Xc/owbmA
その辺を撮影して音を取り出してみたら
地面から「タスケテ」と聞こえたとか恐ろしい事も起こるのか

56:名無しのひみつ@転載は禁止
14/08/12 22:18:15.75 GaygUdte
MIT脳みそスゴすぎワロタww


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch