Yearly Archives: 2010

2010-01-23

不要品の処分

無駄に場所を取っていたプリンターを処分した。幸いソフマップの買い取り対象だったので買い取りセンターへ送りつけた。送料を引くとほとんど得しないけど、処分料を取られないだけ良い。今度買うときは一番コンパクトなタイプにしよう。そういうのでも大分良くなってきたみたいだし。

大昔に買ったDVDプレイヤー専用機を処分した。PCで十分だし。解体したら十分小さな大きさになったので処分は楽だった。

他、雑ゴミを色々出して、ようやくまともな部屋になってきた。しかし、まだまだ捨てられるものは沢山ある。今後も継続して少しずつ処分していくことにしよう。

最大の問題は使わなくなったPCなんだよなぁ。テスト用に残しておきたい気持ちはあるんだけど……。

2010-01-20

ビデオニュース

クロスメディア規制の話題からvideonews.comを知って、いくつか動画を見たんですが、これ、結構面白いですね。

大臣の記者会見を見たのですが、テレビなんかだと一部分しか放送されないので、話のこれまでの流れや話の続きやらが気になってしまうことがよくあります。すべて流してもらえれば質問者の発言も分かりますし、話の流れがよく分かります。テレビのいい加減な要約よりは分かりやすいかもしれませんね。見る時間はかかりますけど。

2010-01-17

部屋の掃除進行中

キッチンにあるゴミをすぐに出せるように袋に詰めてまとめた。部屋の方は不要なものをキッチンへ追いやった。

不要な電子機器を処分したいんだけど、色々と手続きが必要。

紙ゴミは水曜日の朝に出す。

2010-01-16

I love strawberriesという文

おまえは世に存在する全てのイチゴを食べたことがあるのかよ、とか思ってしまうんですが、実際にはどのくらいのニュアンスなんですかね。私には今ひとつよく分かりません。

イヤ、そんなことはどうでも良いのですが、なぜかこの時期になるとスーパーでイチゴを買ってしまうようです。部屋の中にあまーい匂いが漂ってます。

2010-01-14

音声の均一化

どうすれば何万ファイルもある音声ファイルの音量を均一化できるだろうか。今手元にあるそれらのファイルは、録音レベル(録音環境に起因する音量レベル)がそれぞれ大きく異なる。一つのファイルに収録されているのは数秒から十数秒の一人台詞。ただ、全く録音レベルがバラバラなのではなく、近いファイル名のものは近い録音レベルであることが多い。

ピークレベルや実効値(RMS)で正規化(ノーマライズ)するという方法は使えない。例えば「ふぅ……」みたいなため息は音量が極端に小さい。これを普通の台詞の音量と揃えると、耳元で「ふぅ……」と言われてるような大きな音になってしまう。逆に普通の台詞を「ふぅ……」へ合わせたら、とても小さな遠くで喋っているような音になってしまう。

録音レベルがある程度の範囲に収まっているのであれば、コンプレッサをかけてから増幅すればおおよそ問題無く揃う。しかしそれにも限度があって、録音レベルに何倍もの開きがあるようだとコンプレッサの影響で大きい方のファイルの音質がかなり悪くなってしまう。

問題の原因は、音量の違いが録音レベルに起因するのか、それとも喋り方・喋る内容に起因するのかを判別できないところにある。あるファイルのRMS値が小さかった場合、それがその日の体調やマイクとの距離や録音機材の設定によるものなのか、それとも意図的に小さく喋ったものであるのかは容易には判別できそうもない。それなりに高度な解析が必要になると思われる。

しかし希望はある。今手元にある音声ファイルの音量は、全くランダムというわけではない。数百から千程度は一度に同じ状況で収録しているので、それらのファイルの中で大きく録音レベルが変わることはほとんど無い。

状況を確認するために、音声ファイルごとの音量(RMS)を出力するプログラムをC++で作成した。wave_rms.cppはカレントディレクトリ以下にある.wavファイルの有音部分のRMSを求め、標準出力へ出力する。

手元のファイルのうち、頭の数千をこのプログラムにかけ、結果をグラフ化したのが以下。横軸がファイル名、縦軸が音量[db]である。

音声ファイル(横)と音量(縦)のグラフ(調整前):

20100114_voice_levels.jpg

ファイル名先頭のアルファベットは喋っている人の違いと思っていただきたい。

bの人の途中からガクンと音量が上がっていることが分かる。bの後半、c、dはほぼ同じくらいの録音レベル。e、f、iになるとまた下がる。fはe、iに比べてあまり音量差が無く、それほど小さくならないことも分かる。

結局、この録音レベルが異なる領域ごとに個別の設定で音量を整えることで、均一化させることにした。

以下は調整後との比較。

音声ファイル(横)と音量(縦)のグラフ(調整後):

20100114_voice_levels2.jpg

てきとー。