IT業界の仕事とは/声と言葉をデータ化~デジタル音エンジニア編
意外と詳しくは知らない、ITの世界。
PC使って仕事してるんでしょ...??から一歩脱するために、
業界初心者が同じ目線で職業レポートをするシリーズです。
どんな分野があって、具体的にどんな仕事をしているのか。
おおまかなタイプ分けはこちら↓
このページの内容
音声処理について
オーディオエンジニアに必要な知識や技術
音声認識のしくみ
Hey,Siri、Alexa、と言えば身近ですね。
我々が話しかけて入力された音声は、
→①まず機械が扱いやすい形に変換され、
→②そこから一音(一文字)の区切りを認識し、
→③単語として認識、文章化
...というような流れで、音声がデータとして処理されています。
①機械が扱いやすい形
とは、要はデジタル化のこと。
音声だけ与えても機械は音として認識できないため、
音の信号に変換し、ノイズの除去も行います。
この工程のことを「音響分析」といいます。
②一音ずつの区切りを認識する工程は、
「音響モデル」と呼ばれています。
日本語なら、母音(あいうえお)、ん、子音(23種類)でできているので、
それをもとに、どこまでが一音(一文字)かを認識して区切る作業です。
そして、③音の集まりを単語として認識し、
それらを組み合わせて文章にしていく工程を
「言語モデル」と呼びます。
上記のような段階を踏んで音声認識を行う方式を
”DNN-HMM”といい、従来からあるものだそう。
そして、音響分析のあとをAIが処理する方式を
”End-to-End”といい、新たに登場したものだそうです。
こうして、音をデジタルデータとして扱えるようにする
オーディオ信号処理エンジニアというポジションがあります。
知識や技術
この分野では演算(計算)が登場するので、数学が必要になります。
微分・積分、線形代数、確率・統計...などが分かっている必要があるそうです。
学校で習っている時、何に使うんだこんなの?!
って文句言っていたものが、ちゃんと必要になる現場があると。
また、「音響分析」とか、DNN-HMM、End-to-Endって検索してみると、
数学苦手な人がアレルギー出そうな数式が並んでいます。
プログラミング言語としては、C/C++、Pythonなど。
また、数値解析ソフトであり機械学習が行える
MATLABやRなどが使えると良いそう。
C
機械が理解できる言語に近く、めちゃくちゃいろんなことができる。
産業用ロボットの開発。
Mac OSなどPCの基本的なシステムの開発。
Javaなど他の言語では難しい組み込みシステムの開発、実装。
電子レンジや洗濯機、エアコンやプリンタなどの家電、カーナビや自動車の制御なども。
Python:(パイソン)
AIで活用。ソフトバンクのPepperくんもPythonで開発されている。
データベースから必要な情報を持ってきて分析、図やグラフを作れる。
炊飯器などの家電やスマホに組み込むプログラムを作れる。
Webアプリやサイトを作れる。Google、Dropbox、Instagram、PinterestなどはPython。
しばらくSNSで、アレクサにきつめの冗談を返させるタイプの投稿が
流行っていた気がしましたが、これも音声認識の技術あってこそですね。
コンピュータ相手にいくら良い話をしても、
素晴らしい演奏を聴かせたとしても、
そもそも音として認識してくれないですから、
なんにも伝えられません。
それが電気信号になり、デジタルデータになることで
コンピュータも認識できるようになり、
音を音としてPC上で加工できるようになったり、
機械から音を発することができるようになったり、
さらに言葉として認識させられるようになったり...
と、いろんな発展技術の基盤になっている部分なんですねb
ということで、人と機械を音で結ぶために、
音声データを処理するエンジニアのお話でした。
今回のレポートは以上です。
ではまた!
この記事の投稿者
入社間もない採用アシスタント兼広報担当。
学歴高卒/完全未経験で拾っていただき、日々勉強しながら&調べながら発信中。
とりあえずITパスポートは入社後3週間ちょいで取得済。
趣味は絵とカラオケと自転車(眺める専)、九州の実家には拾った猫3匹&カメ1匹が鎮座。
参考にさせていただいた書籍やサイト(順不同・敬称等略)
情報処理エンジニア職業ガイド / 豊沢 聡 / 大間 哲 ◎共著
https://aismiley.co.jp/ai_news/what-is-the-mechanism-of-voice-recognition-using-ai/