適応フィルターの入力信号に現れる経路中で発生した参照信号に由来しない信号は外乱と呼ばれ、 通話機器の場合には雑音に加え会話音声も外乱となります。 ここではエコーキャンセラーの外乱の一つであるダブルトーク(同時通話)を中心に外乱に対する性能について記します。
適応フィルター、エコーキャンセラーは「03.エコーキャンセラーのしくみ」でも述べたように、 スピーカー出力からマイク入力までを参照信号(スピーカーに出力する信号)と入力信号(マイクから入力された信号)から 経路の特性となる伝達関数を推定(同定)して音響エコーの抑制動作をしています。
エコーキャンセラーにとっての外乱とは、マイクに入力される雑音(マイクやアンプ、スピーカーで発生する雑音も含めて)や 環境内で発生した突発的な音など、参照信号に由来しない要因によって入力信号中に含まれた信号成分を指します。
適応フィルターの伝達関数は、スピーカー出力信号がマイク入力信号となるまでの スピーカーやマイクの特性と含む回路の特性です。
制御の分野では、スピーカーとマイク間のような回路を未知のシステムなどと呼ばれ、 システムの伝達関数を推定することをシステム同定と呼びます。
Noize Suppressor(ノイズサプレッサー)は、 目的とする信号以外の周波数帯域をレベル抑制してS/Nを向上させるための回路、信号処理技術です。
S/N(Signal Noize Ratio)は、目的としている信号と雑音の比率です。
単位はdB(デシベル)が使われ、S/N比が高いと雑音が少なく、低いと雑音が高いことを表します。
用語 : db(デシベル)
アルゴリズム(Algorithm)とは、計算方法、手法です。
受話側で発生した、雑音、突発音、話者の声まで送話側の信号に由来しない信号は全て外乱となります。 話者の声を音質に影響を与えないように送信信号として送り出すことは当然ですが、 環境雑音や周囲のに対してもエコーキャンセラーの回路、信号処理では影響を与えない、受けないことが理想です。
周囲雑音が大きい場所で通話した場合の通話音声とのS/N比(信号雑音比)は、 音声通話機器として確保するための役割は、ノイズ・サプレッサーなどの機能によって実現すべき機能です (アーティフィット・ボイス シリーズはノイズリダクション機能とエコーキャンセラー機能を連動させていますが、 エコーキャンセラー自体が雑音抑制をしているわけではありません)。
適応型エコーキャンセラーの基本となる適応フィルターの技術は、 外乱の影響の少ない状態の閉回路などのシステム同定の技術を応用されている技術です。 適応フィルターは、複数の信号処理アルゴリズムが提案されており、 アルゴリズムによって外乱の影響の受け方、通話時の特性が異なります。
J-FHF方式では影響のない点も含みますが、 一般にアルゴリズムの違いによって現れる表面的な違いは主に次のような点です。
これらの通話機器で見られるエコーキャンセラーの性能の違いは、 適応フィルター自体の性能の違いによるものと、 適応フィルターをエコーキャンセラーに応用するにあたって制御部などに加えられた対策よる違いが含まれています。
キャンセル性能の低下と誤差の増加は、 どちらも適応フィルターが外乱の影響を受け、同定の性能が低下していることに起因する同じ現象です。 表面的に誤差が増加して音響エコーの抑制性能が低下するという現象と、 外乱による誤差が増加するためキャンセル量を控えて誤差による影響を少なくなるような制御しているという 2つの理由が考えられます。
J-FHF方式の場合には、外乱の影響によるキャンセル性能や誤差の増加が少ないアルゴリズムです。
収束速度の違いは、外乱発生時としてあらわれる可能性と、定常的に収束速度が遅い性能となっている場合があります。 外乱に対して収束速度に影響を与える理由は、収束速度を高速にすると外乱発生時に発散しやすいアルゴリズムの場合、 収束速度を遅くすることで外乱の影響を低下させるための措置となるからです。
J-FHF方式の場合は、参照信号からフィルター係数の学習制御が行われるため、 外乱と収束速度は、そもそも相関関係にはありません。 本来の高速な収束性能のままで外乱に対するバランスなどを配慮してチューニングするような必要はありません。
雑音に対するエコーキャンセラーの性能の差は、比較的許容されることもあるかもしれませんが、 外乱の影響で重要な点は、適応フィルターの多くは、受話側の音声に対しても雑音以上に影響を受けて性能が低下するという点です。
全二重の音声通話システムは双方向に任意の会話が交わされます。 目的は会話によるコミュニケーションですから通話音声品質が重要であることは言うまでもありません。
ところが、多くの適応フィルターの基本アルゴリズムは受話側の音声を外乱という苦手な信号成分としています。
適応フィルターのアルゴリズムは、未知の閉回路のシステム同定のしくみです。 エコーキャンセラーに応用した場合には、 その適応フィルターのアルゴリズムが提案された条件より圧倒的に外乱要因の信号が多い状態であるため、 古くから存在しているアルゴリズムのままではエコーキャンセラーとしての実用性には難があります。
そのため、実用されている多くのエコーキャンセラーは、 外乱が存在しても利用できるように工夫された機構になっています。 適応フィルターの構造上、フィルター部の違いは収束動作の違いではないため、 制御部、フィルター係数更新処理(学習)や正規化処理などの違いになります。
しかし、基本的なアルゴリズムを継承しながら、苦手とする外乱を完全に克服することは難しいため、 通話音声の品質が低下したり、条件によって音声が途切れるなどの症状が発生しています。
実用されているアルゴリズムに対する対策は様々ですし、公開されていない場合もありますから、 類推を含みますが、おおよそ簡易に対策できることは類似しています。
用いられる手法は次のような手法が典型的です(J-FHFは該当しませんが)。
音声通話信号のレベルに閾値を設けて音声回線の有効性を検出するような 音量による処理をVAD(ボイスアクティビティ検出)といいます。
Echo Suppressor(エコー・サプレッサー)はNLP( Non-Linear Processor )とも呼ばれる 送話受話回線の音量比較によって、優先する回線を決定し、 非優先側の回線の音量を低下させることで音響エコーを抑制する技術です。
用語と補足 : エコーサプレッサー
LMS(Least Mean Square)は、 誤差を最少になるように継続的にフィルターの係数を更新する適応フィルターのアルゴリズムです。
NLMS(Normalized LMS)は、LMSに正規化ファクターを追加し、 音量による収束速度の影響を改善されたアルゴリズムです。 他にも適応フィルターのアルゴリズムは提案されていますが、 NLSMを改良した方式は、実用として採用されていることも多い 基本的なアルゴリズムとなっています。
1つめは、VADや相関を利用して適応フィルターの制御部、学習係数などに何等かの変化を与える手法です。 NLMS方式などを基本としながら制御部の挙動が違うと言われているようなケースはこのようなタイプです。
VADで送話受話の優先を判定して挙動を変えたり、 何らかの信号の相関を以って学習係数や正規化係数に変化を与え、外乱の影響を低下させるアイデアです。
基本的には、VADによって受話側の送話音声が エコーキャンセラーに影響を与えず通過するように制御することになります。 外乱がある場合には学習更新を低下させたり、キャンセル量を控えたり色々外乱による誤差影響を低下させることは考えられますが、 エコーキャンセル性能と追従性能の維持したまま対策実現することは難しいと推測されます。
次にVADをそのまま回線に適用するエコーサプレッサーをハイブリッド化して利用するという方法です。
外乱による制御の変化での対応は困難なので、この部分は変更せず、 適応フィルターが発散するような外乱が発生したら潔く音声回線を落とすような対策がされたものです。
この対策の場合、良好な条件下での通話とシングルトーク(片側通話)時にはエコーキャンセラーが機能し、 雑音が高い場所や突発雑音、ダブルトーク(同時通話)時には、音声や環境音が途切れる、 もしくは、エコーキャンセルされなくなるような挙動を示すことになります。
NLMSの基本アルゴリズムでは、フィルター係数更新に影響を与える、収束速度(学習係数)、 音量差の影響をなくすための正規化ファクター、参照信号の音量による制御とするためのトータルエネルギー の3つの代表的な制御因子がありますが、これらの制御を簡易に行う対策では、 キャンセル性能を維持したまま外乱に対応することは困難です。
特にダブルトーク時には、送話受話のVADは音声が途切れるような要因とはなっても、 改善のためには無力に等しく、送話受話の相関が低下した時に学習を抑制するような方法はキャンセル性能を完全には維持できません。 しかも、環境雑音自体が大きいケースや突発音、発音と条件が色々なため、使用条件によって弱点が発現する可能性も否定できません。
アーティフィット・ボイスシリーズが利用しているJ-FHF方式(高速H∞フィルター)は、 外乱ノイズ耐性が強く、ロバストで高速、ダブルトーク時の性能に優れます。 続けて、J-FHF方式が外乱やダブルトーク性能に優れる理由を簡単にご案内します。
J-FHFの制御部のアルゴリズム上の構造によって従来技術に対する優位性が決定づけられています。
LMS/NLMS方式を基本アルゴリズムとする場合、FIRフィルターの係数を更新制御に関わる学習係数は1つが用いられます。 伝達関数のタップ全体に対して1つの学習係数が作用するという基本的なアルゴリズムの構造は、 外乱が発生した時のフィルター係数への影響が大きくなります。
学習係数に相関など何等かの処理によって誤差信号を利用して可変するような方法は、 フィードバックが形成されるため、制御の難易度が上がる上、その影響が伝達関数全体に影響を及ぼすことに変わりがないため、 ダブルトークのような条件をクリアすることは困難です。
J-FHFも誤差信号による適応制御をしているため、外乱による影響は受けますが、 フィルターのタップ毎に学習係数が独立に収束動作をしているため、 伝達関数全体が発散に向かうような挙動にはならないという基本的な構造の違いがあります。
ダブルトーク状態では、J-FHFでも係数が一部不正な状態になるのは確率が低いながらも完全には避けられませんが、 全体が大きく発散に向かうような動作にはならず、その影響がわずかです。
J-FHFの学習係数ベクトルは、完全に参照信号によって算出されているため、入力信号に現れる外乱の影響は受けません。 当然ですが、外乱は入力信号や誤差信号に由来する信号を用いるアルゴリズムに影響します。 J-FHFは外乱に対応するために外乱信号を用いて制御する構造にはなっていないため、 外乱に対する耐性が強いというより、制御部では影響を受けません。
このような基本アルゴリズムの性質がダブルトーク性能や外乱ノイズに対する耐性を決定づけています。 外乱ノイズに対する性能は、音声通話システムに限らず、音声認識システムなど、広くの応用用途で有用な特長となっています。
エコーキャンセラー・ソフトウェア製品についてご不明な点などございましたら、 ARI Artifit Voice担当までお気軽にお問い合わせください。 お客様の秘守に関しましては機密保持契約(NDA)を締結させていただいた上でご相談賜ります。