• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 訂正 ただし書き2号誤記又は誤訳の訂正 訂正する H03M
審判 訂正 ただし書き3号明りょうでない記載の釈明 訂正する H03M
管理番号 1148647
審判番号 訂正2006-39162  
総通号数 86 
発行国 日本国特許庁(JP) 
公報種別 特許審決公報 
発行日 1992-06-04 
種別 訂正の審決 
審判請求日 2006-09-28 
確定日 2006-11-21 
訂正明細書 有 
事件の表示 特許第2811369号に関する訂正審判事件について、次のとおり審決する。 
結論 特許第2811369号に係る明細書及び図面を本件審判請求書に添付された訂正明細書及び図面のとおり訂正することを認める。 
理由 1.請求の要旨
本件審判の請求の要旨は、特許第2811369号発明(1990年1月29日(パリ条約による優先権主張外国庁受理1989年1月27日、米国、1989年11月20日、米国、1989年12月29日、米国)を国際出願日とし、平成10年8月7日設定登録)の明細書及び図面を審判請求書に添付した訂正明細書及び図面のとおり、すなわち、下記(1)ないし(9)のとおり訂正(以下、「本件訂正」という。)することを求めるものである。

(1)訂正事項1
特許請求の範囲の請求項1、請求項2、請求項4、及び請求項5の記載中の「・・・前記初期ウインドウを巻き込むこと・・・」(各項とも、2箇所に記載有り)を、「・・・前記初期ウインドウをたたみ込むこと・・・」と訂正する。

(2)訂正事項2
特許請求の範囲の請求項2及び請求項5の記載中の「・・・オーディオ情報サンプルのブロック分析ウインドウ関数で重み付けすること・・・」を、「・・・オーディオ情報サンプルのブロックを分析ウインドウ関数で重み付けすること・・・」と訂正する。

(3)訂正事項3
特許請求の範囲の請求項2及び請求項5の記載中の「・・・前記加重関数は・・・」を、「・・・前記合成ウインドウ関数は、・・・」と訂正する。

(4)訂正事項4
特許請求の範囲の請求項2及び請求項5の記載中の「・・・前記対内の両ウインドウの積が第2長さの重複間隔を有する前記第2長さの積ウインドウであり、・・・」を、「・・・前記対内の両ウインドウの積が第2長さの重複間隔を有する前記第1長さの積ウインドウであり、・・・」と訂正する。

(5)訂正事項5
特許公報の第27頁10行目の記載に係る明細書中の「(0≦n<Nsに関して)」及び11行目の「(k)=」を、各々「(0≦k<N-vに関して)」及び「S(k)=」と訂正する。

(6)訂正事項6
特許公報の第28頁55欄9行目の式(19)の記載に係る明細書中の「0-≦n<N」を、「0≦n<N」と訂正する。

(7)訂正事項7
特許公報の第28頁55欄48行目の「II.本発明の交互的DFTの実施」を、「II.本発明の代替的DFTの実施」と訂正する。

(8)訂正事項8
特許公報の第30頁21行目及び24行目に係る明細書中の「・・・0≦n<N (25)」及び「・・・0≦n<N (26」を、各々「・・・0≦n<N (26)」及び「・・・0≦n<N (27)」と訂正する。

(9)訂正事項9
特許公報の第9頁18欄5行目の「・・・アナろぐ出力・・・」を、「・・・アナログ出力・・・」と訂正する。

2.当審の判断
本件訂正について、以下のとおり判断する。

(1)訂正事項1について
「巻き込む」を「たたみ込む」と訂正することは、特許公報の第26頁51欄43行目及び52欄33?34行目に「重複・加算条件を満足させるために、長さv+1のウインドウW(n)を長さN-vの長方形ウインドウでたたみ込むことによって、」と記載されていることと整合させるためのものであるから、明瞭でない記載の釈明を目的とする訂正に該当する。

(2)訂正事項2について
当該訂正事項を含む文章として、特許請求の範囲の請求項2及び請求項5に記載された「オーディオ情報サンプルのブロック分析ウインドウ関数で重み付けすることによって分析ウインドウ加重サンプルブロックを発生させて、」を検討すると、イ)「ブロック分析ウインドウ関数」という表現は当該記載を除き明細書中に見あたらない、ロ)当該記載のままでは、分析ウインドウ加重サンプルブロックを発生のため、何を重み付けするのか不明である一方、ハ)特許請求の範囲の請求項1及び請求項4に「加重関数で各信号サンプルブロックを重み付けする」と記載されていることを参考にすれば、訂正前の「・・・オーディオ情報サンプルのブロック分析ウインドウ関数で重み付けすること・・・」は、本来、訂正後の「・・・オーディオ情報サンプルのブロックを分析ウインドウ関数で重み付けすること・・・」を意味するものであることが明らかである。よって、訂正事項2は、誤記の訂正を目的とするものに該当する。

(3)訂正事項3について
当該訂正事項を含む文章として、特許請求の範囲の請求項2及び請求項5に記載された「合成ウインドウ関数で該時間領域信号サンプルブロックを重み付けし、前記加重関数は各々が第1長さの分析・合成ウインドウ対内の合成ウインドウであり、」を検討すると、イ)「加重関数」は前記に存在せず、ロ)同じ請求項内で「前記」に相当する関数は、「分析ウインドウ関数」と「合成ウインドウ関数」のみである一方、ハ)「前記加重関数は各々が第1長さの分析・合成ウインドウ対内の合成ウインドウであり、」という記載からみて、「前記加重関数」は合成ウインドウに関するものであることが明らかである。すると、「前記加重関数」を「前記合成ウインドウ関数」に訂正することは、請求項2及び請求項5中の他の記載との関係において、不合理を生じている記載を正すものであるから、明瞭でない記載の釈明に該当する。

(4)訂正事項4 について
特許公報の第27頁53欄の14?24行目及び54欄の13?15行目に記載された「式(15)及び式(16)に示される分析及び合成ウインドウは、誘導された積ウインドウWP(n)をそれぞれS及びAで累乗することによって得られる。
すなわち
WA(n)=WP(n)A 0≦n<N (15)
WS(n)=WP(n)S 0≦n<N (16)
ここで、
WP(n)=誘導された積ウインドウ(式13及び式14を参照のこと)
WA(n)=分析ウインドウ
WS(n)=合成ウインドウ
N=積ウインドウの長さ
A+S=1
である。」によれば、「積ウインドウ」は「N」の長さであることが明らかである。また、分析ウインドウWA(n)及び合成ウインドウWS(n)は、何れも0≦n<N なのであるから、長さNであることが明らかである。
すると、特許請求の範囲の請求項2及び請求項5に記載された「各々が第1長さの分析・合成ウインドウ対」における「第1長さ」は、発明の詳細な説明に記載された「N」に対応することが明らかであるが、この対応関係から言えば、同じく請求項2及び請求項5に記載された「積ウインドウ」も第1長さでなければならない。よって、請求項2及び請求項5に記載された「前記第2長さの積ウインドウ」を「前記第1長さの積ウインドウ」に訂正することは、発明の詳細な説明の記載との関係において、不合理を生じている記載を正すものであるから、明瞭でない記載の釈明に該当する。
なお、特許公報の第26頁52欄の35?36行目の「値vは、ウインドウ重複・加算期間である。」旨の記載によれば、重複間隔の長さはvであることが明らかであるから、特許請求の範囲の請求項2及び請求項5に記載された、「第2長さの重複間隔」における「第2長さ」は、発明の詳細な説明に記載された「v」に対応する。一方、前記したように、「積ウインドウ」は「N」の長さ(第1長さ)であるから、この点からも、「第2の長さの積ウインドウ」との記載は、他の記載との関係で不合理を生じるものであることが明らかである。

(5)訂正事項5
特許公報の第26頁51欄43行目及び52欄33?34行目の「重複・加算条件を満足させるために、長さv+1のウインドウW(n)を長さN-vの長方形ウインドウでたたみ込むことによって、長さNの分析・合成積ウインドウWP(n)が誘導される。」旨の記載に基づいて、同第26頁44?50行に記載された式13を解釈すれば、式13中のS(k)はたたみ込むための長方形ウインドウを指すことが明らかであるとともに、同第27頁11行目の「(k)」は、その=の右辺の記載内容から見て、これが長方形ウインドウS(k)であることが明らかである。そして、同第27頁10行目の「(0≦n<Nsに関して)」について言えば、「Ns」という表現は当該箇所以外に見あたらない一方、前記記載によれば、長方形ウインドウの長さはN-vなのであるから、「0≦n<Ns」は「0≦k<N-v」でなければならない。
すると、当該訂正はそれ自体の記載内容が他の記載との関係において、不合理を生じている記載を正すものであるから、明瞭でない記載の釈明に該当する。

(6)訂正事項6
特許公報の第28頁55欄9行目の式(19)の説明に関して「0-」との表現は見あたらず、また、前記「(4)訂正事項4 について」の項で述べたように、積ウインドウの長さはNであるから、特許公報の第28頁55欄9行目の式(19)の記載におけるnの範囲は「0≦n<N」であることが明らかである。よって、「0-」は、本来、「0」を意味するものであることが明らかであるから、当該訂正は誤記の訂正に該当する。

(7)訂正事項7
特許公報の第12頁24欄48行目の「I.本発明の好ましい実施例」の記載及び同44?49行目の「当出願においては、この技法を時間領域エイリアシング相殺(Time-Domain Aliasing Cancellation:TDAC)と呼ぶ。本発明のもう1つの実施例においては、離散フーリエ変換(DFT)を用いることもできる。DFT版に関する好ましい実施例については、TDAC版について十分述べた後に論考する。」の記載に対して、特許公報の第28頁55欄48行目?56欄の4行目の「.本発明の交互的DFTの実施
TDAC変換は大半の用途に対して好ましいが、しかし、TDACコーダでは、離散フーリエ変換(DFT)を基盤とするコーダにおけるよりも多くの演算資源を必要とする。DFTを用いることにより、16有意ビットに対して必要とするメモリ、処理速度、計算精度のより少ないコーダが実現される。」の記載を対比して考慮すれば、「II.」の項では、「I.」の項で説明したTDACに代替するものとしてDFTによるものを説明することが明らかであるから、特許公報の第28頁55欄48行目の「II.本発明の交互的DFTの実施」を、「II.本発明の代替的DFTの実施」と訂正することは、それ自体の記載内容が他の記載との関係において、不合理を生じている記載を正すものであるから、明瞭でない記載の釈明に該当する。

(8)訂正事項8
特許公報の第30頁8?13行目に記載された式(25)と、特許公報の第32頁10行目に記載された式(28)の間に配置された特許公報の第30頁21行目及び24行目に記載された2つの式の番号は、各々、本来、(26)及び(27)を意味することが明らかである。よって、当該訂正は誤記の訂正に該当する。

(9)訂正事項9
特許公報の第9頁18欄5行目の「アナろぐ」は、本来「アナログ」の意味であることが明らかであるから、当該訂正は誤記の訂正に該当する。

そして、上記訂正事項1?9は、何れも、願書に添付した明細書又は図面に記載した事項の範囲内のものであり、また、実質上特許請求の範囲を拡張し、又は変更するものではないことは明らかである。

3.むすび
以上のとおり、本件訂正は、平成6年改正前特許法第126条第1項第2号(誤記の訂正)及び同項第3号(明瞭でない記載の釈明)を目的とするものに該当するとともに、同条第2項(実質上特許請求の範囲を拡張し、又は変更するものでないこと)の規定に適合するので、当該訂正を認める。

よって、結論のとおり審決する。
 
発明の名称 (54)【発明の名称】
高品質オーディオ用短時間遅延変換コーダ、デコーダ、及び、エンコーダ・デコーダ
【発明の詳細な説明】
技術分野
本発明は、概して、音楽信号のようなオーディオ信号の高品質、かつ低いビット伝送速度のディジタル信号処理に関する。とりわけ、本発明は、音楽信号用の変換エンコーダ及びデコーダに関する。当該エンコーダ及びデコーダは、短い信号伝ぱん遅延を有する。話者が自身の声を監視しなければならない放送用音声のような用途では、短い遅延時間が重要である。音声フィードバックの遅れは、当該遅れが非常に短くない限り、発言に重大な混乱を生じる。
背景技術
先行技術における変換符号化では、耳障りな可聴ひずみを生じることなく低いビット伝送速度を達成するために、長い信号サンプル・ブロック長を用いた。例えば、EP0251028中に開示されている変換コーダでは、1024サンプルのブロック長を用いている。短いブロック長を用いると変換コーダの選択性が劣化するので、長いブロック長が必要であった。フィルタの選択性は肝要である。何故ならば、十分なフィルタバンク(列)選択性を有する変換コーダでは、聴感上の音響心理的なマスキング性を利用して、符号化される信号の本質的な品質を劣化させることなくビット伝送速度の要件を低減させることができるからである。
長いブロック長を用いるコーダは、2つの問題に悩まされる。すなわち、(1)変換ブロック全体にわたる過渡的効果の一時的な拡がりによって引き起こされる大きな過渡現象を有する可聴ひずみの問題と、(2)符号化及び復号化過程における信号の極端な伝ぱ遅延の問題とである。先行技術のコーダにおいては、話者が自身の声を監視しなければならない放送用音声のような用途に対しては、これらの処理遅延は余りにも大き過ぎる。音声フィードバックの遅延は、当該遅延を非常に短く保たない限り、発言に重大な混乱を生じる。
本発明の背景技術については、以下の背景技術の概括において更に詳細に論考する。
信号処理の分野の関係者の間では、所与の信号を十分に表現するのに必要な情報の量を極少化する方法を発見すべく大きな関心が持たれている。必要な情報を低減させることによって、より狭い帯域幅の通信チャネルを通して信号を伝送したり、より少ない空間内に信号を記憶することができる。ディジタル技法に関しては、最少情報の要件は、二進ビット要件と同義である。
ビット要件の低減は、2つの要素によって制限される。すなわち、これらの要素は、
(1)帯域幅Wの信号は、2×W程度の周波数で標本化される一連のサンプルによって、正確に表現される。これがナイキストのサンプリング・レートである。したがって、帯域幅Wを有する長さT秒間の信号を正確に表現するには、少なくとも2×W×T個のサンプル数が必要であることと、
(2)連続する範囲のどのような数値をも取り得る信号サンプルの量子化では、量子化ステップ・サイズ又は解像力に比例する信号表現上の誤りを生じる。これらの誤りは量子化誤差と呼ばれる。これらの誤差は、信号サンプルの量子化の表現に利用できるビット数に反比例することである。
もし全帯域幅に対して符号化技法が適用されると、雑音として現れる総ての量子化誤差は、帯域幅全体にわたって均等に拡散する。スペクトルの選ばれた部分に適用できる技法によって、量子化雑音のスペクトルの拡散を制限することができる。2つの周知の技法、サブバンド符号化及び変換符号化については、IEEE学会誌1879年ASSP-27巻10月号の512ページから530ページまでのトゥリボレー及びクロシエールによる論文、「言語音声の周波数領域符号化」(Tribolet and Crochiere,“Frequency Domain Coding of Speech”,IEEE Trans.on Acoust.,Speech,Signal Proc.,vol.ASSP-27,October,1979,pp.512-30)中で論じられている。サブバンド符号化又は変換符号化を用いることによって、量子化雑音が特に耳障りな特定の周波数帯において,当該周波数帯を小さいステップ・サイズで量子化することにより量子化誤差を低減させることができる。
サブバンド符号化は、一連のディジタル帯域フィルタバンクによって実行することができる。変換符号化は、ディジタル帯域フィルタバンクをシミュレートする幾つかの時間領域対周波数領域変換を任意に行うことによって実行することができる。変換はディジタル・フィルタよりも実行が容易であり、計算処理能力及びハードウエアも少なくて済むが、変換係数で表わされる各帯域フィルタの「周波数ビン」が均一な帯域幅を有する点で設計上の柔軟性に欠ける。これと対照的に、ディジタル帯域フィルタバンクは、異なるサブバンド帯域幅を有するように設計することができる。しかし、変換係数は、単一変換係数帯域幅の倍数である帯域幅を有する「サブバンド」を定めるようにグループ化することができる。以下本明細書では、「サブバンド」という用語は、サブバンド・コーダ又は変換コーダの何れで実行されるにせよ、全信号帯域幅の選ばれた部分を指すものとして用いる。「サブバンド」という用語をこのように用いる理由は、トゥリボレー及びクロシエールによって論考されているように、サブバンド・コーダと変換コーダとの数学的基板は互換性があるので、この2つの符号化方法は相互に複製できる可能性があるためである。変換コーダで実行されるサブバンドは、隣接する変換係数又は周成数ビンの1つ又は2つ以上の組によって決定される。変換コーダの周波数ビンの帯域幅は、変換コーダのサンプリング・レート、及び各単一信号サンプル・ブロックにおけるサンプル数(変換長)に依存する。
トゥリボレー及びクロシエールは、サブバンド帯域フィルタの2つの特性がサブバンド間の信号漏洩の量に影響を与えるので、これら2つの特性がサブバンド・コーダ系の性能には特に重大であることに注目した。第1の特性は、フィルタの通過帯域と阻止領域との間の領域の帯域幅(僊移帯域)である。第2の特性は、阻止帯域中での減衰レベルである。本明細書で用いられているように、フィルタの「選択度」の尺度は、僊移帯域内でのフィルタの応答特性の鋭さ(僊移帯域ロールオフ)と、阻止帯域中での減衰レベル(阻止帯域排除の深さ)とである。
トゥリボレー及びクロシエールの論文から、サブバンド間の漏洩は、それによってスペクトル分析の結果が狂わされ、得られるスペクトル形状に応答して行われる符号化の決定に悪い影響を与えるので、サブバンド・コーダ系にの性能に対して特に重要であることが分かっている。かかる漏洩によって周波数領域エイリアシングをも生じる。これらの効果については、以下で更に詳細に論考する。
サブバンド帯域フィルタの2つの特性、すなわち、僊移帯域ロールオフの鋭さと阻止帯域排除の深さとは、耳が可変中心周波数を持つ極度に非対象な同調されたフィルタの周波数分析特性と類似の特性を示すので、特に重大である。耳の同調されたフィルタの周波数分解力は、オーディオのスペクトル全体にわたって周波数につれて変わる。約500Hz以下の周波数においては周波数的に相互に接近して存在する信号を耳は識別することができるが、可聴限界に向かって周波数が上昇するにつれてこの識別可能な信号間の周波数的な幅は拡がる。このような聴覚上のフィルタの有効帯域幅は、臨界帯域と呼ばれる。臨界帯域の重要な特質は、音響心理学的マスキング効果が臨界帯域内で最も強く現れること、すなわち、臨界帯域内の何処でも他の信号の可聴性が臨界帯域内の支配的な信号によって抑制されることである。この臨界帯域の外側の周波数の信号は、それ程強くは掩蔽されない。これについて広く理解するためには、サン・フランシスコのマッグロウヒル社1988年出版の、K.ブレア・ベンソン編の「オーディオ・エンジニアリング・ハンドブック」の1.40ページから1.42ページまでと、4.8ページから4.10ページまでと(Audio Engineering Handbook,K.Balir Benson ed.,Mc-Graw-Hill,San Fransisco,1988)を参照して欲しい。
もし可聴スペクトル全体を通してサブバンドの帯域幅がこのスペクトルの同一部分における耳の臨界帯域幅の約半分であるならば、音響心理学的マスキングは、サブバンド及び変換コーダによって更に容易に達成される。何故ならば、耳の臨界帯域には聴覚上の刺激に適応する可変の中心周波数を具えているのに対して、サブバンド及び変換コーダは典型的に固定の中心周波数を具えているからである。音響心理学的マスキング効果を利用する機会を最適化するために、支配的信号の存在に由来する総ての人工的ひずみは、支配的信号を含むサブバンドに制限されなければならない。もしサブバンド帯域幅が臨界帯域の約半分又はそれより小さければ(また、もし、僊移帯域ロールオフが十分に鋭く、阻止帯域排除が十分に深ければ)、サブバンド通過帯域幅の縁に近い周波数を有する信号に対してさえも、望ましくないひずみを最も効果的に掩蔽する可能性がある。もしサブバンドの帯域幅が臨界帯域の半分より大きければ、支配的信号によってコーダのサブバンドから耳の臨界帯域が相殺されて、耳の臨界帯域幅の外側で生じる望ましくないひずみの幾分かが掩蔽されない可能性がある。これらの影響は、耳の臨界帯域がより狭い、低い周波数においては最も耳障りである。
変換符号化は、信号サンプル・ブロック長、変換符号化誤差、及びエイリアシング消去を含む幾つかの要因に依存している。
ブロック長
変換関数は変換を行う前に全ブロック中の総ての信号サンプルを受取るまで待たなければならないことから、エンコーダ及びデコーダ系における理論的な最少の時間遅延は信号ブロック長の2倍である。実際の系では、計算によって更に遅延が追加されるので、この時間の期間は信号ブロック長の3倍乃至4倍にもなり得る。したがって、もしエンコーダ及びデコーダ系が短時間の伝ぱん遅延を必要とする環境で動作しなければならないのであれば、短い信号ブロック長が要求される。
ブロック長が短くなるにつれて、変換エンコーダ及びデコーダの性能は、結果的に周波数ビンを拡げなければならなくなることによるばかりでなく、帯域フィルタの周波数ビンの応答特性の劣化、すなわち、(1)僊移帯域ロールオフ率の減少することと、(2)阻止帯域の排除レベルの減少することによって、不利な影響を受ける。この帯域フィルタの特性劣化は、隣接周波数ビンにおいて望ましい信号に応答して生じる、望ましくない変換係数の生成、又は望ましくない変換係数への寄与に帰着する。これらの望ましくない寄与は、サイドローブ漏洩と呼ばれる。
したがって、サンプリング・レートによっては、ブロック長を短くすることによって、或る周波数又は全周波数、特に低い周波数において、耳の臨界帯域を超える名目的なフィルタ帯域幅が結果として生じる。たとえ名目的なサブバンド帯域が耳の臨界帯域幅よりも狭くても、広い僊移帯域、貧弱な阻止帯域排除として表される劣化したフィルタ特性によって、耳の臨界帯域幅の外側に有意な信号成分が結果として生じる。このような場合には、この系の他の面、特に量子化精度面で一層大きな制約を受けるのが通例である。
ブロック長を短くすることから生じるもう1つの不利益は、次の節に述べる変換符号化誤差が悪化することである。
変換符号化誤差
離散変換は信号の有限なセグメントのみで機能するので、離散変換では一組の完全に正確な周波数係数は生じない。厳密に言えば、離散変換では、無限の変換長を必要とする真の周波数領域の表示よりはむしろ、入力時間領域信号の時間周波数表示を生じる。しかしながら、ここでの議論の便宜上、離散変換の出力を周波数領域の表示と呼ぶことにする。実際には、離散変換では、標本化信号が、有限のサンプル間隔の整数分の1を周期とする周波数成分を持つのみであると仮定している。これは、有限長の信号が周期的であると仮定することに等しい。一般的に、この仮定は正しくない。この仮定された周期性によって、有限時間間隔の縁において不連続を生じ、これによって、変換において擬似の高周波数成分が生じる。
この効果を低減する1つの技法は、この期間の縁に近いサンプルが0に近くなるように信号サンプルを重み付けることによって、変換を行う前に非連続性を低減させることである。この期間の中心にあるサンプルは一般的に変更せずに、すなわち、係数1に重み付けして通過させる。この重み付け機能が「分析ウインドウ」と呼ばれ、これはどのような形状のものでも良いが、幾つかのウインドウはサブバンドのフィルタの性能に一層有利に寄与する。
本出願で用いているように、「分析ウインドウ」という用語は、順方向変換を適用する前に行われるウインドウ機能を指しているに過ぎない。以下に論考するように、本発明中で用いる分析ウインドウのデザインは、合成分析ウインドウ・デザイン考察によって制約される。したがって、当技術分野で一般的に用いられ用語としての「分析ウインドウ」のデザイン及び性能特性は、本発明で実施される分析ウインドウとは異なる。
ウインドウの質を評価するのに用いることができる単一の基準はないが、他方、一般的な基準には、僊移帯域ロールオフの鋭さと阻止帯域の深さとが含まれる。幾つかの応用では、鋭いロールオフと深い阻止レベルとを交換できることは有益な特質となる。
分析ウインドウは時間領域機能である。もし他の補償が行われなければ、復元若しくは「合成」される信号は、分析ウインドウの形状に従って歪まされる。補償方法には幾つかの方法がある。これらの方法は、例えば、以下のとおりである。
(a)復元された信号期間又はブロックに、重み付け係数が分析ウインドウの評価係数の逆数である逆ウインドウを乗じることができる。この技法の短所は、分析ウインドウが縁で0にならないことが明確に必要なことである。
(b)連続的な入力信号ブロックを重複させることができる。2つの隣接するウインドウが重複部を横切って一体的に合算されるように分析ウインドウを注意深く設計することによって、このウインドウ効果を正確に補償することができる。(しかし、次の節を参照のこと)。離散フーリエ変換(DFT:Discrete Fourier Transform)のような或る種の変換と共に用いる時には、この技法では、重複期間中の信号の一部を変換し、かつ2度伝送しなければならないので、当該信号を表わすのに必要なビット数が増加する。これらの形式の変換に対しては、可能な限り小さな重複期間を有するウインドウを設計することが望ましい。
(c)信号の合成は、又はデコーダ中で行われる復号化でも同様に、合成濾波が必要となろう。IEEE学会誌1980年2月号ASSP-28の99ページから102ページまでのクロシエールによる論文、「短時間フーリエ分析・合成の重み付け重複・加算方法」(Crochiere,“A Weighted Overlap-Add Method of Short-Time Fourier Analysis/Synthesis”,IEEE Trans.,Speech,and Signal Proc.,vol.ASSP-28,February,1980,pp.99-102)で論考されているように、合成ウインドウで重み付けられた重複・加算方法によって合成内挿濾波を効率的に実行することができる。このように、変換を実行する幾つかサブバンド・エンコーダでは、本発明の好ましい実施例で用いるエンコーダを含めて、重複・加算を伴う合成ウインドウ処理を用いる。更に、量子化誤差によって、有限時間期間の縁において0とならない時間領域信号が逆変換に生じる。これをそのままにして置くと、この誤差によって、復元された時間領域信号はウインドウ重複期間内で最も強く歪まされる。合成ウインドウを用いて、各合成信号ブロックをその縁で整形することができる。この場合、信号は分析及び合成のウインドウ処理を受ける。すなわち、信号はこれら2つのウインドウの積によって重み付けられる。したがって、両ウインドウとも、重複部分を横切って2つのウインドウの積が一体的に合算されるように設計されなければならない。前節における議論を参照のこと。
短い変換サンプル・ブロックでは、上記の分析及び合成ウインドウに対してより大きな補償要件が課せられる。変換サンプル・ブロックが短くなればなる程、フィルタの僊移帯域及び阻止帯域を通してのサイドローブ漏洩が一層多くなる。適切な形状の分析ウインドウでは、この漏洩が減少する。
サイドローブ漏洩は望ましくない。何故ならば、サイドローブ漏洩によって、変換においてフィルタの通過帯域の外側の信号成分の周波数を誤って表現するスペクトル係数が生じるからである。この表現誤りがエイリアシングと呼ばれるひずみである。
エイリアシング消去
ナイキスト理論では、サンプル間の期間が信号の最高周波数成分の周期の半分より短ければ離散サンプルから正確に信号を復元できるとみなしている。サンプリング・レートがこのナイキスト・レート以下であれば、より高い周波数成分はより低い周波数成分として誤って表わされる。このより低い周波数成分が真の成分に対する「偽信号(エイリアス)」である。
サブバンド・フィルタ及び有限ディジタル変換は、完全な通過帯域フィルタではない。通過帯域と阻止帯域との間の僊移は無限に鋭いものではなく、阻止帯域中における信号減衰は無限に大きくはない。その結果、通過帯域で濾波された入力信号が通過帯域遮断周波数によって示されるナイキスト・レートで標本化されるとしても、この遮断周波数よりも高い僊移帯域中の周波数は忠実には表現されない。
エイリアシングひずみが逆フィルタによって自動的に消去されるように分析及び合成フィルタを設計することが可能である。時間領域内の直角位相ミラー・フィルタにはこの特性がある。本発明の好ましい実施例で用いられている変換コーダは、ノース・ホランドのエルセフィエ科学出版社1987年出版の「音声通信」第6巻299ページから308ページまでの、ジョンソンとブラッドリーによる、「時間領域エイリアシング消去を含む適応変換符号化(Johson and Bradley,“Adaptive Transform Coding Incorporating Time Domain Aliasing Cancellation”,Speech Communications,vol6,North Holland:Elsevier Science Publishers,1987,pp.229-308)の中で論考されているものであるが、これによってもまた、エイリアシングひずみは相殺される。
サンプル・ブロック長を短くすればする程、結果的に変換コーダ中で発生する聴取可能なエイリアシングひずみを抑制するのは一層困難になる。上で説明したように、サンプル・ブロック長を短くすることによってフィルタ性能が劣化する。すなわち、通過帯域幅が拡がり、通過帯域対阻止帯域の僊移がより鋭さを失い、阻止帯域排除特性が劣化する。その結果、エイリアシングが一層顕著になる。もし不十分な精度でエイリアス成分が符号化され複号されると、これらの符号化誤差によって、逆変換でエイリアシングひずみを完全に相殺することが妨げられる。残留エイリアシングひずみは、音響心理学的に掩蔽されない限り、聴取可能なものとなろう。しかし、サンプル・ブロック長を短くすることによって、変換周波数ビンの幾つかは、特に耳の臨界帯域が最大の分解力を有する低い周波数において、聴感上の臨界帯域よりも広い通過帯域を具えることができる。この結果として、エイリアシングひずみを掩蔽することができない。このひずみを極少化する1つの方法は、問題のサブバンドにおける量子化精度を向上させることであるが、それによって必要なビット伝送速度は増加する。
ビット伝送速度低減技法
上で挙げた2つの要因(ナイキスト・サンプル・レートと量子化誤差)によって、特定品質の信号伝送又は記憶に対するビット伝送速度要件を定めるべきである。しかし、所与の信号品質に必要なビット伝送速度を低減させるために各種技法を用いることができる。これらの技法では、信号の冗長性及び無関係性を利用する。信号が予見できるものであるか、若しくは他の方法で受信機により得られるものであるならば、その信号成分は冗長である。もし或る信号成分が特定品質の表現を達成するために不要ならば、該信号成分は無関係である。当技術で用いる幾つかの技法には、以下の事柄が含まれる。
(1)予知
信号の周期的又は予知可能な特性によって、現在の信号又は先行する信号の特性に基づいて、幾つかの成分を受信機に予期させることができる。
(2)エントロピー符号化
省略符号によって、高い発生確率の成分を表現することができる。送信機及び受信機の両方とも同一のコード・ブックを備えていなければならない。エントロピー符号化及び予知には、計算の複雑さ及び処理による遅延が増大する短所がある。また、当該符号化・予知では、元来可変レート出力が与えられるので、もし一定ビット伝送速度系で用いるのであれば、緩衝手法が必要になる。
(3)不均一符号化
対数、又は不均一量子化段による表現によって、量子化誤差が大きくなるという犠牲の下で、より少ないビットで大信号値の符号化を行うことができる。
(4)浮動小数点
浮動小数点表現によって、精度が下がるという犠牲の下で、ビット要件を減らすことができる。ブロック浮動小数点表現は、1ブロックの浮動小数点仮数に対して1個の位取り因数又は指数を用いる。当該表現は、時間領域信号を符号化する際に広く用いられる。浮動小数点は、不均一符号化の特殊例である。
(5)ビット割当て
正確さに対する受信機への要求は、時間、信号の内容、信号の強さ又は周波数に伴って変化する。例えば、話し声のより低い周波数成分は、通常、話し言葉を理解し話者を認識する上で一層重要である。したがって、より高い周波数成分よりも一層高い精度で伝送されなければならない。音楽信号に関しては、別の基準が適用する。ビット割当てについて幾つかの一般的基準は、以下のとおりである。
(a)成分変動
交流電力の最大レベルを有する変換係数に対して、より多くのビットを割り当てる。
(b)成分値
最大振幅又はエネルギーを有する周波数帯を表現する変換係数に対して、より多くのビットを割り当てる。
(c)音響心理学的マスキング
量子化誤差が他の信号成分によって掩蔽される(分裂聴感)信号成分に対しては、より少ないビットを割り当てる。この技法は、信号が人による聴取を目的として企図されている用途に対して、特質を発揮する。マスキングは、音楽のような多重音及び複号音に対してよりむしろ、単音に対して最も良く認識される。
問題の要約
上述の議論は真正のサブバンド・フィルタ・バンクを用いるが、若しくは時間領域対周波数領域変換を用いるかの何れかによって実現されるサブバンド・コーダに適用されるものであるが、本発明の好ましい実施例に関する議論を単純にし、問題を一層明確に識別するために、以下の要約の大部分は変換が実行されるコーダに対してとりわけ適切なものである。
サブバンドによる適応ビット割当てを用いるサブバンド符号化は、トゥリボレーとクロシエールによって既知のものとなっているが、この符号化技法には幾つかの制約があり、それにより、音楽のような高品質のオーディオ信号のための短遅延時間エンコーダ・デコーダ系には適しないものとされている。第1の問題は、この符号化技法ではビット割当て及び量子化段の規模を話し声の特性に依存させているので、高品質の音楽信号には適しないことである。
第2の問題は、符号化された信号には、サブバンドのビット割当てを決定するために受信機及びデコーダによって要求される副次的情報の形で、余分なビットが含まれることである。
第3の問題は、この符号化技法では、変換係数分散のみに従ってビットを割り当てているので、音響心理学的マスキング効果を十分に活用していないことである。ここでのビット割当てでは、信号内容と共に変化する音響心理学的マスキングしきい値を考慮していない。更に、このビット割当て技法では、スペクトル漏洩が生じ易い大きなスペクトルを有するサブバンドに隣接するサブバンドに対してビットを割り当てないので、フィルタ・バンクに高い選択性が必要になる。
第4の問題は、より長い分析ウインドウを用いることによってフィルタ・バンクの高い選択性を実現することはできるが、時間領域エイリアシングを避けるために、変換ブロック長よりも長くないウインドウを用いるように符号化技法が制約されることである。その結果、3kHzの帯域の信号に対して必要なフィルタ・バンクの選択度は、8kHzのレートで標本化される256サンプルのサンプル・ブロック長を用いて達成される。15kHzの帯域幅の信号に対して同じフィルタ・バンク選択度を達成するには、コーダでは40kHzのレートで標本化される少なくとも1280サンプルのサンプル・ブロック長を用いなければならない。したがって、トゥリボレーとクロシエールの符号化技法によって実現されるエンコーダ・デコーダを通してのブロック遅延は少なくとも64msになる。総合的な信号伝ぱんの遅延量は、符号化及び複号化を行うのに必要な時間によって更に増加する。
この伝ぱん遅延量は、オペレータへの実時間の音声のフィードバックが必要な(放送用音声のような)用途での使用にとっては余りにも大き過ぎる。話し手の声が遅延して自身の耳にフィードバックされると、この遅延が非常に短いものでない限り、発言妨害を生じる。この例として、アメリカ音響学会誌1950年11月、第22巻、第6号、824ページから826ページまでのバーナード・S・リーによる論文、「遅延音声フィードバックの効果(“Effects of Delayed Speech Feedback”,Journal of the Acoustical Soc.of America,vol.22,No.6,pp.824-826)を参照のこと。リーは、40msの音声フィードバックの遅延によって顕著な発言妨害を生じることを示しており、彼の経験的データの補外では、発言妨害を避けるためには遅延は約10msを超えるべきではないと示唆している。
第5の問題は、符号化された信号が伝送又は記憶の最中に遭遇する雑音による悪化に対して脆弱なことである。この符号化技法では、誤差を検出し訂正することについても、また、符号化された信号を、このような雑音の効果を限度内に止めるような方法でフォーマット化することについても、何も備えがない。
ジョンソンとブラッドレイによって提示されている符号化技法では、時間領域エイリアシング消去を具える時間領域対周波数領域変換を利用することによって、トゥリボレーとクロシエールの符号化技法を改良している。この消去によって、変換長よりも長い分析ウインドウをコーダで用いることが可能となり、これによって、フィルタ・バンクの選択性を改良している。しかし、この符号化技法は、話し声の信号を符号化することを意図したもので、高品質の音楽信号を符号化するためには十分には適しない。この符号化技法では、信号セグメントを分析する「演習期間(training phase)」中に習得されるスペクトル特性に依存している。
更に、より長い分析ウインドウを用いることによってフィルタ・バンクの高い選択性を実現することができるが、ジョンソンとブラッドレイの符号化技法では変換ブロック長の2倍よりも長いウインドウを用いることはできない。しかし、ジョンソンとブラッドレイの提示を実施する際には、実現可能な最長の分析ウインドウをコーダに用いることはできない。量子化符号ブロックの規模を実際的な長さに抑制するためには、論理的な最大値よりも短い、準最適のウインドウを用いなければならない。その結果、3kHzの帯域幅の信号に対して必要なフィルタ・バンクの選択度は、8kHzのレートで標本化される128サンプルのサンプル・ブロック長を用いて達成される。15kHzの帯域幅の信号に対して同じフィルタ・バンク選択度を達成するには、コーダでは40kHzのレートで標本化される少なくとも640サンプルのサンプル・ブロック長を用いなければならない。したがって、ジョンソンとブラッドレイの符号化技法によって実現されるエンコーダ・デコーダ系をとおしてのブロック遅延量は、少なくとも32msになる。総合的な信号伝ぱん遅延量は、符号化及び複号を行うのに必要な時間によって一層大きなものとなる。上で論じたように、この伝ぱん遅延量は、オペレータの実時間の音声のフィードバックが必要な用途での使用には適しない。
コーとザイディアス(koh and Xydeas)によるEP0176243号では、変換及びサブバンド・コーダ中で用いることができる適応ビット割当て技法が開示されている。この割当て技法では、符号化された信号中に副次的情報の形式での余分なビットを一切必要としないが、トゥリボレーとクロシエールの符号化技法の場合と同様に変換係数の分散にのみに従ってビット割当てを行うので、音響心理学的マスキング効果を十分には利用していない。これに加えて、この符号化技法は、話し声の信号を符号化することを意図したものであり、演習期間の信号セグメントに応答して構築される固定割当てパターンに従ってサブバンドに対するビット割当てを行うので、高品質の音楽信号を符号化するためには十分には適しない。
更に、7kHzの帯域幅の信号に対して必要なフィルタ・バンクの選択度は、14kHzのレートで標本化される128サンプルのサンプル・ブロック長を用いて達成される。15kHzの帯域幅の信号に対して同じフィルタ・バンク選択度を達成するには、30kHzのレートで標本化される少なくとも274サンプルのサンプル・ブロック長をコーダで用いなければならない。したがって、コーとザイディアスの符号化技法で実現されるエンコーダ・デコーダ系を通してのブロック遅延量は、少なくとも18msになる。総合的な信号伝ぱん遅延は、符号化及び複号を行うのに必要な時間によって、一層大きなものとなる。上で論じたように、この伝ぱん遅延は、オペレータへの実時間の音声のフィードバックが必要な用途での使用には適しない。
フェルトホイス、ヴァント・デル・ヴァール、及びブロイワー(Veldhuis,Vand Der Waal,and Breeuwer)によるEP0289080号では、QMFフィルタ・バンクを用いて実現されるサブバンド符号化技法が開示されている。この符号化技法は、高品質の音楽信号の符号化を意図したものである。適応ビット割当てでは、符号化された信号中に副次的情報の形式での余分なビットを一切必要としないが、固定で、信号内容に対して独立のサブバンドの聴取可能なしきい値に従ってビット割当てを行うので、音響心理学的マスキング効果を十分には利用していない。総ての条件下でサブバンドが聴取不能であることが分かっている時にのみビットが再割当てされるので、ビット割当ては必ずしも常に適応的ではない。
更に、この符号化技法は、必要な合計ビットよりもビット数が少ない時には割当てのために選択されるサブバンド中の総てのサンプルに対して使用可能なビットを割り当てることができないので、このビット割当ては準最適である。この技法もまた、スペクトル漏洩が生じ易い大きなスペクトルを有するサブバンドに隣接するサブバンドに対してはビットを割り当てない。
フェルトホイスらによって開示されている符号化技法もまた、オペレータへの実時間の音声のフィードバックが必要な用途での使用には適しない。ビット割当ては、46msの信号サンプルのブロックから誘導される情報に基づいている。したがって、このフェルトホイスの符号化技法を用いて実現されるエンコーダ・デコーダ系を通してのブロック遅延量は、少なくとも92msである。総合的な信号伝ぱん遅延量は、符号化及び複号を行うのに必要な時間によって一層大きなものとなる。上で論考したように、この伝ぱん遅延量は、オペレータへの実時間の音声のフィードバックが必要な用途での使用には適しない。
発明の開示
オペレータに対する音声の実時間でのフィードバックに用いるのに十分な程度に小さい信号伝ぱん遅延量を有し、伝送通路による符号の悪化に対して高度の耐性を有する、符号化及び複号化装置を用いて、広帯域のオーディオ情報、とりわけ、音楽のディジタル処理を行うことが本発明の目的である。
この目的は、それぞれ請求項1及び請求項34によるエンコーダ及びデコーダを用いて達成される。
以下のような追加的な目的、すなわち、
例えば、放送用のオーディオ・ネットワークのような用途に見合う品質の、音楽の高品質の伝送又は記憶と音楽の再生とに適するような符号化及び複号化装置を提供し、
コンパクト・ディスクで得られるのと本質的に同程度の、良好な品質の再生を行い、
低いビット伝送速度を有するディジタル処理系中で実現されるような、符号化及び複号化装置を提供し、
符号化された信号を記憶するのに少量の空間しか必要としないディジタル処理系で実現されるような、符号化及び複号化装置を提供し、
ディジタル処理系中で実現される符号化及び複号化装置であって、短い変換ブロックを有する変換符号化を用いて短い信号伝ぱん遅延を達成するが、他方、低いビット伝送速度を用いながら音楽の高品質の再生を行う、符号化及び複号化装置を提供し、
短い変換ブロックを用いることから生じる変換コーダの性能への負の効果を補償し、
音楽信号を処理する変換コーダ中に、改良された音響心理学的マスキング技法を提供し、
変換コーダ中に生じ勝ちな聴取可能なひずみの付帯物を音響心理学的に補償するための技法を提供する
ようなことが、残りの請求項による、本発明の特定の実施例によって達成される。
上記の本発明の目的及び本発明の更なり目的の詳細については、当明細書の全体を通して、とりわけ、発明を実施するための望ましい形態を叙述する以下の節で詳しく説明する。
本発明の教示するところにより、エンコーダによって広帯域オーディオ情報のディジタル符号化が行われるが、このエンコーダの信号伝ぱん遅延量は少ない。この広帯域オーディオ信号は、時間領域のサンプル・ブロックに標本化、量子化されるが、このサンプル・ブロックは十分短い信号伝ぱん遅延になる時間期間を具えているので、このエンコーダを用いる符号化及び複号化系を、オペレータに音声が実時間でフィードバックすることに対して使用することが可能である。その後、各サンプル・ブロックは分析ウインドウによって変調される。その後、周波数領域のスペクトル成分が、分析ウインドウによって重み付けられた時間領域サンプル・ブロックに応答して発生される。各変換係数は適応ビット割当てを行う変換コーダによって不均一に量子化され、これらの係数は記憶又は伝送に適するフォーマットを有するディジタル出力に組み立て、すなわち、アセンブルされる。伝送信号が通信線路の雑音又はその他の悪化の影響を受ける用途においては、誤差訂正符号を用いても良い。
更に本発明の教示するところにより、本発明のエンコーダによって符号化されるディジタル符号化広帯域オーディオ信号の高品質の再生が、本発明のデコーダによって行われる。デコーダは、記憶装置又は伝送線路を経由してエンコーダのディジタル出力を受け取る。デコーダは、不均一に符号化されたスペクトル成分をフォーマット化されたディジタル信号から誘導し、周波数領域成分をこの成分から再構築する。エンコーダ中の時間領域スペクトル成分を発生した装置に対して逆の特性を具える装置によって、周波数領域のスペクトル成分に応答して時間領域信号サンプル・ブロックが発生される。このサンプル・ブロックは合成ウインドウによって変調される。この合成ウインドウは、この合成ウインドウの応答特性とエンコーダ中の分析ウインドウの応答特性との積によって、2つの隣接する重複サンプル・ブロックに関して一体的に合算される複合応答特性を作り出すような特性を具えている。隣接するサンプル・ブロックは重複され、加算されて、これにより、分析及び合成ウインドウの重み付け効果が消去され、高品質のアナログ出力にその後変換される時間領域信号のディジタル化された表現が復元される。
更に本発明を教示するところにより、エンコーダ・デコーダ系によって広帯域オーディオ情報の高品質のディジタル符号化と再生が行われるが、この系は小さな信号伝ぱん遅延量を具えている。この系のエンコーダ部分中では、アナログの広帯域オーディオ信号が、標本化され、時間領域サンプル・ブロックに量子化されるが、このサンプル・ブロックは、オペレータに音声を実時間でフィードバックすることに対してのエンコーダ部分を用いる符号化及び復号化系の使用が可能な程度の、十分短い信号伝ぱん遅延の時間期間を有する。その後、各サンプル・ブロックは分析ウインドウによって変調される。その後、周波数領域のスペクトル成分が、分析ウインドウによって重み付けられた時間領域サンプル・ブロックに応答して発生される。適応ビット割当てを含む不均一スペクトル符号化によって各スペクトル成分が量子化され、これらの成分は、信号の雑音悪化を受け易い記憶又は通信線路を通しての伝送に適するフォーマットを有する、ディジタル出力に組み立てられる。この系のデコーダ部分によって、記憶装置又は伝送線路を経由してエンコーダのディジタル出力が受け取られる。このデコーダ部分によって、不均一に符号化されたスペクトル成分がフォーマット化されたディジタル信号から誘導され、周波数領域のスペクトル成分がこの成分から再構築される。時間領域信号サンプル・ブロックが、エンコーダ部分中の周波数領域変換係数を発生した装置に対して逆の特性を具える装置によって、周波数領域変換係数に応答して発生される。このサンプル・ブロックは合成ウインドウによって変調される。この合成ウインドウは、この合成ウインドウの応答特性とエンコーダ中の分析ウインドウの応答特性との積によって2つの隣接する重複サンプル・ブロックに関して合計が単位1になる複合応答特性が作り出されるような特性を具えている。隣接するサンプル・ブロックは、重複され、加算されて、これにより、分析及び合成ウインドウの重み付け効果を消去し高品質のアナログ出力にその後変換される時間領域信号のディジタル化された表現が復元される。
本発明のエンコーダの実施例において、離散変換によって、分析ウインドウによって重み付けられた時間領域サンプル・ブロックに応答して周波数領域のスペクトル成分が発生される。この離散変換には、改良型の離散余弦変換(DCT:Discrete Cosine Transform)及び改良型の離散正弦変換(DST:Discrete Sine Transform)の代替的応用と同等の機能を具えていることが好ましい。代替的な実施例においては、この離散変換は離散フーリエ変換(DFT:Discrete Fourier Transform)によって実施されるが、実質的には総ての時間領域対周波数領域変換を用いることができる。
2チャネル・エンコーダに関する本発明の好ましい実施例においては、単一のFFTを利用して、先行変換が各チャネルから1つの信号サンプル・ブロックに関して計算される。2チャネル・デコーダに関する本発明の好ましい実施例においては、単一のFFTを利用して、2チャネルの各々から1つずつの、2つの変換ブロックに関して逆変換が同時に計算される。
エンコーダ及びデコーダの好ましい実施例においては、サンプリング・レートは44.1kHzである。このサンプリング・レートは決定的なものではないが、適切であり、コンパクト・ディスクに用いられているサンプリング・レートでもあるので便利である。この44.1kHzのサンプリング・レートを用いる好ましい実施例においては、名目上の周波数応答特性は15kHzまで延びており、時間領域サンプル・ブロックは128サンプルの長さを具えていて、許容できる程度の短い信号伝ぱん遅延の時間期間を有するので、オペレータに音声を実時間でフィードバックすることに対してこの系を使用することが可能である。この符号化・複号化の総合系は、サンプル・ブロック期間の約3倍、又は約10ms以下の、発言妨害問題を克服するに十分な程度に少ない遅延を有するものと仮定されている。好ましい実施例において、エンコーダ出力のシリアル・ビット伝送速度は、192ビット/s程度(誤差訂正符号のような付帯的情報を含めて)である。本発明の基本的な神髄から逸脱せずに、異なる信号品質をもたらす別のビット伝送速度を用いることもできる。
エンコーダの好ましい実施例においては、不均一変換コーダによって、各変換係数について可変長のコード・ワードが計算される。このコード・ワードのビット長は、固定ビット数と、現状の信号内容によりサブバンド中の雑音が他のサブバンド中の雑音よりも音響心理学的にマスクされ易いかどうかに基づいて適応ビット割当によって決定される、可変ビット数との合計である。この固定ビット数は、単音についての音響心理学的マスキング効果に関する経験的観察に基づいて、対象のサブバンド中で各サブバンドに対して割り当てられる。この固定ビット数割当てでは、低い周波数における人の耳の選択性が一層大きいことに起因して系の本質的性能が低い周波数においては低下することについて考慮を払っている。複合信号が存在する際のマスキング効果は、通常、単音信号が存在する際のマスキング効果よりも良好であるが、複合信号が存在する際のマスキング効果は、予測できないばかりでなく、良く理解されてもいない。この方法は、ビットの多くを固定ビットとし、かつ、残り僅かを適応的に割り当てる点において、積極的なものではない。この方法には、幾つかの長所がある。その第1は、必要な固定ビットの割当てを確定した経験的手続には逆変換過程を含んでいたので、この固定ビット割当てによって、逆変換によって作り出される望ましくないひずみが本来的に補償されることである。その第2は、適応ビット割当てのアルゴリズムを比較的単純にすることができることである。これに加えて、エンコーダとデコーダとの間で生じる信号伝送誤差はこのデコーダ中でビットに対する不正確な値となると同時に不正確な割当てともなるので、適応的に割り当てられたビットはこのような誤差に対して一層敏感であることである。
本発明によるビット割当てに関する経験的技法については、第13図を参照することによってより良く理解できるであろう。第13図では、500Hzの信号音(正弦波)から生じる、出力の雑音及びひずみの臨界帯域スペクトル(すなわち、ここに示してある雑音及びひずみは、聴感上の臨界帯域に関するものである)を3つの異なるビット割当てに関して聴感上のマスキングと比較して示している。この図では、特定のデータを含むよりむしろ、経験的な方法を示すことを企図している。
割当てA(実線)は基準であり、任意の数のビットを変換係数の各々に対して割り当てた時の500Hzの正弦波によって作り出される雑音及びひずみを示している。割当てB(短い線の点線)は、割当てAと同じ相対的割当てであるが、雑音及びひずみに1変換係数当たり2つ少ないビットを与えた場合を示している。割当てC(長い線の点線)は、オーディオ帯域の1500Hzまでの低い周波数部分に対して割当てAと同じ割当てを与えた場合を示している。割当てCでは、約1500Hzから上の高い周波数部分に対しては割当てBと同じである。点線は、500Hzの音に対する聴感上のマスキングの曲線を示している。
マスキング曲線の急激な低下による聴取可能な雑音が、以上の3つのビット割当ての事例の総てについて、500Hzの信号音以下の周波数において存在すること、すなわち雑音及びひずみの積の曲線が約100Hzから300乃至400Hzまでのマスキングしきい値よりも上にあることが観察されるであろう。ビットを2つ少なくしたこと(割当てAに対する割当てB)によって、聴取可能な雑音及びひずみが悪化するが、この500Hzの信号音よりも低い領域を含むスペクトル部分に、割当てcに示すように、この2ビットを加え戻すことによって、元の聴取可能な雑音及びひずみの水準が回復される。聴取可能な雑音は高い周波数においても存在するが、この極めて高いオーディオ・スペクトル部分においては500Hzの信号音によって作り出される雑音及びひずみの積が比較的小さいことから、ビットを減らしたり加えたりした際に聴取可能な雑音は実質的に変化しない。
種々のビット割当てについて種々の信号音に応答して作り出される雑音及びひずみを観察することによって、聴取可能なマスキングに関してオーディオ・スペクトル全体にわたって耳障りでない雑音及びひずみの水準となる、種々の変換係数に対するビット長を割り当てることができる。第13図の例に関して言えば、約100Hzから300乃至400Hzまでの領域中のマスキングしきい値以下の雑音及びひずみの積を低減するために、500Hzの信号音を含む変換係数とそれと至近の変換係数とに関して、雑音及びひずみがマスキングしきい値より低くなるまで、基準割当てに対して追加ビットを加えても良い。オーディオ・スペクトル全体にわたる他の信号音に対しても、オーディオ・スペクトル全体にわたって信号音が存在する際に総合的変換係数ビット長割当てによって許容できる雑音となるまで、一度に1つずつ同様な段階を踏むことができよう。これは、コンピュータ・シミュレーションによれば最も容易に行える。固定ビットの割当ての低減は、オーディオ・スペクトル全体をとおして各変換係数から1つ又は2つ以上のビットを取り除くこと(割当てBのように)によって行われる。必要に応じて適応割当てビットを加えて(割当てCのように)、問題の領域において聴取可能な雑音を許容できる水準にまで低減させる。かくして、第13図の例のような聴取可能な雑音を増減させることについてのビットの割当てに関する経験的観察によって、本発明の固定及び適応ビットの割当て構想の基盤が形成される。
エンコーダの好ましい実施例においては、不均一量子化変換係数は、ブロック指数及び可変長コード・ワードから成るブロック浮動小数点表現によって表される。上で述べたように、この可変長コード・ワードは、更に、固定ビット長部分と適応的に割り当てられるビットの可変長部分とから成る。各信号サンプル・ブロックについて、符号化された信号は、適応的に割り当てられた総てのビットが後に続く指数とコード・ワードの固定ビット長部分とから鋼製されるフレームに組み立てられる。指数及びコード・ワードの可変長部分は、突発雑音エラーに対する脆弱性を低減すべく、適応的に割り当てられたビットから別個に組み立てられる。
先行技術で多くのエンコーダとは異なり、本発明によるエンコーダでは各フレーム中の適応的に割り当てられたビットに関する副次的な情報を伝送する必要はない。本発明のデコーダでは、エンコーダで用いられた割当てアルゴリズムと同一の割当てアルゴリズムを指数に対して適用することによって正しい割当てを演繹することができる。
フレーム同期を必要とする用途においては、フォーマット化されたデータが、本発明のエンコーダ部分によってフレーム同期ビットに対して補足される。このフォーマット化されたデータ・ビットは、最初に無作為化され、それにより、1又は0のビットが長く連続する確率が低減される。これは、特定の長さを超える長い連続を許容しない、T-1搬送波のような多くの環境において必要なことである。非同期の用途では、この無作為化によってまた、フレーム内の有効データがブロック同期列と誤認される確率も低減される。本発明によるデコーダ部分では、フレーム同期データ・ビットを取り除き、逆無作為化を適用することによって、フォーマット化されたデータが復元される。
符号化された信号が悪化する用途においては、誤差訂正符号を用いて、最も重要な情報、すなわち、指数と低い周波数の係数コード・ワードの部分とが保護される。フォーマット化されたフレーム全体に誤差コードと保護されたデータとが分散されることによって、雑音バーストに対する感度が低減される、すなわち、重要なデータを訂正できなくなる前に必要な雑音バーストの長さが増加される。
本発明の種々の特長及び本発明の実施例については、発明を実施するための望ましい形態について叙述する以下の節、及び添付図面の中で、より詳細に説明する。
図面の簡単な説明
第1a図及び第1b図は、本発明の基本的な構造を、とりわけ、本発明のTDAC変換版に関して示す機能概念図である。
第2a図から第2e図までは、本発明の1実施例のハードウエア構成を、とりわけ、本発明のTDAC変換版に関して概念図である。
第3a図及び第3b図は、本発明の2チャネルの実施例に関する演算装置のシリアル通信をより詳細に示す概念図である。
第4図は、時間領域信号サンプル・ブロックを示す仮想表現図である。
第5図は、信号が時間領域信号サンプル・ブロック内で周期性を有すると仮定しての離散変換によって生じる、時間領域信号サンプル・ブロックの縁における不連続性を示す時間領域信号サンプル・ブロックの更なる仮想表現図である。
第6a図は、結果としての関数Y(t)を得るための、関数X(t)の関数W(t)による変調を示す機能概念図である。
第6b図から第6d図までは、時間領域信号サンプル・ブロックの分析ウインドウによる変調を示す仮想表現図である。
第7図は、本発明中で利用される不均一量子化装置に関する高級論理を示す流れ図である。
第8図は、適応ビット割当て過程に関する一層詳細な論理を示す流れ図である。
第9図は、代表的なTDACコーダのフィルタ応答特性曲線と2つの音響心理学的マスキング曲線とを示す表現図である。
第10図は、4kHzの音響心理学的マスキング曲線に関するTDACコーダのフィルタ応答特性を示す表現図である。
第11図は、1kHzの音響心理学的マスキング曲線に関するTDACコーダのフィルタ応答特性を示す表現図である。
第12図は、幾つかの信号音の音響心理学的マスキング曲線から誘導される合成マスキング曲線を説明する表現図である。
第13図は、500Hzの音の音響心理学的マスキング曲線に関する3つの異なるビット割当て構想についての、符号化された500Hzの音の符号化雑音及びひずみのスペクトル・レベルを示す表現図である。
第14a図から第14e図までは、重複され、ウインドウで処理された一連の時間領域信号サンプル・ブロックにグループ化される時間領域信号を説明する仮想表現図である。
第15a図から第15d図までは、TDAC変換によって作り出される時間領域エイリアシングひずみを説明する仮想表現図である。
第16a図から第16g図までは、TDAC変換信号合成中の時間領域エイリアシングの重複・加算による消去を説明する仮想表現図である。
第17図は、分析専用ウインドウを用いるフィルタバンクのフィルタ僊移帯域ロールオフ及び阻止帯域排除を、本発明のTDAC変換の好ましい実施例のために設計された分析・合成ウインドウ・ペアを用いるフィルタバンクのフィルタ僊移帯域ロールオフ及び阻止帯域排除と比較する表現図である。
第18図は、ウインドウで処理された隣接ブロックの重複・加算特性を示す仮想表現図である。
第19図は、4から7までのアルファ値に対する幾つかのたたみ込みカイザー・ベッセル(Kaiser-Bessel)分析ウインドウの形状を正弦波傾斜ウインドウと比較する仮想表現図である。
第20図は、誤差訂正符号を有しない、とりわけ本発明のTDAC変換版のための、符号化された2つの変換ブロックのフレームのフォーマットを説明する概要図である。
第21図は、誤差訂正符号を有する、とりわけ本発明のTDAC変換方式のための、符号化された2つの変換ブロックのフレームのフォーマットを説明する概要図である。
第22a図及び第22b図は、本発明の基本的な構造を、とりわけ本発明のDFT方式について説明する機能概念図である。
第23図は、TDAC変換及びDFTコーダの2つのコーダ分析ウインドウの形状を比較する表現図である。
第24図は、100%の重複ウインドウを用いるTDAC変換コーダのフィルタ応答特性と、25%の重複ウインドウを用いるDFTコーダのフィルタ応答特性とを比較する表現図である。
第25図は、誤差訂正符号を有しない、とりわけ本発明のDFT方式のための、符号化された2つの変換ブロックのフレームのフォーマットを説明する概要図である。
第26図は、誤差訂正符号を有する、とりわけ本発明のDFT方式のための、符号化された2つの変換ブロックのフレームのフォーマットを説明する概要図である。
表Iは、TDAC変換コーダに関する、主指数、サブバンドのグループ化、及び係数ビット長を示す。
表IIは、DFTコーダに関する、サブバンドのグループ化、及び係数ビット長を示す。
発明を実施するための望ましい形態
I.本発明の好ましい実施例
第1a図及び第1b図に本発明の基本的な構造が示されている。第1a図に示す本発明のコーダ部分は、以下の部分から成る。すなわち、時間領域信号入力100、信号標本化及び量子化装置101、信号標本化バッファ102、各ディジタル化時間領域信号ブロックを変調する分析ウインドウ逓倍装置103、量子化信号を周波数係数に変換するディジタル・フィルタバンク104、整数値の変換係数の各々を浮動小数点表現に転換するブロック浮動小数点エンコーダ105、信号の総合的スペクトル構成に従ってビットを各変換係数の表現に割り当てる適応ビット割当装置106、割り当てられたビット長に各変換係数を丸める均一量子化装置107、符号化された周波数係数を伝送又は記憶のためにビット・ストリームに組み立てるフォオーマット化装置、すなわち、フォーマット装置109である。第1a図には伝送線路110が示されているが、符号化された信号を直ちに記憶して後に使用できることも理解して置くべきであろう。
第1b図に示す本発明のデコーダ部分は、以下の部分から成る。すなわち、符号化されたビット・ストリーム信号入力111、符号化された周波数係数の各々を組み立てられたビット・ストリームから抽出するフォーマット解除装置、すなわち、デフォーマット装置112、各変換係数を整数値の変換係数に転換する線形化装置113、変換係数を時間領域信号ブロックに変換する逆ディジタル・フィルタバンク114、時間領域信号ブロックを変調する合成ウインドウ逓倍装置115、時間領域信号のディジタル表現を復元する信号ブロック重複・加算装置116、アナログ信号発生器117、及びアナログ信号出力118である。
幾つかの離散ディジタル変換の何れを用いても、順方向及び逆方向のフィルタバンクを実現することができる。本発明の好ましい実施例で用いている変換については、プリンセンとブラッドリーによるIEEEの音響、音声、信号処理会報の1986年ASSP-34巻、1153ページから1161ページ(Princen and Bradley,IEEE Trans.on Acoust.,Speech,Signal Proc.,vol.ASSP-34,1986,pp.1153-1161)までの中に最初に叙述されている。この技法は、厳密に標本化されたシングル・サイドバンド分析・合成系の時間領域等価である。当出願においては、この技法を時間領域エイリアシング相殺(Time-Domain Aliasing Cancellation:TDAC)と呼ぶ。本発明のもう1つの実施例においては、離散フーリエ変換(DFT)を用いることもできる。DFT版に関する好ましい実施例については、TDAC版について十分述べた後に論考する。
A.演算ハードウエア
本発明のTDAC変換版のための基本的なハードウエアの構成を第2a図及び第2b図に示す。経験的研究から、所与の性能目標を達成するためには、特別な手段を取らない限り、変換計算は少なくとも29有意ビットの精度で行われなければならないことが分かっている。16ビットの演算を利用するコーダを実現できる特別な手段の1つについては、DFTの実施の一部として後に述べる。
44.1kHz又は48kHzサンプル・レートを用いる、本発明の単一チャネル版の実際的な好ましい実施例の実現においては、20μs以下の周期時間を有する16ビットのアナログ対ディジタル・コンバータ(ADC)を利用して、時間領域入力信号を量子化している。16ビットのディジタル化されたサンプルの各々を用いて、次の計算で用いられる24ビットのワードの有意の16ビットを形成する。20.5MHzで待ち時間なしで動作するモトローラ(Motorola)社製DSP56001型ディジタル信号プロセッサ(DSP)を用いて、必要な計算を行い、符号化・復号化過程を制御する。スタティック等速呼出記憶装置(RAM)によって、DSPに対するプログラム及びデータ記憶が与えられる。周期時間20μs以下の16ビットのディジタル対アナログ・コンバータ(DAC)を用いて、復号されたディジタル信号からアナログ信号を発生する。
第2a図に示すエンコーダのハードウエアの構成は、以下のものから成る。すなわち、アナログ信号入力200、低減フィルタ(LPF)200A、ADC201、DSP202、スタティックRAM203、消去可能固定記憶装置(EPROM)204、プログラマブル・アレイ・ロジック(PAL)205、及び符号化されたシリアル信号出力206である。LPF200A(第1a図には示されていない低域フィルタ)によって、入力信号の帯域幅制限が保証される。ADC201によって、入力信号がシリアルの16ビットのワードのストリームにディジタル化(標本化及び量子化)される。DSP202によって、ディジタル化されたサンプルが受け取られ緩衝され、サンプルがブロックにグループ化され、必要な計算が行われてブロックが周波数領域に変換され、変換係数が符号化され、コード・ワードがデータ・ストリームにフォーマット化され、シリアル・データ線路206を通して符号化信号が伝送される。DSPのためのプログラミング及びデータ作業領域は、8,192個の24ビット・ワードに組織化されているスタティックRAM203の24kBバンクの1つの中に記憶される。DSPには、プログラマブルROM中で実現されるよりも一層安価にRAM中で実現される、短呼出時間プログラム記憶装置が必要である。その結果、EPROM204では、エンコーダが最初に起動される時にDSPによってRAM203で使用できる形式で中身が取り出される圧縮フォーマットで、プログラミング及びスタティック・データを記憶する。PAL205によって、DSP202で発生されるプログラム及びデータのアドレスがRAMバンク203の特定のアドレス・セグメントに翻訳されることにより、エンコーダがプログラム及びデータをRAMの単一の24kBバンク中に記憶することが可能になる。
第2b図及び第2c図では、2つのDSPインターフェイスを更に詳細に示す。第2b図には、DSP202及びADC201に関するシリアル通信インターフェイスと、シリアル・データ線路206とが示されている。タイミング発生装置202Aによって、受信クロック、フレーム同期、及びエンコーダのための伝送クロック信号が発生される。線路SC0によって、線路SRDに沿ってADC201からDSP202へと、ディジタル化入力信号サンプルのシリアル・ビット・ストリームにクロック同期が掛けられる。線路SC1によって、各16ビット・ワードの始まりを標識する、ADC及びDSPに対するフレーム同期信号が与えられる。線路SCKによって、線路STDに沿ってDSPからシリアル・データ線路206へと符号化信号のシリアル・ビット・ストリームにクロック同期が掛けられる。
第2c図には、メモリをアドレスするインターフェイスが示されている。PAL205によって、DSP202によりアドレス・バス205Aに加えられるアドレスが翻訳され、RAM203とEPROM204とに結合するバス205Bに対して、この翻訳されたアドレスが受け渡される。モトローラ社のDSP56001のためのメモリは、プログラム、Xデータ、及びYデータの3つのセグメントに分割されている。PAL205により与えられるメモリの翻訳によって、これら3つのセグメントをRAMの24kBバンクの1つの中に位置付けすることが可能になる。これらのセグメントの各々に関する実際のアドレスは、このエンコーダ及びデコーダのソフトウエアの規模と設計によって決定される。1つの実施例においては、プログラム・メモリの4kワード(4096又は24ビット・ワードの100016)がアドレス0000から0FFF16に位置付けされ、Xデータ・メモリの2kワード(24ビット・ワードの80016)がアドレス100016から17FF16に位置付けされ、Yデータ・メモリの2kワードがアドレス180016から1FFF16に位置付けされる。
RAM203とEPROM204は、別々のアドレス空間に位置付けされる。インバータ205Cによって、DSP202が線路A15の状態に従ってRAM又はEPROMの何れかを選ぶことが可能になる。DSP202によってA15が高電位に設定されると、インバータ205CによってRAM203及びEPROM204のチップ選択(CS)線路は低電位に設定される。CSが低電位に設定されると、EPROM204のみが選択される。DSP202によってA15が低電位に設定されると、インバータ205CによってRAM203及びEPROM204のCS線路は高電位に設定される。CSが高電位に設定されると、スタティックRAM203のみが選択される。
第2d図に示されるデコーダの構成は、以下のものから成る。すなわち、符号化シリアル信号入力線路207、DSP208、スタティックRAM209、EPROM210、PAL211、DAC212、LPF213A、及びアナログ信号入力213である。DSP208によって、符号化信号が受け取られて緩衝され、この信号のフォーマットが符号化変換係数に分解され、この係数を時間領域に変換するのに必要な計算が行われ、この係数が時間領域ブロックにグループ化され、このブロックがディジタル・サンプルの時間領域順序に重複・加算され、シリアル・ビット・ストリームの形でこのディジタル・サンプルがDAC212に伝送される。DSPに対するプログラム化及びデータ作業領域は、8,192個の24ビット・ワードに順序立てられるスタティックRAM209の24kBバンクの1つに記憶される。EPROM210によって、エンコーダが最初に起動される時にRAM209で使用できる形式でDSPにより中身が取り出される圧縮フォーマットで、プログラミング及びスタティック・データが記憶される。PAL211によって、DSP208で発生されるプログラム及びデータのアドレスがRAMバンク209の特定のアドレス・セグメントに翻訳されることにより、デコーダがプログラム及びデータをRAMの単一の24kBバンク中に記憶することが可能になる。DAC212によって、DSPから受け取られるシリアル・データ・ストリームに対応するアナログ信号が発生される。LPF213A(第1b図には示されていない低減フィルタ)によって、出力信号213がこの符号化・複号化過程で作り出されるあらゆる擬似高周波成分から免れることが保証される。
第2e図には、DSP208のためのシリアル通信インターフェイスと、シリアル信号入力線路207と、DAC212とが示されている。タイミング発生器208Aはフェーズ・ロック・ループを用いて符号化シリアル・ビット入力信号からタイミング基準を抽出し、これによって、受取りクロックと、フレーム同期と、デコーダのための伝送クロック信号とが発生される。線路SC0によって、線路SRDに沿ってDSP208が符号化シリアル・ビット信号にクロック同期される。線路SCKによって、線路STDに沿ってDSP208からDAC212へと複号ディジタル化信号のシリアル・ビット・ストリームがクロック同期される。線路SC2によって、DACとDSPとに対して、各16ビット・ワードの始まりを標識するフレーム同期信号が与えられる。DSP208とメモリ・アドレス・バスとの間のインターフェイスは、エンコーダについて上に述べたのと同様な方法で実現される。第2c図を参照して欲しい。
2チャネルのエンコーダでは、第3a図に示すように結合された、LPF200A及び200Bと、ADC201A及び201Bとが必要である。DSP及びADCの成分間のインターフェイスは、1チャネルのエンコーダについて上に述べたのと類似の方法で動作する。タイミング発生器202Aによって、フレーム同期信号の半分の伝送速度で付加的な信号がDSPの線路SC2に対して与えられて、マルチプレクサ202Bが制御され、ディジタル化データを2つのADCの中の何れが現在送っているかがDSPに対して指示される。
2チャネルのデコーダでは、第3b図に示すように結合された、DAC212A及び212Bと、LPF213A及び213Bとが必要である。DSP及びDACの成分間のインターフェイスは、1チャネルのデコーダについて上に述べたのと類似の方法で動作する。タイミング発生器208Aによって、フレーム同期信号の半分の伝送速度で付加的な信号がDSPの線路SC1に対して与えられて、マルチプレクサ208Bが制御され、ディジタル化データを2つのDACの中の何れが現在受け取っているかがDSPに対して指示される。
この基本的なハードウエア構成を改変することができる。例えば、27MHzで動作するモトローラ社の待ち時間なしのDSP650011個で、2チャネルのエンコーダ又はデコーダ1個を実現できる。この場合、追加のRAMが必要である。プログラム・メモリに関しては、24kBバンクを利用する。Xデータ及びYデータのメモリに関しては、第2の24kBバンクを利用する。2バンクのRAMを利用する際には、アドレス翻訳のためにPALは必要ではない。特別なハードウエアを用いてウインドウ変調又は高速フーリエ変換(FFT:Fast Fourier Transform)のような幾つかの機能を行うこともできる。この総合的なエンコーダ・デコーダを特別仕立ての集積回路で実現することもできる。これ以外にも数多くの実施方法があることは、当業者にとっては明白であろう。
B.入力信号の標本化とウインドウ処理
本発明のTDACの実施例において、信号標本化及び量子化装置101は、入力信号を、引き続いて右側に8個の0ビットが引き当てられて24ビットの整数表現が形成される16ビットに量子化するアナログ対ディジタル・コンバータである。この後の変換計算は総て、24ビットの整数計算で行われる。アナログ入力信号は、最高でも15kHz(20kHzコーダであれば、20kHz)に帯域幅を制限しなければならない。これは、第1a図には示されていない低域フィルタによって達成される。
上で論じたように、信号の標本化及び量子化装置101によって作り出される信号サンプル・ブロック長は、非常に重要な成分である。この長さは、信号伝ぱん遅延をディジタル・フィルタ性能と平衡させるように選ばれなければならない。順方向変換(ディジタル・フィルタバンク104)は、総ての変換計数が計算されるまで総てのブロックのサンプルを待たなければならない。逆変換(ディジタル・フィルタバンク114)においても、時間領域信号が復元されるまで総ての係数を待たなければならない点で、同様な遅延がある。その結果、前方及び逆変換の両方がブロック期間の大きさに等しい期間で行われると仮定すると、信号が本発明の系を通過するための遅延は、信号サンプル・ブロック長の3倍になる。望ましい総合的遅延は約10ms以上であってはならないので、信号サンプル・ブロック長は3.3msを超えてはならない。
しかし、ブロック長を短くすることはフィルタ帯域幅を狭めることであり、僊移帯域ロールオフと阻止帯域の深さとに不利な影響を与えることになるので、できるだけ長いブロックを用いることが望ましい。したがって、選択されるブロック長は、前文節で論じたような3.3msの制約を受けつつも、可能な限り長いものにしなければならない。
少なくともコンパクト・ディスク(CD)の品質と同じ品質を有する音楽信号は、他の品質に加えて、15kHzを超える帯域幅を具えている。ナイキストの理論から、15kHzの帯域幅の信号は30kHz以上で標本化されなければならないことは周知のことである。CD用途には44.1kHzのサンプル・レートが用いられており、かかるサンプル・レートを選ぶことによって本発明をこのような用途に用いるのに必要な装置が単純化されるので、本発明の現在の実施例に関しては44.1kHzのサンプル・レートを選んだ。(このサンプル・レートで、本発明の20kHz帯域幅の代替的実施例をも実施できる)。このサンプル・レートを所与のものとすると、3.3msのブロックは、147個のサンプルから成る。しかし、もしサンプルの数を2の累乗にすれば、ディジタル・フィルタの計算は単純化される。そのようにした結果、1ブロック当たりのサンプル数を128にすることにより、ブロック長は2.9msに確定される。
職業用オーディオの多くの用途に一般的である48kHzのサンプル・レートのような、他のサンプル・レートを利用することもできる。もし代替的なサンプル・レートを選ぶとすると、隣接する変換係数間の周波数分離が変化し、望ましい信号帯域幅を表現するために必要な係数の数が変化する。サンプル・レートを変えた際に本発明の実施例に与える総ての影響については、当業者にとっては明白であろう。
入力信号が複素数のものでないこと、すなわち、虚数成分の総てが0であると仮定すると、128ブロックの周波数領域変換によって最大64個の非0の特異変換係数が作り出される。したがって、第1a図及び第1b図に示す本発明は64個の周波数ビンから構成される。この実施例において、各ビンの帯域幅は344.5Hz(又は44.1kHz/128)に等しい。(TDACのような或る種の離散変換に関しては、ビン0、すなわち直流又は周波数0の成分は、この量の半分に等しい帯域幅を有する)。15.7kHzの信号を通過させるには0から45個の係数だけしか用いられない。(20kHz版においては、21.5kHzの信号を通過させるには0から62個の係数が用いられる)。入力信号の帯域幅を超える追加の高周波数の係数は、設計帯域幅内でエイリアシング消去を行うことに伴う量子化誤差の悪影響を最小化するために用いられる。入力信号が15kHz(又は20kHz)帯域制限され、最終的出力信号もまた最高係数中を通過する総てのエイリアシングを相殺すべく帯域制限されていることに注意して欲しい。
離散変換では、ブロック中の信号は周期性のものであると仮定しているので、このサンプル・ブロックが改変されない限り、存在しないスペクトルを誤って作り出す。第4図を参照して欲しい。この変換誤差は、第5図に示すようなブロックの縁にある不連続に起因している。この効果を最小化すべくこれらの不連続を緩和することもできる。ブロックの縁の近傍にあるサンプルを0に近付けるように、第6a図から第6d図までに、ブロックの縁の近傍にある0に近付けるようにサンプルをどのようにしてブロックを改変し、若しくは重み付けするかが示してある。第6a図に示すマルチプライヤ回路によって、第6b図に示す標本化入力信号x(t)が第6c図に示す重み付け機能により改変される。この結果として生じる信号を第6d図に示す。この過程は第1a図の箱103で表されている。分析ウインドウと呼ばれるこの重み付け機能は、信号サンプル・ブロックをサンプルごとに逓倍することであり、この形状によってディジタル・フィルタの性能に強い影響を与えるので、数多くの研究の主題となってきた。その例として、ハリスによるIEEE学会誌1978年66巻51ページから83ページの論文、「離散フーリエ変換を用いた高調波分析のためのウインドウの使用について」(Harris,“On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform”)Proc.IEEE,vol.66,1978,pp.51-83)を参照されたい。端的に言って、良好なウインドウによって、阻止帯域幅の深さの所与の水準に対する僊移帯域ロールオフの鋭さが増大され、隣接するブロックを重複・加算することにより変換効果を修正することが可能になるということである。ウインドウの設計については、以下に更に詳しく述べる。
C.分析フィルタ・バンクと順方向変換
離散変換によって、第1a図に示すディジタル・フィルタ・バンク104が実現される。フィルタ作用は、時間領域信号サンプル・ブロックを1組の時間変化スペクトル係数に転換することによって行われる。本発明の1つの実施例で用いられているこの変換技法は、時間領域エイリアシング相殺(TDAC:Time-Domain Aliasing Cancellation)である。
TDACでは、改変された離散余弦変換(Discrete Cosine Transform:DCT)の代替的応用と等価の変換機能を、改変された離散正弦変換(DST:Discrete Sine Transform:)と共に利用する。DCTは以下の式1、DSTは以下の式2に示される。すなわち、

ここで、
k=周波数係数信号
n=入力信号サンプル番号
N=サンプル・ブロック長
m=TADCに関する位相項
x(n)=サンプルnにおける入力信号x(t)の量子化値
C(k)=DCT係数k
S(k)=DST係数k
である。
DTAC変換では、各信号サンプル・ブロックに対して2組のスペクトル係数又は変換ブロックの1つが交互に作り出される。これらの変換ベロックは、次式の形を取る。すなわち、

ここで、
i=信号サンプル・ブロック番号
C(k)=DCT係数(式1を参照のこと)
S(k)=DST係数(式2を参照のこと)
である。
ここで用いられる計算アルゴリズムは、高速フーリエ変換(FFT)である。クーリーとテューキーによる数学計算誌1965年19巻、297ページから301ページまでの論文、「複素フーリエ・シリーズの機械計算のためのアルゴリズム」(Cooley and Tukey,“An Algorithm for the Machine Calculation of Complex Fourier Series”,Math.Comp.,vol.19,1965,pp.297-301)を参照のこと。単一複素変換の実数及び虚数成分としてDCT及びDSTをそれぞれ決定することによって、単一のFFTを用いてDCT及びDSTを同時に行うことができる。この技法では、FFTは複素変換であるが、両方の入力信号サンプル・ブロックは実数値のサンプルのみから成っているという事実を利用している。これらの変換を1つのFFTと複素定数の配列との積に因数分解することによって、DCT係数が実数値の組として変換から出現し、DST係数が虚数の組として表される。したがって、1つの信号サンプル・ブロックのDCTを、配列の積及び加算が後に続くただ1つのFFTによって、もう1つの信号サンプル・ブロックのDSTと共に同時発生的に計算することができる。
1つのFFTを用いて2つの変換を同時発生的に計算するこの基本的な技法は、周知のものであり、ニュー・ジャージー州イングルウッド・クリフズのプレンティス・ホール社1974年出版のブリガムによる「高速フーリエ変換」(Brigham,“The Fast Fourier Transform”,Englewood Cliffs,NJ:Prentice-Hall,Inc.,1974)中に叙述されている。改変DCT及びDSTの同時発生的計算に関する追加的な情報は、カリフォルニア州スタンフォードのスタンフォード大学出版のルッカボウによる1988年6月の博士学位論文、「話声の可変伝送速度及び周波数領域ベクトル適応量子化」(Lookabaugh,“Variable Rate and Adaptive Frequency Domain Vector Quantization of Speech”,Stanford,CA:Stanford University,PhD Thesis,June,1988)中に見ることができる。
この同時発生的な過程は、1つのチャネルに対してDCTブロック、もう1つのチャネルに対してDSTブロックという形で各チャネルに対して変換ブロックが同時発生的に発生される2チャネルの用途において、とりわけ有用である。所与のチャネルに対する符号化されたブロックは、DCTとDSTの間で交替し(式(5)を参照)、常に相互のチャネル・ブロック間で逆の形式となる。各チャネルに対して1つずつの1組のブロックは、共に変換され、フォーマット化される。
プリンセンは、適正な位相成分mと、注意深く設計された1組の分析・合成ウインドウとを用いることによって、TDAC技法では以下の形式の余弦及び正弦変換の交互数列から正確に入力信号を復元できることを示している。すなわち、
{C(k)}0,{S(k)}1,{C(k)}2,{S(k)}3,
…(5)
ここで、各変換ブロックは、1つの時間領域信号サンプル・ブロックを表す。この過程は、第14a図から第14e図までと、第15a図から第15d図までと、第16a図から第16g図までに示されている。
第14a図を参照すると、量子化された入力信号x(t)がブロックにグループ化されていることが分かる。第14b図に示すウインドウ機能Wcで変調されたブロックの1組によって、第14d図に示す信号xc(t)が作り出される。標本化された入力信号x(t)のもう1組は、ブロック長の半分だけ第1の組と重複されるが、第14e図に示す信号xs(t)を作り出す14c図に示すウインドウ機能Ws(このウインドウ機能はWcと同等であるが、ブロック長の半分だけずれている)によってウインドウ処理されて、次にDSTに受け渡される。
DCT及びDST交互変換ブロックのみを用いることによって、これらの変換ブロックの廃棄された半分に含まれる情報が失われる。この損失によって時間領域エイリアシング成分が作り出されるが、式1及び式2について適切な位相項mを選び、重複された時間領域信号サンプル・ブロックに対して順方向変換を適用し、逆変換で復元される隣接する時間領域信号サンプル・ブロックを重複・加算することによって、このひずみを相殺することができる。
式1及び式2における位相項mによって、時間領域エイリアシングひずみの位相転移が制御される。第15a図から第15d図までと、第16a図から第16g図までとで、このひずみを説明している。逆DCTから復元される信号x’c(t)が第15a図に示されている。第15b図では、この復元信号が、2つの成分、すなわち、元のウインドウ処理された信号(実線)と、時間領域エイリアシングひずみ(点線)とから成ることが示されている。第15c図及び第15d図には、逆DSTから復元される信号x’s(t)についての類似の情報が示されている。このエイリアシングひずみを相殺し、元の時間領域信号を正確に復元するために、TDACではこのエイリアシングが次のようであることを必要とする。すなわち、DCTについては、時間領域エイリアス成分は、サンプル・ブロックの約1/4の点の時間以内で反転される標本化信号の第1半部と、サンプル・ブロックの約3/4の点の時間以内で反射される標本化信号の第2半部とから成ることである。DSTについては、このエイリアス成分は振幅の符号が逆になっていること以外は、DCTについての場合と類似であることである。第15b図及び第15d図を参照して欲しい。エイリアス消去bに必要な位相項は、次式のとおりである。すなわち、

ここで、
N=サンプル・ブロック長
である。
TDACにもまた、注意深く設計された1組の分析・合成ウインドウを、重複された信号サンプル・ブロックに対して適用することが必要である。この信号サンプル・ブロックは100%の重複、すなわち、所与のブロックの50%は先行ブロックによって重複され、残りの50%は次のブロックによって重複されていなければならない。第16a図から第16g図までに、信号サンプル・ブロックの重複とその結果のエイリアス消去とが示されている。逆DCT及びDSTから復元される、第16a図及び第16d図に示される信号yc(t)及びys(t)は、それぞれウインドウ関数Wc(t)及びWs(t)によって変調されて、これにより第16c図及び第16f図に示す信号y’c(t)及びy’s(t)が作り出される。これらのウインドウ処理された信号の重複信号が加算されると、エイリアス成分は消去され、第16g図に示すその結果の信号y(t)は元の入力信号、x(t)を正確に再構成したものとなる。
この合成の際に用いられるウインドウの設計及び重複・加算については、以下で更に詳細に論考する。この時点では、変換ブロックの半分を除去することによって必要なビット伝送速度は半分になるが、信号合成の際にTDACに必要な100%のウインドウが重複されることによって必要なビット伝送速度は倍加されることを覚えて置くことで十分である。したがって、TDACは必要なビット伝送速度について中和する効果を持っている。
D.不均一量子化
フィルタ・バンク104から誘導される各変換係数は、不均一量子化装置108によって、符号化され、サブバンドにグループ化される。(表Iに変換係数のサブバンドへの割当を示す)。この不均一量子化装置は、第1a図に示す、ブロック浮動小数点エンコーダ105と、適応ビット割当て装置106と、均一量子化装置107とによって構成されている。第7図に示すように、不均一量子化は、5つの主要な部分から成る。すなわち、(1)サブバンド指数の計算、(2)主指数の決定、(3)係数の周波数の関数としての各係数コード・ワードのビット長の初期設定、(4)特定のコード・ワードへの追加ビットの適応割当て、及び(5)適応ビット割当てと係数の周波数に基づく最小ビット長との合計から計算されるビット長に従ってのコード・ワードの丸めと打切りである。
数値量の浮動小数点表現は、ディジタル・データ表現の分野では周知であり、整数表現で可能な範囲よりも一層広い範囲の値を表現するために用いられる。浮動小数点ポイント数は、仮数及び指数で構成される。本発明の好ましい実施例において、仮数は、2の補数形式で表現される符号化された整数値表現である。これに対応する指数は、表現されている数の量の真値にこの仮数を転換(正規化又は非正規化の何れかに)するのに必要な乗数2のべきに等しい非符号化値である。この表現は、以下のように表すことができる。
すなわち、
F=M・2-E (7)
ここで、
F=浮動小数点数の値
M=符号化された整数値仮数
E=非符号化整数値指数
である。
例えば、3の指数によって、この整数値仮数に2-3を乗じることによりこの浮動の小数点数の値が得られることが示される。これは、仮数の二進表現を右へ3桁移動することと等価である。
正の非0仮数は、最も有意のデータ・ビットが非0である時、正規化されていると言われる。負の値を持つ仮数は、最も有意のデータ・ビットが0である時、正規化される。正規化された仮数によって、数の量に対する有意のビットの最大値が仮数の制限されたビット長内に収まることが保証される。
ブロック浮動小数点表現は、当分野では周知であり、従来の浮動小数点表現で可能なビット数より少ないビットで1組の浮動小数点を表言するために用いられる。この技法では、仮数の1つの群に対して1つの指数を用いる。この群中の幾つかの仮数は、正規化されないこともある。この群中で最も大きい量に対する仮数は、その量が小さ過ぎる、すなわち、正規化するのに必要な乗数を指数を表現することが不能であることがないという条件下で、正規化される。しかし、仮数が正規化されるかされないかに拘らず、指数によって、浮動小数点量の真値を得るためにこの群中の各整数値仮数を転移しなければならない桁数が常に表現される。
1.サブバンド指数
ブロック浮動小数点エンコーダは、第1及び第2の不均一量子化部分から成る。第1部分によって演じられる機能を、第7図の箱701に示す。この部分によって、幾つかのサブバンド周波数係数に関するサブバンド指数が計算される。これらのサブバンドは表Iに示されている。この過程は、3つの段階から成る。第1の段階では、各サブバンド中の最大の変換係数を見付ける。第2の段階では、これらの最大の24ビット係数を正規化するのに必要な左への転移の数を決定する。第3の段階では、対応するサブバンドに対する指数としてこれらの量が保存される。
2.主指数
不均一量子化装置部分の第2部分によって、2つのサブバンド群の各々に対する1ビットの主指数が決定される。この主指数は、コーダのダイナミック・レンジを広げるために用いられる。表Iを参照すると、主指数MEXP0によって低いサブバンド周波数0から6までが表現されていることが分かる。主指数MEXP1によって、7から18までの高いサブバンド周波数が表現される。(20kHzコーダに関しては、表Iに示されているように、2つの追加的サブバンドが必要である)。もし群の中の総てのサブバンド成分が3であるか若しくはそれ以上であれば、この群に対する主指数は1に設定され、群中の総てのサブバンド成分は3まで減らされる。主指数が1に設定されると、群中の総てのサブバンド内の総ての符号化された主指数が、サブバンド指数値によって指示される桁よりも3桁左に転移されることが指示される。主指数が0である時には、群中の各サブバンド成分によって、このサブバンド中での各変換係数に対する総合的な左への転移が正確に表現される。これらの主指数によって、十分なダイナミック・レンジを持たせながら、より短いサブバンド成分を用いることが可能になる。この過程中の段階は、第7図の箱702a及び702bに示されている。
符号化信号を表現するのに必要な総合的なビットを減少させる、追加的な段階を取ることもできる。1つの指数によって単一の係数が表現される総てのサブバンドにおいて、正規化された仮数の符号ビットは、過剰なものである。上で論じたように、正規化された仮数中の符号ビットと最も有意なデータ・ビットとは、常に逆向きの値を有する。したがって、符号ビットはエンコーダによって脱落させられ、デコーダによって復活される。この脱落されたビットを、当出願では「隠れビット」と呼ぶ。
仮数が正規化されているかどうかは、指数を調べることによって判断できる。もし指数が最大値(本発明の好ましい実施例で用いている浮動小数点系中で主指数を調整した後に15になる)よりも小さければ、この仮数は正規化されている。もし指数が最大値に等しければ、結論を引き出すことはできないので、仮数は正規化されておらず、隠れビットはないと仮定される。
この技法は、係数を1つしか含んでいないサブバンド中で変換係数を表現する仮数に対してのみ用いることができる。このような係数は通常正規化されると仮定すると、固定又は最小ビット長をこの係数に関して表Iに示されているように減らすことによって、ビット要件の低減が実現される。もしたまたま変換係数が正規化されていなければ、周波数成分は非常に小さい振幅であるので、低減ビット長によって聴取可能な雑音が発生することはないであろう。
3.固定ビット長
不均一量子化装置の第3部分によって、左に転移された変換係数の各々に対する初期最小ビット長が設定される。この長さは、係数の周波数に従って設定される。第7図の箱703にこの過程のこの部分が表され、表Iに各係数のコード・ワードに対して固定されるビットの最小数が示されている。この最小ビット長は、代表的なフィルタバンクの応答特性曲線を音響心理学的マスキングしきい値曲線と比較することによって誘導されたものである。フィルタの性能は信号と係数の周波数との間の差のみの関数であるので、このフィルタバンクの応答特性を表すのにどのような周波数係数を用いても良い。第9図に示す応答特性曲線は、フィルタの通過帯域内の周波数範囲に対するフィルタの応答特性の実効値から得られる。上で論じたように、フィルタの選択度は、分析ウインドウの形状と、各時間領域信号のブロック中のサンプルの数とによって影響される。付加的な選択度の損失が信号合成過程中で生じるので、コーダの総合的応答特性は第9図に示す程良好ではないことにここでは注意して置きたい。この効果については、以下で論考し、第17図にも示す。
2つの音響心理学的マスキング曲線が第9図に示されている。これらの曲線は、オーディオ技術協会誌1988年第35巻の517ペーシから534ページまでのフィールダーによる論文、「ディジタル・オーディオ・コンバータによって作り出される聴取可能な雑音とひずみの評価」(Fielder,“Evaluation of the Audible Distrotion and Noise Produced by Digital Audio Converters”,J.Aud-io Eng.Soc.,vol.35,1988,pp.517-534)から誘導されたものである。耳の聴感上の選択性は周波数と共に大きく変化するが、500Hzから2kHzの間の周波数に対しては1kHzの曲線が耳の特性を表し、4kHzの曲線が、より高い周波数に対する耳の特性を表す。変換コーダに関する僊移帯域ロールオフと阻止帯域排除との割合は、より小さいビット伝送速度を達成するためには音響心理学的マスキング曲線の割合と同じ程度に大きくなければならない。特に、1kHz以下のマスキング信号音に対する人の耳の聴覚的選択性は極めて高いことに注意して欲しい。当分野で別の変換コーダでは、少なくとも512サンプルの時間領域ブロック長を用いることによって、この必要なサブバンド帯域と選択度とを達成している。例えば、IEEEの音響、音声及び信号処理国際会議1987年141ページから144ページまでのブランデンバーグによる論文、「OCF-高品質音響信号のための新しい符号化アルゴリズム」(Brandenburg,OCF--A New Coding Algorithm for High Quality Sound Signals”(IEEE Int.Conf.on Acoust.,Speech,and Signal Proc.,1987.pp.141-144)を参照のこと。
上で論じた遅延の制約のために、本発明では128個のサンプル・ブロックを用いており、望ましくない程度に広い帯域幅と劣化したフィルタ選択度とを、別の方法で克服しなければならない。この問題の克服は、4kHz以下の符号化された周波数係数の総てについて追加のビットを確保することによって、部分的に達成されている。第10図では、4kHzの音響心理学的マスキング曲線に対してフィルタ応答特性を比較している。周波数が増加するにつれて音響心理学的マスキング曲線に比較してのコーダの帯域幅と選択度が向上するので、4kHz以上の高い周波数係数を表現するのに必要なビットが少なくなる。この関係は、表Iに示すように最小ビット長の値に反映されている。
第11図では、1kHzのマスキング曲線を音響心理学的マスキング曲線が常に上になるように偏らせてあるフィルタ応答特性と比較している。このフィルタ応答特性に対する偏りは、低い周波数について確保してある追加ビットによって得られる精度の増加によるものである。各追加ビットによって、信号対雑音比が約6dB向上している。第11図の曲線では、もしマスキングに対して寄与する別の信号音が存在しなければ、低い周波数の変換係数を符号化するために42dBの偏り(又は7個の追加ビットの精度)が必要であることが示されている。
しかし、第9図、第10図、及び第11図に示されている曲線は単音又は非常に狭い帯域の雑音によって作り出される音響心理学的マスキング効果を表しているので、これらの図によって示唆されている最小ビット長は控え目なものである。第12図には、3つの音の個々のマスキング曲線を単純に重ね合わせることから誘導される複合マスキング曲線が示されている。この複合マスキング曲線は、重合音の実際のマスキング効果を理解した上で、非常に控え目なものであることが経験的な証拠によって示されている。更に、一般的に音楽は幾つかの個別の音よりも数等複雑な信号であり、その結果、マスキングの水準が増加することによって変換係数コード・ワードに必要な精度を下げても良いことになる。結果として、表示Iに示される最小ビット長は、第10図、及び第11図中のマスキング曲線によって示唆される各係数コード・ワードのビット長から2ビットを控除することで得られる。特定の係数の精度を増加するのに必要なところでは、適応ビット割当てによって追加ビットが供給される。
4.適応ビット割当て
a.大要
不均一量子化装置の第4部分によって、適応ビット割当てが行われる。第7図の箱704には、この割当て過程の大要が提示されている。大まかに言って、各変換ブロックについて、ビット割当てによって、4つの相で特定の係数に対する固定の数の追加ビットが割り当てられる。このビット数を、信号符号化品質とビット伝送速度との平衡を取るように選ぶことができる。本発明の好ましい実施例では、この割当てを34ビットで設定する。この制限を、当出願では、割当て最大値、又は割当て可能ビット数と呼ぶ。
現状の実施例では、1係数当たり4ビットの最大値を割り当てている。この最大値は、符号化精度と総合的ビット伝送速度との間の設計上の妥協を表している。当業者には、本発明の概念又は基本的目的を変更せずに、この最大値、又は適応割当て可能ビット数を変えることができることが分かるであろう。
相0は、残りの相に対する初期化の過程である。相1では、1係数当たり4ビットの最大値まで、最大のスペクトル・エネルギーを有する同一に重要な周波数帯域内の係数に対してビットが割り当てられる。もし割当て可能ビットの総てが相1の最中に割り当てられるならば、この割当て過程は停止される。もしそうでなければ、相2によって、全適応割当ビットが各係数に対して4ビットになるように、相1の期間で割り当てられた変換係数に対して追加ビットが割り当てられる。もし割当て可能なビットの総てが相2の最中に割り当てられるならば、この割当て過程は停止される。もしビットが幾らかでも残っているならば、相3によって、相1及び相2の最中に割り当てられた係数に隣接する係数に対してビットが割り当てられる。この手順の更に詳細な概念については、以下の文節で叙述する。この手順の論理の実施については、後で論考する。
第8図は、特定の変換係数に対して適応的にビットを割り当てる概念上の過程の図である。相0の初期化段階が箱800中に示されている。第1段階では、アレイA()の概要が0に設定される。次の段階では、最大のスペクトル成分を有するサブバンドに対する指数である、最小のサブバンドの指数が識別され、この値がXMINとして保存される。総てのサブバンドの指数がXMINから控除され、その差異がアレイM()中に記憶される。有り得る最小のサブバンドの指数は0であり、有り得る最大のサブバンドの指数は4ビットの高い周波数サブバンド指数に対する最大値15と主指数MEXP1に対する値3とを加えた、18であることに注意して欲しい。表Iを参照して欲しい。したがって、アレイM()中の有り得る値の範囲は、負の18から0までである。次の段階で、アレイM()の各要素に4が加えられ、0以下の総ての要素は0に設定される。相0の終りにおいては、アレイM()は、各サブバンドについて1つの、値が0から4までの範囲の要素の1組から成る。4の値を有する要素は、サブバンド中の少なくとも1つの係数が全信号中で最大のスペクトル係数の1つを有するサブバンドを表す。
相0では、第8図の箱801に示す過程を用いて、もう1つのアレイA()が構築される。このアレイA()は、各サブバンド中の係数に割り当てられるビットを表す。A()中の各要素は、サブバンドに対応する。より高いサブバンド指数は複合変換係数を表すので、A()の各要素は対応するサブバンド中で総ての変換係数に割り当てられるビット数を表すことを表Iから思い出して欲しい。例えば、表Iを参照すると、サブバンド7は、係数7及び8を表す。もし要素A(7)が値1を有するならば、変換係数7及び8に対して1ビットずつの、2ビットが割り当てられることを示している。この例について続けると、もし要素A(18)が値2を有するならば、変換係数39から45の各々に対して2ビットずつの、14ビットが割り当てられる。この割当て過程の間中、A()の各要素が増分されるにつれて、割当てのために残っているビットから割り当てられたビットの数が控除される。
この相、又はそれに続く相の総ての間中に割当て可能なビット総てが割り当てられると、この相は直ちに終結し、次の相は省かれる。割当て限界に達する最後の段階中に、この段階中にサブバンドに割り当てられるビットの数は、割当てのために残っているビットの数を超えない。2つ以上の係数を有するサブバンドの処理が行われている間に割当て可能なビットの最後のものが割り当てられると、このサブバンド中の係数総てに同じ数のビットが割り当てられないことがあり得る。
最も低い周波数係数を表すM()アレイ要素[DCTブロックに関してはM(0)、DSTブロックに関してはM(1)]から始めて、M()の各要素が替わるがわる検査される。M()アレイ全体にわたってか、若しくは割当て可能ビットの総てが割り当てられるまで、4回もの検査が行われる。第1回の検査で、アレイA()中の各要素は、もしアレイM()中の対応する要素が4に等しい値を有するならば、1つだけ増分される。第2回の検査によって、3又は4の値を有するM()中の各要素に対応するアレイA()中の各要素が1だけ増分される。第3回の検査で、アレイA()要素は、対応するM()要素が2から4までの範囲内の値を有するならば、増分される。最後の検査によって、1から4までの範囲内の値を有するM(要素に対応するアレイA()中の要素が増分される。もし割り当てられるビットの数が割当て限界に達するか、もしくは割当て限界よりも少なければ、このビット割当て過程は相0の終りで完結することに注意して置くと良い。
もし割当て可能ビットが幾つかでも残っていれば、第8図の箱802に示す相2の割当てが続行される。この相では、A()アレイ全体にわたって3回もの検査が行われ、もし最大数の割当て可能ビットが割り当てられると、この相は早々に停止される。各検査は、最も低い周波数要素[DCTブロックに関してはA(0)、DSTブロックに関してはA(1)]で開始され、周波数を上げながら進められる。アレイA()全体にわたる第1回の検査で、1と3との間の値を有する各要素が1だけ増分される。第2回の検査で、2又は3の値を有する要素が増分される。第3回の検査で、3に等しい要素が増分される。割当て限界を超えることなくこの相が完結するならば、A()アレイ中の各要素の値は、4または0の値を有する。
もし割当て可能なビットが幾つかでも残っていれば、第8図の箱803に示す相3の割当てが続行される。前の相と同じように、割当て限界に達すると直ちに相3の割当ては終了する。この最後の相によって、高いエネルギーを持つ係数のサブバンドに隣接する低いスペクトル・エネルギーを持つ変換係数に対して追加ビットが割り当てられる。この割当ては、4段階で達成される。第1段階によって、値{0,0,4}を持つ3つの隣接要素の群を探索するための、最も高い周波数要素A(18)[20kHz帯域幅コーダ中では要素A(20)は開始要素]から始まる、アレイA()の走査が行われる。もしこれらが見付かれば、この群の値が{0,1,4}になるように、中央の要素が1に設定される。
2つの特別な場合は第2段階から成る。最も低い周波数変換係数のビット割当ては、2つの最も低い周波数変換係数の値[DCTブロックに関してはA(0)及びA(1)、又はDSTブロックに関してはA(1)及びA(2)]が{0,4}であるならば、1に設定される。要素A(17)及びA(18)の値は、それらの値が{4,0}ではないかを判断すべく試験される。もしそうならば、最高の周波数のサブバンドに対する割当ては、1に設定される。[20kHzコーダでは要素A(19)及びA(20)は試験される]。
もし割当て限界に達していなければ、値{4,0,0}を持つ3つの隣接要素の群を探索するために、最高の周波数サブバンドから始め、低い周波数に向けてアレイA()を走査することで、相3の段階3が開始される。もしこれらが見付かれば、{4,1,0}の値を作り出すべく、中央の要素が1に設定される。
相3の第4及び最終段階によって、この相の段階1から3までの段階中でのサブバンド割当てビット中の係数に対して、追加ビットが割り当てられる。アレイA()の最高の周波数要素で始めて、段階1中で改変される各要素が増分される。段階2中で改変される要素は総て、次に増分される。最後に、段階3中で改変される要素が、最高の周波数サブバンドと共に始めて、増分される。段階4では、上で論じたのと同じ順序で、割当て可能なビットが総て割り当てられるまで、若しくは段階1から3までの段階中で改変される要素の総てに各々合計4ビットずつが割り当てられるまで、アレイ要素が反復的に増分される。もし後者の条件に一致し、割当て可能なビットが幾つかでも残っていれば、相3が、段階1から始めて、反復される。
b.適応ビット割当て論理
適応ビット割当てアルゴリズムの概念については、第8図に表現し、上で述べた。このアルゴリズムの概念を理解することは、適応ビット割当てルーチンの実際の論理を理解するのに役立つ。
相0は、アレイA()の総ての要素を0に等しく初期化し、T1からT4までの4つの表を構築することで始まる。これらの表は以下の段階を通して達成される。すなわち、(1)最小のサブバンド指数を識別し、これをXMINとして保存し、(2)最も低い周波数サブバンド(DCTブロックについてはサブバンド0、DSTブロックについてはサブバンド1)から始めて、サブバンド指数(表I参照)をXMINから控除し、(3)もしこの差異が0であれば、このサブバンド数を表T1、T2、T3、及びT4に挿入し、(4)もしこの差異が負の1であれば、このサブバンド数と表T1、T2、及びT3に挿入し、(5)もしこの差異が負の2であれば、このサブバンド数を表T1、及びT2に挿入し、(6)もしこの差異が負の3であれば、このサブバンド数を表T1に挿入し、(7)総てのサブバンドが処理されるまで、各サブバンドに対して段階3から6までを継続する、段階である。この段階の終りにおいて、表T1にはXMIN-3からXMINまでの範囲の指数を有するサブバンド数、表T2にはXMIN-2からXMINまでの範囲の指数を有するサブバンド数、表T3にはXMIN-1からXMINまでの範囲の指数を有するサブバンド数、表T4にはXMINに等しい指数を有するサブバンド数が含まれる。ここで重要なことは、各表へのサブバンド書込みが周波数の上がる順序で行われることである。
相1によって、最大のサブバンド指数を有するサブバンド中の変換係数に対してビットが割り当てられる。最初の表T4への書込み(最低の周波数)から始めて、この表で表されるサブバンド内の各変換係数に対して1ビットが割り当てられる。割当ては、表T3、T2、最後にT1へと、替わるがわる行われる。この過程は、割当て可能ビットが総て割り当てられるまで、若しくはT4からT1までの表への総ての書込みが処理され終わるまで、反復される。1つのサブバンド中の総ての係数に対して1つのビットが割当てられると、A()中の要素によって各サブバンド中の各変換係数に対して割り当てられる全ビットが反映されるように、アレイA()のサブバンドに対応するアレイA()中での書込みが1だけ増分される。
相1によって、最大のサブバンド指数を有するサブバンド中の変換係数に対してビットが割当てられる。T4への最初の書込み(最低の周波数)から始めて、この表で表されるサブバンド内の各変換係数に対して1ビットが割り当てられる。割当ては、表T3、T2、最後にT1へと、替わるがわる行われる。この過程は、割当て可能ビットが総て割り当てられるまで、若しくはT4からT1までの表への総ての書込みが処理され終わるまで、反復される。1つのサブバンド中の総ての係数に対して1つのビットが割り当てられると、A()中の要素によって各サブバンド中の各変換係数に対して割り当てられる全ビットが反映されるように、アレイA()のサブバンドに対応するアレイA()中での書込みが1だけ増分される。
前に注意したように、割当て可能なビットが総て割り当てられると割当ては直ちに終結する。表への書込みの度に、一般的に複合変換係数を含むサブバンドが表される。したがって、もし割当て可能ビットの最後のものが2つ以上の係数を持つサブバンドを表す表書込みに割り当てられるならば、そのサブバンド中の係数の総てには同じ数のビットが割り当てられないことが起こり得る。そのような状況の際には、割当て過程によって、次にアレイA()中に記憶される、サブバンド割当ての量から控除されるビットを持たなければならないサブバンド中の係数がどれであるかが表示される。
相2によって、T1からT4までの4つの新しい表が、相0で用いられたのと類似の手順を用いて構築される。この手順は、すなわち、(1)最小のサブバンド指数をXMINが依然保持し、(2)最低の周波数サブバンド(DCTブロックについてはサブバンド0、DSTブロックについてはサブバンド1)に関して、XMINからサブバンド指数を控除し、(3)もしこの差異が0であれば、このサブバンド数を表T4に挿入し、(4)もしこの差異が負の1であれば、このサブバンド数を表T3に挿入し、(5)もしこの差異が負の2であれば、このサブバンド数を表T2に挿入し、(6)もしこの差異が負の3であれば、このサブバンド数を表T1に挿入し、(7)総てのサブバンドが処理されるまで、各サブバンドに対して段階3から6までを継続することである。この段階の終りにおいて、表T1にはXMIN-3に等しい指数を有するサブバンド数、表T2にはXMIN-2に等しい指数を有するサブバンド数、表T3にはXMIN-1に等しい指数を有するサブバンド数、表T4にはXMINNI等しい指数を有するサブバンド数が含まれる。総ての表の中へのサブバンド書込みは、変換係数の周波数が上がる順序で行われる。
相2によって、表T3からT1までの中のサブバンドによって表される総ての係数に対して、各係数によって合計4つの追加ビットが受け取られるまで、若しくは割当て限界に達するまで、相2によって、対して1ビットが割り当てられる。表T3中の最初の書込み(最低の周波数)から始めて、この表中に表される各サブバンド内に含まれる各係数に対して1ビットが割り当てられる。各サブバンドが処理されると、この書込みは、表T3から外されて、表T4に挿入される。次に、追加ビットが割り当てられるにつれて表T2から表T3に各書込みを移動させながら、表T2の書込みに関連する係数に対して追加ビットが割り当てられる。その後、表T1から表T2に書込みを移動させながら、表T1中の書込みが処理される。もし割当て可能ビットが幾らかでも残っていれば、表T3に対する処理、その後、表T2に対する処理を反復しながら、割当てが続行される。もし割り当てられるべきビットが残っているならば、表T3中の書込みを通して最後の処理が行われる。もし相2によって割当て可能ビットの総てが割り当てられなければ、表T4には、受け取った4ビットを各々が持つ総ての係数が含まれ、表T3から表T1までは空である。もし割当て可能ビットの総てが割り当てられたならば、表T1から表T4までに含まれる情報からアレイA()が再構築されて、各変換係数に割り当てられた合計ビットが反映される。表T4中の書込みに対応するアレイA()中の各要素には、値4が割り当てられる。表T3中の書込みに対応する各A()要素には値3が割り当てられ、表T2については値2、表T1については値1が割り当てられる。他の総てのA()の要素、すなわち表T1から表T4までの書込みによって表されないサブバンドは0である。
もし割当て可能なビットが幾らかでも残っていれば、相3で割当てが続行される。サブバンドの数を周波数が下がる向きに順序付けることによって表T4が区分けされる。第1段階によって、表T4にはない、より低い周波数で、表T4中にあるサブバンドに隣接するサブバンドが表T1に対して追加される。表T4中の最初の書込み(最高の周波数)から始めて、この表中での隣接書込みが2つ若しくはそれ以上のサブバンドに分離されていないかについて検査される。もし分離されているならば、より高い周波数の直ぐ下にあるサブバンドの数が表T1に挿入される。例えば、表T4中の2つの隣接する書込みによってサブバンド16及び12が表されるとしよう。これらの2つのサブバンドは3つのサブバンドに分離されている。したがって、サブバンド16の下のサブバンドを表す数15が表T1に挿入されることになろう。
次に、サブバンド0及び18(20kHz版ではサブバンド0及び20)に関する2つの特殊例が取り扱われる。もしサブバンド1が表T4中での最後の書込みであるならば、サブバンド0に対する数が表T1に挿入される。もし表T4中での隣接書込みがサブバンド17(20kHz版ではサブバンド0及び19)であるならば、サブバンド18(サブバンド20)に対する数が表T1に挿入される。
第3の段階によって、表T4にはない、より高い周波数で、表T4中にあるサブバンドに隣接するサブバンドが表T1に対して追加される。表T4中の最初の書込み(最高の周波数から始めて、表T4中での隣接書込みが2つ若しくはそれ以上のサブバンドに分離されていないかについて検査される。もし分離されているならば、低い周波数の直ぐ上にあるサブバンドの数が表T1に挿入される。例えば、表T4中の2つの隣接する書込みによってサブバンド16及び12が表されるとしよう。上で論じたように、これらの2つのサブバンドは3つのサブバンドに分離されている。したがって、サブバンド12の上のサブバンドを表す数13が表T1に挿入されることになろう。
表T1中の最初の書込みから始めて、表T1中の書込みによって表される各サブバンドに関連する各変換係数に対して、追加ビットが割り当てられる。各サブバンドの書込みは、処理されるにつれて、表T1から表T2へと移る。もし表T1の処理の終りの時点で割当て可能ビットが幾らかでも残っていれば、各書込みを表T2から表T3へと移しながら、表T2の書込みに関して、類似の過程が反復される。もし割り当てられるべきビットが幾らかでも残っていれば、表T3の書込みを表T3から表T4へと移しながら、表T3の書込みの過程が続行される。もしこの過程の後にビットが幾らかでも残っていれば、表T4の書込みを周波数が下がる順序に区分けすることによって、始めの段階から相3が繰り返される。割当て可能ビットの総てが割り当てられると、上で相2に関して述べたように、4つの表からアレイA()が構築される。
ビットの総てが割り当てられた後、各変換係数のコード・ワードは、その中でこの係数がグループ替されているサブバンドを表すアレイA()の要素の値に等しい、ビット長に丸められる。しかし、1つのサブバンド中の幾つかの係数では、割当てビットの合計数を割当て最大数に等しく保つために必要なビット長から1つ少ないビット長を具えることもある。
5.コード・ワード省略
第7図の箱705に示す不均一量子化装置は、適応ビット割当てルーチンに従う。前節で決定されたサブバンド及び主指数を用いて、変換ブロック中の各変換係数は、もし関連する主指数が0に設定されていれば、中で係数がグループ化されるサブバンドに対する指数の値に等しい桁数に更に3つ加えた桁数だけ、左に移動される。その後、各係数の合計ビット長は、アレイA()中で見出だされる各サブバンド中の係数に対して適応的に割り当てられるビットの数に最小ビット長を加えることによって、計算される。各変換係数のコード・ワードは、このビット長に丸められる。
上で述べたように、アレイA()の各要素によって、サブバンド内の総ての係数に割り当てられるビットの数が表される。サブバンド内の幾つかの係数では、割当てビットの合計数を割当て最大数に等しく保つために必要なビット長から1つ少ないビット長を具えることもある。
E.フォーマット化
フォーマット化過程によって、符号化変換ブロックの伝送または記憶への準備がされる。この過程は、第1a図の箱109によって示されている。以下の叙述では、ステレオ音響の用途に用いられるような2チャネル信号のフォーマット化について論考する。しかし、この基本的な構成は、本発明の基本から逸脱することなく、単一チャネル、又は複チャネル系に利用することができる。
各変換係数のコード・ワードの固定長表現は、丸められたコード・ワードを表Iに示す最小ビット長に等しい長さに省略することによって形成される。このコード・ワードに対して割り当てられる追加ビットは総て、適応ビット・ブロック中に個別にフォーマット化される。その後、主指数と、サブバンド指数と、省略されたコード・ワードと、適応ビット・ブロックとが第20図に示すグループ化によって組み立てられる。
第20図の変換ブロックのフォーマット化されたフレームでは、チャネルAによってDCTブロックが符号化され、チャネルBによってDSTブロックが符号化された構造が説明されている。伝送中の雑音によって生じるようなビット誤りをもしこのフレームが受けるのであれば、第21図に示すような誤り訂正符号がデータに混合される。もしこのディジタル信号が伝送を意図したものであればフレーム同期ビットのような余分な追加のビットが、また、もしこのディジタル信号が記憶を意図したものであればデータベース・ポインタ又はレコード・キーが必要になることもある。もしフレーム同期ビットが必要であれば、フォーマット化されたフレームは、ニュー・ヨーク州ニュー・ヨークのヴァン・ノストランド・ラインホールド社1985年出版のスミスによる「ディジタル伝送系」の228ページから236ページまで(Smith,Digital Transmission System,New YorK,NY:Van Nostrand Reinhold Co.,1985,pp.228-236)に叙述されている技法を用いて、無作為化される。無作為化は、フレーム内の有効データが同期パターンと誤認される確率を低減するために行われる。その後、この無作為化されたフレームは、フレーム同期ビットに付加される。
各変換係数を2つの別個の部分又はセグメント中に表すことができることに注意して欲しい。第1の部分によって、係数の最小の長さが表され、この部分は固定の数のビットで構成される。表Iを参照のこと。この表現の第2の部分がもしあれば、長さが変わり、適応的に割り当てられるビットで構成される。この2つの部分の表現構成は、雑音による悪化に対して一層感じ易いので、可変長のワードとして各係数を表す表現に加えて選ばれる。好ましい実施例の構成を利用するフレーム中でもし突発雑音が発生すると、この雑音の影響は、この雑音によって影響を受ける、指数の値、コード・ワード、又は割り当てられたビットに止まる。可変長コード・ワードを利用するフレーム中でもし突発雑音が発生すると、この雑音の影響は、残りのフレーム全体に伝ぱんすることが有り得る。この突発雑音によって、この雑音で直接的に影響を受ける指数の値及びコード・ワードだけではなく、各可変長コード・ワードの長さを決定するのに必要な情報も変化するので、この伝ぱんが生じる。もし1つのコード・ワードの長さに誤りがあると、フレームの残りの部分も誤って解釈される。
表Iでは、符号化されたDCTブロックが、2つの主指数ビットと、69ビットに対する19のサブバンド指数と、163ビットに対する46の係数のコード・ワードとから構成されていることが示されている。適応的に割り当てられる追加の34ビットによって、合計のDCTブロック長は268ビットになる。(本発明の20kHz版については、符号化されたDCTブロックは、2つの主指数と、77ビットに対する21のサブバンド指数と、197ビットに対する63の係数のコード・ワードと、34の適応的に割り当てられるビットとの合計310ビットである)。表Iに記され、表現4に示されているように、DST係数に対するコード・ワードS(0)は常に0であるので、このコード・ワード及びその指数を伝送したり、又は記憶したりする必要はない。このことによって、符号化されたDCTブロックが合計8ビット(指数ビット3つと、係数コード・ワード5つ)だけ低減されて、合計260ビット(20kHz方式については、302ビット)になる。DCT及びDSTブロックの組の符号化されたフレームに対する合計長は、528ビットである。
追加ビットが割り当てられている係数を指示するのに副次的情報は必要ではない。フォーマットを解除する過程では、符号化の過程で用いられたのと同一の割当てアルゴリズムを実行することによって、伝送されたサブバンド指数から適正な割当てを決定することが可能である。
データの悪化が問題でない時には、変換ブロックのフレームをフォーマット化するための好ましい構造は、指数を最初に、係数コード・ワードを2番目に、適応割当てビットを最後に配置する構造である。この構造では、総てのサブバンド指数が受け取られた後に、適応ビット・ブロックが受け取られる間に各変換係数に対するビット割当てを、フォーマットを解除する過程によって決定することが可能なので、処理の遅延が低減される。本発明の好ましい実施例において用いられるフォーマット化構造を第20図に示す。主及びサブバンド指数を1チャネルについて周波数の上向きの順序に組み立て、続けて別のチャネルの主及びサブバンド指数について同様に行うことで、ビット・ストリームがフォーマット化される。次に、第1チャネルに関する変換係数コード・ワードの固定長部分を周波数の上向きの順序に組み立て、続けて別のチャネルに関する変換係数コード・ワードについて同様に行う。最後に、第1チャネルに関する適応ビット・ブロックをビット・ストリームに付加し、続けて別のチャネルに関する適応ビット・ブロックについて同様に行う。
データの悪化の可能性が心配な用途においては、誤り訂正構成が必要である。サブバンド指数中の誤りと、それよりも程度は低いが、低い周波数の係数コード・ワード中の誤りとによって、最大の聴取可能な歪みが一般的に生じる。これらの情報は、保護されるべき最重要のデータである。好ましい構成では、これらの値を誤り検出及び訂正符号を用いて保護し、突発雑音誤差に対する脆弱性を改善させるためにこれらの値をできるだけ隔置している。このような構成が第21図に示されている。
本基本発明から逸脱せずに別のフレーム・フォーマット及び訂正符号を利用できることは、当業者にとっては明白であろう。
DCT・DSTブロック・ペアの1フレームの全体の長さは528ビット(20kHz版については612ビット)である。この長さに関して、139ビット(20kHz版については155ビット)はサブバンド及び主指数である。このビット・ストリームに対して3個の(15,13)リード・ソロモン(Reed-Solomon)誤り訂正符号が付加される。これらの符号の各々によって、13個の4ビット記号(ニブル:nibbles)又は52ビットに対する単一記号誤り検出・訂正が行われる。この例として、マサチュセッツ州ケンブリッジのM.I.T.プレス社1986年出版のヒーターソンとウエルドンによる「誤り訂正符号」の269ページから309ページまでと、361ページから362ページまで(Peterson and weldon,Error-Correcting Codes,Cambridge,Mass:The M.I.T.Press,1986,pp.269-309,361-362)を参照して欲しい。これらの3つの誤り訂正符号の3個は、各フレームに挿入され、39ニブル(156ビット)までのデータが保護されるが、全フレーム長は552ビット(20kHz版については636ビット)になる。
これらの3つの符号によって156ビットまでを保護できるが、15kHz方式では139のサブバンド指数ビットしかないことから、ブロック・ペア・フレーム中の3個の最低周波数係数コード・ワード[DCTについては係数C(0)及びC(1)、DSTについては係数S(1)]に対しても保護を行うことができる。この残りの誤り訂正能力は、各変換ブロックの低い周波数の主指数の2個(表Iに示されているMEXP0)に対する冗長保護を行うことに利用される。しかし、特定データ要素に対する3個の誤り符号の割当ては任意的であって、DST主指数に1個の符号を割り当てられなければならず、また、各変換ブロックからの2つの低い周波数の主指数には第3の符号を割り当てられなければならない。
リード・ソロモン・コードによってニブル中のデータが処理されるので、誤り符号と、保護されたデータと、保護されていないデータは、処理を容易にするために4ビットのニブルにグループ化される。各ブロック・ペア・フレーム中での保護されるデータに対する保護されないデータの比率は、約2対1である。これによって、保護されたデータをフォーマット化されたフレーム全体にわたって分散して、保護されたデータの4ビットのニブルの各々を保護されていないデータの2ニブルにより分離することが可能になる。これに加えて、各誤り符号自体が単一記号誤りを保持することが有り得るので、保護されたニブルは連続する3つの符号の各々に対して割り当てられる。例えば、最初の5つの保護されたニブルはそれぞれ、誤り符号1、2、3、1、及び2に対して割り当てられる。これについては第21図を参照して欲しい。この技法を用いると、フレーム中のあらゆる位置に各誤り符号に33ビットもの1つの突発雑音が生じても、各誤り符号から2個以上のニブルを悪化させることがない。したがって、33ビット以上の長さを持たない突発雑音に対しては、保護されたデータを復元することができる。
上で論考した制約の下で、指数及び変換係数コード・ワードは周波数の上がる向きに組み立てられ、その後に適応ビット・ブロックが続く。
F.伝送又は記憶
今や、伝送又は記憶に対して、フォーマット化されたフレームの準備は整えられた。第1a図には、伝送装置110が示されている。伝送媒体としては、放送のような公共頒布系、スタジオでのモニタや信号ミキシングのような内部用途、地上や衛星電波を経由する施設内又は電話用途が含まれる。記憶媒体としては、磁気テープ、及び磁気又は光ディスクが含まれる。
G.フォーマット解除
ディジタル化され符号化された信号が、伝送信号の受信、又は記憶からの取出しによって伝送装置111から受け取られれと、フォーマット解除過程が始まる。この過程は、第1b図の箱112に表現されている。もしコード・ワードのフォーマット化されたフレームが伝送の前に無作為化されていれば、逆無作為化過程によってこのフォーマット化されたフレームが復元される。その後、このフレームは、各変換ブロックの成分の部分、すなわち、主指数と、サブバンド指数と、変換指数コード・ワードの固定長部分と、適応割当てビットとに分けられる。誤り訂正符号がもしあれば、これを用いて、伝送又は記憶の間に発生した誤りが取り除かれる。
各主指数ビットは、その冗長ビットを用いて点検されて、精度が確認される。もしこの点検で落第ならば、つまり、主指数とその冗長相対部とが等しくなければ、この主指数の値は1であると仮定される。もしこの主指数の正しい値が実際には0であるとしたら、この仮定によって、総ての変換係数の振幅はこの誤った主指数の下でグループ化されるサブバンド内に下げられる。主指数を(1であるべきところで)0に誤って設定すると、影響を受ける係数の総ての振幅を増加させるので、この仮定による方が、0に誤って設定するよりも不都合なひずみの発生をより少なくできる。
総ての単一係数サブバンドに関する指数もまた点検されて、隠れビットについての調整が必要であるかどうかが判断される。
上で述べた適応ビット割当てルーチンを用いて受信信号から抽出される指数が処理され、この結果を用いて変換係数に対する適応ビット・ブロックの適正な割当てが決定される。最大ビット長と適応的に割り当てられたビットの何れかとを加えたビット長にその長さが等しい各変換係数の部分は、24ビット・ワードに負荷され、その後、もし関連する主指数が1に設定されているならば、適切なサブバンド指数の値と3桁の追加移動桁とを加えた数に等しい桁数だけ右に移行される。この過程は、第1b図の箱113に表現されている。
H.合成フィルタ・バンク、逆変換
第1b図の箱114では、フォーマット解除及び直線化手順によって復元される周波数領域係数の各組を時間領域信号サンプルのブロックに変換する合成フィルタのバンクが表現されている。第1a図の分析フィルタバンク104に用いられている変換とは逆の変換によって、合成フィルタバンク114が実現される。本発明の実施例で用いられるTDAC技法のための逆変換は、改変された逆DCT及び逆DSTの代替的な応用である。変換ブロックの半分が伝送又は記憶から削除されるので(表現5を参照のこと)、逆変換のためにはこれらのブロックが再生されなければならない。式8に示されるように、この失われたDCTブロックを入手可能なDCTブロックから再生することができる。式9に示されるように、失われたDSTブロックを再生することができる。逆DSTは式10に表現されており、逆DCTは式11に表現されている。
すなわち、

ここで、
k=変換係数
n=信号サンプル数
k=変換係数の数
N=サンプル・ブロック長
m=TDACに関する相期間

x(n)=復元された量子化信号x(n)
である。
計算は、FFTアルゴリズムを用いて行われる。逆変換において、単一のFFTを用いてのDCT及びDSTの両方の同時発生的な計算を可能にするために、前方変換で用いられた技法と同じ技法が用いられる。
第14a図から第14e図までと、第16a図から第16g図までに、分析・合成フィルタバンクの変換過程が示されている。分析フィルタバンクによって、時間領域信号がDCT及びDSTブロックの交互列に変換される。逆変換によって、逆DCTが別のブロックの各々に加えられ、逆DSTがブロックの別の半分に加えられる。第15a図から第15d図までに示すように、復元された信号には、エイリアシングひずみが含まれている。このひずみは、第1b図の箱116に表されている次の時間領域ブロックの処理工程の間に相殺される。重複・加算過程については、以下の述べる。
I.合成ウインドウ
第16a図から第16b図までには、隣接する時間領域信号サンプル・ブロックの重複・加算による時間領域エイリアシングの消去が示されている。プリンセンによって誘導されているように、時間領域エイリアシングひずみを消去するには、TDAC変換では、分析ウインドウと同等の合成ウインドウを適用し、隣接するブロックの重複・加算を行うことが必要である。各ブロックは、100%、すなわち、先行ブロックで50%が、後続ブロックで50%が重複される。合成ウインドウ変調は、第1b図の箱115によって表現されている。
合成・分析ウインドウの設計では、フィルタバンクの性能について考慮しなければならない。両方のウインドウとも時間領域信号を変調すべく用いられるので、フィルタ性能に係る総合的効果はこれら2つのウインドウの積から形成される単一のウインドウによって生じる効果と類似している。したがって、合成・分析ウインドウ・ペアの設計は、合成及び分析ウインドウの点ごとに掛け算を表す適切な積ウインドウを設計することによって、達成される。この設計は非常に制約されていて、僊移帯域ロールオフの鋭さと阻止帯域排除の深さとの平衡を取る融通性を低下させる。その結果、フィルタ性能は、この制約のない分析専用ウインドウにおけるよるも大幅に劣化する。この例については、第17図を参照して欲しい。
先行技術では、分析ウインドウに関して多大な関心が払われている一方で、合成ウインドウについては教えられるところは少ない。以下に叙述する技法では、周知の良好な分析ウインドウの設計から良好な合成・分析ウインドウ・ペアを誘導している。この技法によって誘導されるウインドウ・ペアは、後で更に詳細に論考するコンピュータを基本とする最適化技法から誘導されるウインドウ・ペアと実質的に同じである。出発点としてどのような分析ウインドウをも用いることができるが、幾つかのウインドウでは、良好な選択度を有するフィルタバンクの設計が可能となり、僊移帯域ロールオフの鋭さを阻止帯域排除の深さと取り引きする手段が提供される。3つの例としては、カイザー・ベッセル・ウインドウ(Kaiser-Bessel window)と、ドルフ・チェビシェフ・ウインドウ(Dolph-Chebychev window)と、パークス・マックレラン法(Parks-MaClellan method)を用いて有限インパルス・フィルタ係数から誘導されるウインドウとが挙げられる。1972年3月のIEEE学会誌、回路理論、CT-19巻の189ページから194ページまでのパークスとマックレランによる論文、「リニア相を有する非回帰型ディジタル・フィルタのチェビッシェフ近似法」(Parks and McClellan,“Chebychev Approximation for Nonrecursive Digital Filters with Linear Phase”,IEEE Trans.Circuit Theory,vol.CT-19,March 1972,pp.189-94)を参照のこと。ここでは、カイザー・ベッセル・ウインドウのみが論じられている。このウインドウによって、単一のパラメータ・アルファ値の選択を通して上述の平衡を取ることが可能になる。一般的法則として、アルファ値を低くすることによって僊移帯域ロールオフが改善され、アルファ値を高くすることによって阻止帯域排除の深さが増加する。上で引用したハリスの論文を参照のこと。本発明の好ましい実施例では、4から7までの範囲のアルファ値が使用できる。この範囲によって、中間周波数領域(1kHzから2kHz)での僊移帯域オールオフの鋭さと、低い周波数領域(500Hz以下)及び高い周波数領域(7kHz以上)での阻止帯域排除の深さとの間の良好な妥協が得られる。受容できるアルファ値の範囲は、コンピュータ・シミュレーションで、量子化雑音を音響心理学的マスキングしきい値以下に維持するために十分な阻止帯域排除を具える最低のアルファ値を識別することによって決定された。
カイザー・ベッセル・ウインドウ関数は以下の通りである。
すなわち、

ここで、
α=カイザー・ベンセルのアルファ因数
n=ウインドウのサンプル数
N=ウインドウのサンプル数中のウインドウ長であり、

である。
重複・加算条件を満足させるために、長さv+1のウインドウW(n)を長さN-vの長方形ウインドウでたたみ込むことによって、長さNの分析・合成積ウインドウWP(n)が誘導される。値vは、ウインドウ重複・加算期間である。この重複・加算過程によって、エイリアスひずみと分析・合成ウインドウの変調効果とが相殺される。積ウインドウを誘導するたたみ込みは、式13に示されている。ここでは、表現の分母によって最大値が単位1に近付くが1を超えないようにウインドウが測定される。この表現を式14に示される表現のように単純化することもできる。
すなわち、


ここで、
n=積ウインドウのサンプル数
v=ウインドウ重複期間内のサンプル数
N=積ウインドウの望ましい長さ
W(n)=長さv+1のウインドウ関数の開始
WP(n)=長さNの誘導された積ウインドウ

である。
式(15)及び式(16)に示される分析及び合成ウインドウは、誘導された積ウインドウWP(n)をそれぞれS及びAで累乗することによって得られる。
すなわち
WA(n)=WP(n)A 0≦n<N(15)
WS(n)=WP(n)S 0≦n<N(16)
ここで、
WP(n)=誘導された積ウインドウ(式13及び式14を参照のこと)
WA(n)=分析ウインドウ
WS(n)=合成ウインドウ
N=積ウインドウの長さ
A+S=1
である。
本発明の現在の実施例では、分析及び合成ウインドウは、100%のウインドウ重複又は64サンプルの重複期間を具える、128サンプルの長さを有する。S及びAの値は、TDAC変換によって必要とされる1組の同等な分析及び合成ウインドウを作り出す真半分に、各々設定される。これらの値を式14に代入することによって、結果としての分析ウインドウは以下のようになる。
すなわち、

ここで、W(n)=長さ65のカイザー・ベッセル関数で、アルファ因数は4から7までの範囲である。
J.重複・加算
ウインドウの設計には、更に追加の要件が課される。すなわち、分析及び合成ウインドウは、隣接する2つの分析及び合成ウインドウが重複された時に、分析・合成積ウインドウの合計が単位1になるように設計されなければならないい。重複・加算過程は分析ウインドウ及び合成ウインドウの時間領域効果を消去すべく用いられるので、この要件が課される。この過程は、第1b図の箱116によって表現され、第16a図から第16g図までで説明されている。逆DCT及びDSTからそれぞれ復元される信号yc(t)及びys(t)は、第16a図及び第16d図に示されている。各信号ブロックは、1連のブロックにグループ化される。各信号ブロックは、第16b図及び第16e図に示される分析・合成ウインドウ関数によって変調される。結果として得られる信号y’c(t)及びy’s(t)のブッロクが、第16c図及び第16f図に示されている。ブロック長の半分ずつが重複されているこれらの2つの信号は加算されて第16g図に示される信号y(t)が作り出される。信号y(t)は、元の入力信号を正確に再構築したものである。
第18図に示されるように、ブロックkとブロックk+1との間の重複期間内の或る時刻n0tにある信号サンプルは、これらの2つのブロックの各々の中のサンプルによって表現される。ウインドウ処理されたこれらの2つのブロックの重複・加算の後では、時刻n0tにある復元された信号サンプルは、ウインドウ処理されたブロックk及びk+1からのサンプルの合計であることが分かる。これは、以下の式で表現することができる。
すなわち、
x(n0t)=WPk(n0t)・x(n0t)+WPk+1(n0t)・x(n0t)
(18)
ここで、
WPk(n0t)=WAk(n0t)・WSk(n0t)={WAk(n0t)}2
WAk(n0t)=時刻n0tにおけるブロックk中の分析ウインドウ
WSk(n0t)=時刻n0tにおけるブロックk中の分析ウインドウ
WAk(n0t)=TDAC変換に必要なWSk(n0t)
である。
もしウインドウの重複期間を横切る2つの積ウインドウの合計が単位1に等しければ、積ウインドウの変調効果は消去される。したがって、信号x(nt)は、ブロックk及びブロックk+1の間の重複期間内の時間サンプルの総てについて以下のようであれば、正確に復元される。
すなわち、
WPk(nt)+WPk+1(nt)=1 0≦n<N(19)
である。
時間の関数として積ウインドウで作業するのは困難であるので、上記の要件をウインドウのサンプル数の関数に式19に示されているように翻訳することが望ましい。式20から式23まででは、100%重複している512サンプルの分析及び合成ウインドウのペアの積から作り出される。積ウインドウについてのこの要件を表現している。式20では、ウインドウWPkの前半部と先行ウインドウWPk-1の後半部との重複が表されている。式21では、ウインドウWPkの後半部と後続ウインドウWPk+1の前半部との重複が表されている。式22及び23では、分析ウインドウに関しての同等な表現が示されている。
すなわち、
WPk-1(n+64)+WPk(n)=1 0≦n<64(20)
WPk(n)+WPk+1(n-64)=1 64≦n<128(21)
{WAk-1(n+64)}2+{WAk(n)}2=1
0≦n<64(22)
{WAk(n)}2+{WAk+1(n-64)}2=1
64≦n<128(23)
ここで、
WPk(n)=WAk(n)・WSk(n)={WAk(n)}2
WAk(n)=ブロックk中のサンプルnに対する分析ウインドウの値
WSk(n)=ブロックk中のサンプルnに対する合成ウインドウの値
WAk(n)=TDAC変換に必要なWSk(n)
である。
K.信号出力
第1b図の箱117には、ディジタル入力に応じて電圧が変化するアナログ信号を発生する従来型のディジタル対アナログ・コンバータが示されている。このディジタル入力は、重複・加算過程によって作り出される、24整数のワードの16最上位ビットから得られる。このアナログ出力は、擬似の高周波成分を取り除くために、15kHz(20kHz方式については20kHz)の通過帯域を持つ低域フィルタで濾波されなければならない。このフィルタは、第1b図では示されていない。
II.本発明の代替的DFTの実施
TDAC変換は大半の用途に対して好ましいが、しかし、TDACコーダでは、離散フーリエ変換(DFT)を基盤とするコーダにおけるよりも多くの演算資源を必要とする。DFTを用いることにより、16有意ビットに対して必要とするメモリ、処理速度、計算精度のより少ないコーダが実現される。DFTコーダの設計目標は、TDAC方式についての設計目標と同じである。すなわち、CDと同等の品質の信号と、最小のビットレートと、コーダでの最小の遅延とを目標とする。以下の議論では、TDAC方式について上で論じた際の44.1kHzのサンプルレートを用いることもできるが、48kHzのサンプルレートを前提にしている。
第22a図及び第22b図では、本発明のDFTの実施例の基本的な構造が示されている。この構造は、TDAC方式についてのものと類似している。16ビット計算のより低い精度に対して補償するために4つの差異が要求される。すなわち、(1)箱2219で表されるネットワークによって、アナログ入力信号に対してプリエンファシス利得を加え、(2)箱2220で表されるブロック浮動小数点エンコーダを、箱2203で表される分析ウインドウ変調の前に動作させ、(3)箱2222で表されるブロック浮動小数点エンコーダを、時間領域信号を16ビット整数形式に復元すべく動作させ、(4)箱2224で表される相補ポストエンファシス増強をアナログ出力信号に対して加えることが、これらの差異である。
この信号サンプルは、DFT計算が16有意ビットの精度で行われると、丸め誤差の累積による聴感上の雑音を生じて必要なダイナミック・レンジを表し得ないので、ブロック浮動小数点形式に転換して、有意ビットの数を増加させる。FFTアルゴリズム中での丸め雑音の累積についての更なる情報に関しては、ノース・ホランド出版社1981年出版の信号処理3の123ページから133ページのプラカシュとラオによる、「ラディックス4FFTの固定ポイント誤差分析」(Prakash and Rao,“Fixed-Point Error Analysis of Radix-4FFT”,Signal Processing3,North-Holland Publishing Co.,1981,pp.123-133)を参照のこと。各信号サンプルを4ビット指数を有する形式からブロック浮動小数点形式に表現することによって、各変換係数の効果的なダイナミック・レンジが増加する。
第22a図の箱2220に表されるブロック浮動小数点エンコーダでは、ディジタル化された信号ブロック中の最大のサンプルを最初に見付け出す。この値を正規化するのに必要な左への移行桁数が決定される。この左への移行桁数は0桁から15桁まであるが、これによって、主指数MEXPの値が確定される。復号化の間に、第22b図に示されるブロック浮動小数点直線化装置2222によって各サンプルが主指数と等しい桁数だけ左へ移行され、その浮動小数点表現からサンプル・ブロックが誘導される。
ブロック浮動小数点表現を用いることによって、総てのサンプルが、符号化の際には左へ移行され、複号化の際には右へ移行されて、計算による丸め誤差が低減されるので、低いレベルの信号に対する低雑音の基盤が提供される。不都合なことには、広帯域オーディオ信号振幅コンパンダによって作り出される雑音基盤の変調と類似の、計算による雑音基盤の変調が高い信号レベルに生じる。しかし、経験的な証拠によって、この聴取可能な効果の大きなものは、300Hz以下の周波数で生じることが分かっている。300H以下での16ビット変換コードのひずみ及び丸め雑音は聴取不可能なので、信号入力(及び、結果的には雑音基盤)を、ADC量子化の前に特別なプリエンファシス減衰によって低減し、ディジタル対アナログ転換の後でポストエンファシス増強によって補償することもできる。第22b図の箱2219で表されるプリエンファシス減衰と、第22b図の箱2224で表されるポストエンファシス増強とによって、低い周波数信号に関する聴取可能な変調雑音は大幅に低減される。このプリエンファシス特性は、ポストエンファシス特性に対して相互補完的であり、コーダの周波数応答特性は平坦に保たれる。このプリエンファシス利得特性は、以下の式で与えられる低い周波数の減衰を有する。
すなわち、

ここで、G(s)・=プリエンファシス利得
S=j・f
j=√-1
f=rad/sで表される入力周波数
である。
このプリエンファシス利得は、直流(0Hz)で19dB、高い周波数で単位1の利得を有する第2シェルフである。広域遮断周波数は300Hz、低域遮断周波数は100Hzである。プリエンファシス及びポストエンファシスの使用に関する更なる詳細については、オーディオ・エンジニアリング協会誌第33巻1985年9月号649ページから657ページまでのフィールダーによる論文、「録音機用のプリエンファシス及びポストエンファシスの技法」(Fielder,“Pre-and Postemphasis Techniques as Applied to Audio Recording Systems”,J.Audio Eng.Soc.,vol.33,September1985,pp.649-657)を参照のこと。
以下の叙述では、DFT変換とTDAC変換との間の違いについて論考する。
A.演算ハードウエア
本発明のDFT方式の基本的なハードウエア構造は、第2a図及び第2d図に示されている本発明のTDAC方式の基本的なハードウエア構造と同じである。単一チャネルのDFT方式の好ましい実施例の実施に当たっては、44・1kHz又は48kHzのサンプル・レートの何れかを用いて、20μs以内の周期の16ビットADCを利用して入力の時間領域信号を量子化している。エイ・ティ・アンド・ティ社(AT&T)製のDSP-16型、又はテキサス・インストゥルメンツ社(Texas Instruments)製のTMS32020型のような、或る種の16ビットのディジタル信号プロセッサの何れでも用いて必要な計算を行い、符号化及び複号化の過程を制御することができる。スタティックRAMによって、DSPのためのプログラム及びデータ・メモリを行う。20μs以内の周期の16ビットDACを用いて符号されたディジタル化信号からアナログ信号を発生させる。
コーダのハードウエアの設計、及びDSPのシリアル・ポートの構成は、本発明のTDAC方式について述べたものとは異なっているが、当業者にとっては明白なものである。
B.入力信号の標本化とウインドウ処理
上で論考したように、入力信号は、標本化及び量子化の前にプリエンファシスによって減衰される。ここで論じているDFTの実施例での標本化は、48kHzで行われる。ADCからの量子化された値は長さ16ビットで、長さ128サンプルのブロックに緩衝される。2.67msごとに1ブロックが受け取られ、これによって、コーダを通る際の遅延が短縮される。
その後、緩衝されたブロックのサンプルは、1つの4ビットの主指数を用いてブロック浮動小数点表現に転換される。128サンプルのブロックは、主指数の値に等しい量だけ左へ移項されて、その後分析ウインドウによって変調される。
この分析ウインドウは、TDAC変換とDFTとの間の差異があることから、TDAC変換で用いられる分析ウインドウとは異なる。TDAC変換の場合とは異なり、DFTでは、変換ブロックの1つの形式の列を作り出す。各変換ブロックは、41の変換係数の各々に対する1組の値、すなわち、実数及び虚数成分とから成る。(係数0は例外で、単一の実数成分によって表される)。表IIを参照して欲しい。転送レート又はデータ記憶要件が重複期間中に信号サンプルに関して倍増するので、入力信号サンプル・ブロックの重複の量を低減するウインドウ設計を選ぶことが重要である。100%の重複を有する分析ウインドウを用いるDFTコーダには、TDACコーダに必要なビットレートの約2倍のビットレートが必要である。
TDACウインドウとは異なり、DFTウインドウでは、長い時間にわたって単位1の利得を示すことによって、ブロックの重複の長さを64サンプルから16サンプルに低減する。第23図を参照のこと。この低減によって、ディジタル・フィルタの阻止帯域排除が劣化するが、TDACコーダのデータ伝送速度より14.3%[128/(128-16)]のデータ伝送速度の増加しか招かない。
DFTウインドウは、開核カイザー・ベッセル関数が17サンプルの長さであり、1.5から3までの範囲内のアルファ因数を持つ点を除いては、TDAC実施例のウインドウと類似の方法で発生される。受容できるアルファ因数の範囲は、TDAC変換ウインドウについて上で論じたアルファ因数の範囲と同じい方法で決定された。これらの値を式13から式16までに代入して、カイザー・ベッセル・ウインドウと、長さ112(ブロック長128から重複長16を差し引いた値)の矩形ウインドウとのたたみこみ積の平方根から、分析・合成ウインドウが得られる。このDFTウインドウは、以下の式のとおりである。
すなわち、

ここで、
W(n)=長さ17のカイザー・ベッセル関数、アルァ因数は1.5から3までである。
このDFT及びTDACウインドウは、第23図に示されている。第24図に示されているように、DFTウインドウは、重複の冗長量があるため、TDACウインドウよれも適正な周波数選択度を具えている。
C.分析フィルタ・バンク、前方変換
DFTによってフィルタ・バンクが実現され、これは以下の式で表現される。
すなわち、

ここで、
k=周波数係数の数
n=入力信号のサンプル数
N=サンプルのブロック長
x(n)=入力信号x(t)のサンプルnにおける量子化値
C(k)=実数又は余弦係数k
S(k)=虚数又は正弦係数kである。
D.非均質量子化
非均質量子化装置の最初の3つの部分は、これに対応するTDACコーダの非品質量子化装置の部分と類似している。ここで大きな差異は、主指数が、TDACコーダ中で行われているように非均質量子化装置の第2部分によってではなく、ブロック浮動小数点エンコーダ2220によって、分析ウインドウ処理及び周波数対時間領域変換の前に決定されることである。この他の小さな差異は、ブロック浮動小数点表現の構造、すなわち、サブバンド指数の長さと、係数の数及び長さの差異とにある。表Iと表IIを比較のこと。DFTコーダ中のサブバンド指数の評価については、その虚数項が常に0であって、無視される、係数0(直流又は0Hz)以外の変数係数の値については、変数係数のペアに基づいている。サブバンド指数成分の各々は、サブバンド内の総ての係数に対して、それが実数であろうと虚数であろうと、最大の成分から決定される。この実施例においてはDFTフィルタの周波数選択製がより貧弱であるので、DFTコーダに対する最小ビット長はTDACコーダに対する最小ビット長よりも大きい。TDACコーダに関しては、正弦波入力を用い、フィルタ選択度を聴感上のマスキング特性と比較することによって、経験的にDFTコーダに対する最小ビット長が決定された。
E.適応ビット割当て
DFTコーダに対する適応ビット割当てはTDACコーダに用いられる適応ビット割当てとは異なるが、この差異の大半は変換ブロックの構造に由来する。割当てには、32ビット(34ビットではなく)しか利用できない。割当ては、各係数について、実数・虚数ペアに対して行われる。この割当て方式を単純化するために、係数0に対してはダイナミック・ビットの割当ては行なわれない。係数0の長さは、表Iに示されるような最小ビット長に制限される。したがって、32ビットは40の係数ペアに対して割り当てられる。
TDACコーダとは対照的に、同じビット数を用いて約2倍の数コード・ワードに対して割り当てることができる。その結果、あらゆるコード・ワードに対して割り当てられることのできるビットの最大数は、2ビットに制限される。TDACの割当てでは、4つの表又はアレイを用いて4ビットも係数に対して割り当てるのに対して、DFT割当て方式では、2層しか利用しない。
F.フォーマット化
フォーマット化されたデータの構造は、TDACコーダに用いられるフォーマット化データの構造と類似であるが、これについては第25図及び第26図に示されている。DFTフォーマットとTDAC変換フォーマットとの間の主要な差異は、ブロック浮動小数点構造と、指数と変換係数とに対して割当てられるビット数にある。
表IIを参照すると、第22A図中のDFT非均質量子化装置2208によって、65個のサブバンド・ビットと、331個の変換係数ビットと、適応ビット割当てのための32個のビットとが作り出されることが分かる。ブロックの浮動小数点エンコーダ2220によって、4ビットの主指数が、線路2221に沿ってフォーマット化装置2209に対して直接受け渡される。単一チャネルに対する総ての量子化データの全長は、432ビットである。データの悪化が問題ではない2チャネル用途では、好ましいフォーマット化構造は第25図に示される構造のものである。
データの悪化が懸念される2チャネル用途では、誤り訂正の施策が必要である。好ましい構造は、第25図に示されている。保護されるべき最も重要なデータは、138ビット(チャネル当たり69ビット)から成る主指数多び係数指数である。リード・ソロモン・コードは、これらのデータを保護するのに十分であり、追加的な18ビットの保護を行なう能力がある。この余分の能力は2チャネルの間に平等に分与されて、主指数に対する冗長的な保護(4ビット)と、変換係数0の3つの最上位ビットに対する保護と、係数1の実数及び虚数成分の最上位ビットに対する保護とが与えられる。エンファシスによって与えられる低い周波数への増強によって、300Hz以下のコード・ワード中のあらゆる誤りがより聴取可能になるので、最下位周波数係数を保護することが望ましい。
III.ウインドウのコンピュータ最適化設計
「最適な」ウインドウによって、変換を基盤とするディジタル・フィルタに、究極的な排除についての所与の水準のための鋭い僊移帯域ロールオフを具えさせることが可能になる。ウインドウと、ウインドウによって得られるフィルタの周波数応答特性との間のこの関係を、手短かに、ウインドウ周波数応答特性と呼ぶ。上で論じたように、これらのフィルタ特性によって、変換コーダが、符号化された信号の品質についての所与の主観的水準に対する低いビット伝送速度を達成することを可能にする。本発明の目的のために、ウインドウの最適化では、分析専用ウインドウについてではなく、みしろ、分析・合成ウインドウ・ペアについて考慮しなければならない。
分析専用ウインドウの設計は多大な注目を集めてきたが、先行技術には、分析・合成ウインドウ・ペアについて教えるところは少ない。上で述べた、たたみこみ技法では、周知の分析専用ウインドウから分析・合成ウインドウ・ペアを誘導するが、最適な分析専用ウインドウから最適なウインドウ・ペアをこの技法で誘導できるのかどうかについては未だ示されていない。上で述べた数値最適化方法は、究極的な排除の特定の水準を有するTDAC変換と共に用いるウインドウ・ペアを設計すべく制約を受ける時に、たたみこみ技法によって作り出される、全く同等の制約を受けたウインドウ・ペアと実質的に同一の形状を各ウインドウが具えるウインドウ・ペアが、それによって作り出される。この最適化方法では、2つの事実が確立される。すなわち、(1)究極的な排除の特定の水準に対する「最適」ウインドウを設計することは可能であり、(2)たたみこみ技法は、計算上より一層効率的でありながら、実質的に最適なウインドウ・ペアを誘導することである。
この結果によって、分析・合成ウインドウ・ペアを設計する際の問題が、より良く理解されている分析専用ウインドウの設計問題に転換されるので、この結果を得たことは極めて有益である。最適な分析専用ウインドウを出発点として用いれば、たたみこみ技法によって実質的に最適な分析・合成ウインドウ・ペアが誘導されるであろう。
一般的に、この適正化過程によって、目標選択度曲線を対応する周波数特性によって最適適合させるN点分析ウインドウが、TDAC変化で課せられる制約を条件として、識別される。上で論じたように、これらの制約では、1.5ブロックだけ移動され、自身に重複している分析ウインドウの二乗(分析・合成積ウインドウ)を、重複期間内で単位1に加算しなければならないことが要求される。この適正化過程は、ディジタル・コンピュータ・プログラムとして実行されるが、以下の過程から成る。すなわち、(1)初期化を行い、(2)分析ウインドウを決定し、(3)発生された点の組から試験的な分析ウインドウを構築し、(4)この試験的分析ウインドウの周波数応答特性を決定し、(5)過程を続行するかどうかについて決定する過程である。
初期化過程では、目標又は望ましい選択度の周波数特性曲線を決定し、最初のウインドウの形状を特定するデータを、ファイルから読み出す。この目標選択度曲線は試聴試験から経験的に誘導されたものであるが、その僊移帯域ロールオフの比率は、臨界帯域内での耳の音響心理学的マスキング曲線にほぼ従っている。
第2の段階では、試験ウインドウを決定する1組の点が発生される。この適正化過程が始まると、初期化データによって特定される値から、第1の試験的ウインドウが構築される。この過程が続行されるにつれて、後続の試験ウインドウが適正化ルーチンによって構築される。
この適正化ルーチンによって、最良のN/4+1試験ウインドウの一覧表が保守される。周波数応答特性が目標選択度曲線に最も接近する試験ウインドウが、最良のウインドウである。多次元適正化方法の殆ど総てを用いることができるが、ここではニュートン・ラフソン(Newton-Raphson)技法を用いた。ニュートン法の基本戦略では、最良のN/4+1ウインドウを用いて、N/4多次元空間中の表面の斜面を計算し、この表面の斜面を0交差点に外挿する。この例として、ニューヨークのケンブリッジ大学1986年プレスの254ページから259ページまでの、プレスによる論文、「数的処方、科学計算の技法」(Press,Numerical Recipes:The Art of Scientific Computing,New York,Cambridge University Press,1986,pp.254-59)を参照のこと。
第3の段階では、第2の段階で発生された1組の点から試験ウインドウのN点が構築される。各試験ウインドウはN/4点のみによって決定される。このウインドウは、対称的であり、隣接するウインドウを1.5ブロックだけ移動して、単位1に加えなければならないので、最初のN/4点のみが独立である。この関係は、以下の式で表現される。
すなわち、
W[N/2-(i+1)]=√{1-W[j]2} 0≦i<N4(28)
W[i]=W[N-i-1] N/2≦I<N(29)
ここで、
W[i]=点iに対する分析ウインドウ機能の値
N=ウインドウ長
である。
第4の段階では、試験ウインドウの周波数応答特性曲線が決定される。この応答特性曲線は幾つかある方法の何れによって決定されても良いが、ここで用いた方法は周波数掃引FFTスペクトル分析器に類似している。この応答特性曲線の各点は、ディジタル化入力信号の100個の重複したサンプル・ブロックのFFTから得られる、対応する変換係数の実効値の平均値から計算される。この入力信号は、ナイキスト周波数の半分に等しい周波数を中心として、周波帯域全体にわたって1つの変換係数を幅方向に掃引する正弦である。サンプル・ブロック間の重複の量は50%である。
例えば、コーダの実施例の1つでは、44.1kHzで128点のサンプル・ブロックに入力信号を標本化する。1つの変換係数の帯域幅は344.5Hz(44.1kHz/128)で、この帯域幅の半分は172.27Hzである。ナイキスト周波数は22.05kHzであるので、ナイキスト周波数の半分は11.025kHzである。試験ウインドウの周波数応答特性は、10.85kHz(11,025Hz-172.26Hz)の周波数から11.20kHz(11,025Hz+172.26Hz)の周波数まで掃引するディジタル化正弦波信号に対する応答特性の実効値から構築される。このディジタル化信号の長さは、50%の重複を有する100個の128点のブロック、又は6464点である。
第5の段階では、試験ウインドウ応答特性に関する誤差値が計算される。この誤差値は、試験ウインドウ応答特性及び目標応答特性曲線の間の試験ウインドウ点ごとの差異の改変された実効値として計算される。この改変された実効値エラーの計算は以下の式で表現される。
すなわち、

ここで、
E=改変実効値エラー値
N=ウインドウ長

Ci=点iにおける試験ウインドウの計算された応答特性(dB)
Ti=点iにおける目標応答特性曲線(dB)
である。
応答特性値はdBで表現されるので、この改変実効値誤差値は対数尺度である。変換係数を表現するのに必要なビットの数は望ましい信号対雑音比の対数に比例するので、対数表現が用いられる。
第6の段階では、この過程を続行するかどうかが決定される。過程が解に基づいて収束するか、若しくは収束の速度が十分低くなるまで、この過程は続行される。
表III中の入力は、4から7までの範囲内のアルファ値を持つカイザー・ベッセル・ウインドウから始まる、たたみこみ技法によって誘導される、幾つかの分析ウインドウの特性を示す。上の式12から式17までを参照のこと。この表では、僊移帯域ロールオフと阻止帯域排除の比率との間の交換が示されている。僊移帯域ロールオフの比較は、dB当たりのHzで表現されるが、僊移領域の中間における周波数応答特性曲線に対する線形の近似である。小さな数値は、より鋭いロールオフを表す。dBで表現される究極的な排除は、通過帯域の中央における周波数応答特性に対する阻止帯域内のフィルタ応答特性を表す。



(57)【特許請求の範囲】
【請求項1】
信号サンプルブロックから成るオーディオ情報を高品質でデジタル符号化するエンコーダであって、
加重関数で各信号サンプルブロックを重み付けすることによって分析ウインドウ加重サンプルブロックを発生させる要素であって、前記加重関数は各々が第1長さの分析・合成ウインドウ対内の分析ウインドウであり、前記対内の両ウインドウの積が第2長さの重複間隔を有する前記第1長さの積ウインドウであり、重複間隔を横切ってそれ自身が重複かつ加算される時前記積ウインドウが一定の合計値を与える、分析ウインドウ加重サンプルブロック発生要素と、
前記分析ウインドウ加重サンプルブロックに離散変換関数を適用することによって周波数領域変換係数を発生させる要素と、
前記変換係数を表すコードワードを発生させる要素と、前記コードワードを伝送又は記憶に適したフォーマットを有するデジタル出力にアセンブルする要素とから成り、前記分析・合成ウインドウ対が
1)前記第2長さと1を加えたものと等しい長さの初期ウインドウを発生させ、
2)前記第1長さから前記第2長さを引いたものと等しい長さの単位パルス関数で前記初期ウインドウをたたみ込むことによって中間ウインドウを発生させ、
3)1と等しい長さの単位パルスで前記初期ウインドウをたたみ込むことによって換算係数を定め、
4)前記中間ウインドウを前記換算係数で割ることによって前記積ウインドウを導出し、
5)前記積ウインドウの第1羃をとることによって前記分析ウインドウを導出し、前記積ウインドウの第2羃をとることによって前記合成ウインドウを導出し、前記第1及び第2羃の和が1と等しくなるようにすることによって決定されることを特徴とするエンコーダ。
【請求項2】
デジタル符号化されたオーディオ情報を高品質で再生するデコーダにおいて、オーディオ情報サンプルのブロックを分析ウインドウ関数で重み付けすることによって分析ウインドウ加重サンプルブロックを発生させて、前記分析ウインドウ加重サンプルブロックに順方向変換を適用することによって周波数領域変換係数を発生させると共に前記変換係数を伝送又は記憶に適したフォーマットを有するデジタル出力に符号化するエンコーダによって該情報がデジタル符号化されたものであるデコーダであって、
前記周波数領域変換係数を再構成するために前記デジタル出力を受取る要素と、
前記順方向変換と逆の変換特性を有する逆変換を適用することによって、前記再構成された周波数領域変換係数に応答して時間領域信号サンプルブロックを発生させる要素と、
合成ウインドウ関数で該時間領域信号サンプルブロックを重み付けする要素であって、前記合成ウインドウ関数は、各々が第1長さの分析・合成ウインドウ対内の合成ウインドウであり、前記対内の両ウインドウの積が第2長さの重複間隔を有する前記第1長さの積ウインドウであり、重複間隔を横切ってそれ自身が重複かつ加算される時前記積ウインドウが一定の合計値を与える加重要素と、
前記オーディオ情報のデジタル表現を回復するために該分析及び合成ウインドウの加重効果を相殺する要素とから成り、前記分析・合成ウインドウ対が
1)前記第2長さと1を加えたものと等しい長さの初期ウインドウを発生させ、
2)前記第1長さから前記第2長さを引いたものと等しい長さの単位パルス関数で前記初期ウインドウをたたみ込むことによって中間ウインドウを発生させ、
3)1と等しい長さの単位パルスで前記初期ウインドウをたたみ込むことによって換算係数を定め、
4)前記中間ウインドウを前記換算係数で割ることによって前記積ウインドウを導出し、
5)前記積ウインドウの第1羃をとることによって前記分析ウインドウを導出し、前記積ウインドウの第2羃をとることによって前記合成ウインドウを導出し、前記第1及び第2羃の和が1と等しくなるようにすることによって決定されることを特徴とするデコーダ。
【請求項3】
前記第1羃及び前記第2羃が等しい、請求項1又は2の装置。
【請求項4】
信号サンプルブロックから成るオーディオ情報を高品質でデジタル符号化する方法であって、
加重関数で各信号サンプルブロックを重み付けすることによって分析ウインドウ加重サンプルブロックを発生させ、前記加重関数は各々が第1長さの分析・合成ウインドウ対内の分析ウインドウであり、前記対内の両ウインドウの積が第2長さの重複間隔を有する前記第1長さの積ウインドウであり、重複間隔を横切ってそれ自身が重複かつ加算される時前記積ウインドウが一定の合計値を与えるようにし、
前記分析ウインドウ加重サンプルブロックに離散変換関数を適用することによって周波数領域変換係数を発生させ、
前記変換係数を表すコードワードを発生させ、
前記コードワードを伝送又は記憶に適したフォーマットを有するデジタル出力にアセンブルすることから成り、前記分析・合成ウインドウ対が
1)前記第2長さと1を加えたものと等しい長さの初期ウインドウを発生させ、
2)前記第1長さから前記第2長さを引いたものと等しい長さの単位パルス関数で前記初期ウインドウをたたみ込むことによって中間ウインドウを発生させ、
3)1と等しい長さの単位パルスで前記初期ウインドウをたたみ込むことによって換算係数を定め、
4)前記中間ウインドウを前記換算係数で割ることによって前記積ウインドウを導出し、
5)前記積ウインドウの第1羃をとることによって前記分析ウインドウを導出し、前記積ウインドウの第2羃をとることによって前記合成ウインドウを導出し、前記第1及び第2羃の和が1と等しくなるようにすることによって決定される符号化方法。
【請求項5】
デジタル符号化されたオーディオ情報を高品質で再生する復号方法において、オーディオ情報サンプルのブロックを分析ウインドウ関数で重み付けすることによって分析ウインドウ加重サンプルブロックを発生させて、前記分析ウインドウ加重サンプルブロックに順方向変換を適用することによって周波数領域変換係数を発生させると共に前記変換係数を伝送又は記憶に適したフォーマットを有するデジタル出力に符号化するエンコーダによって該情報がデジタル符号化されたものである復号方法であって、
前記周波数領域変換係数を再構成するために前記デジタル出力を受取り、 前記順方向変換と逆の変換特性を有する逆変換を適用することによって、前記再構成された周波数領域変換係数に応答して時間領域信号サンプルブロックを発生させ、合成ウインドウ関数で該時間領域信号サンプルブロックを重み付けし、前記合成ウインドウ関数は、各々が第1長さの分析・合成ウインドウ対内の合成ウインドウであり、前記対内の両ウインドウの積が第2長さの重複間隔を有する前記第1長さの積ウインドウであり、重複間隔を横切ってそれ自身が重複かつ加算される時前記積ウインドウが一定の合計値を与えるようにし、
前記オーディオ情報のデジタル表現を回復するために該分析及び合成ウインドウの加重効果を相殺することから成り、前記分析・合成ウインドウ対が
1)前記第2長さと1を加えたものと等しい長さの初期ウインドウを発生させ、
2)前記第1長さから前記第2長さを引いたものと等しい長さの単位パルス関数で前記初期ウインドウをたたみ込むことによって中間ウインドウを発生させ、
3)1と等しい長さの単位パルスで前記初期ウインドウをたたみ込むことによって換算係数を定め、
4)前記中間ウインドウを前記換算係数で割ることによって前記積ウインドウを導出し、
5)前記積ウインドウの第1羃をとることによって前記分析ウインドウを導出し、前記積ウインドウの第2羃をとることによって前記合成ウインドウを導出し、前記第1及び第2羃の和が1と等しくなるようにすることによって決定される復号方法。
【請求項6】
前記第1羃及び前記第2羃が等しい、請求項1又は2の方法。
 
訂正の要旨 審決(決定)の【理由】欄参照。
審決日 2006-11-09 
出願番号 特願平2-503714
審決分類 P 1 41・ 852- Y (H03M)
P 1 41・ 853- Y (H03M)
最終処分 成立  
前審関与審査官 西村 仁志  
特許庁審判長 羽鳥 賢一
特許庁審判官 山本 春樹
北村 智彦
登録日 1998-08-07 
登録番号 特許第2811369号(P2811369)
発明の名称 高品質オーディオ用短時間遅延変換コーダ、デコーダ、及びエンコーダ・デコーダ  
代理人 山崎 行造  
代理人 山崎 行造  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ