参考资料¶
- 是
Yesno。网址:http://www.openslr.org/1/。
- AB79
Jont B Allen 和 David A Berkley。高效模拟小房间声学的图像方法。《美国声学学会杂志》,65(4):943–950,1979。
- ABD+20
Rosana Ardila、Megan Branson、Kelly Davis、Michael Henretty、Michael Kohler、Josh Meyer、Reuben Morais、Lindsay Saunders、Francis M. Tyers 和 Gregor Weber。Common Voice:一个大规模多语言语音语料库。2020。arXiv:1912.06670。
- BWT+21
Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等人。XLS-R:大规模自监督跨语言语音表示学习。arXiv 预印本 arXiv:2111.09296,2021。
- BZMA20
Alexei Baevski、Henry Zhou、Abdelrahman Mohamed 和 Michael Auli。Wav2vec 2.0:用于语音表示自监督学习的框架。2020。arXiv:2006.11477。
- BBL+08
Carlos Busso、Murtaza Bulut、Chi-Chun Lee、Abe Kazemzadeh、Emily Mower Provost、Samuel Kim、Jeannette Chang、Sungbok Lee 和 Shrikanth Narayanan。IEMOCAP:交互式情感双人动作捕捉数据库。《语言资源与评估》,42:335–359,2008 年 12 月。doi:10.1007/s10579-008-9076-6。
- Cap69
Jack Capon。高分辨率频率-波数谱分析。《IEEE 会刊》,57(8):1408–1418,1969。
- CDiGangiB+21
Roldano Cattoni、Mattia Antonino Di Gangi、Luisa Bentivogli、Matteo Negri 和 Marco Turchi。MUST-C:用于端到端语音翻译的多语言语料库。《计算机语音与语言》,66:101155,2021。网址:https://www.sciencedirect.com/science/article/pii/S0885230820300887,doi:https://doi.org/10.1016/j.csl.2020.101155。
- CCW+21
Guoguo Chen、Shuzhou Chai、Guanbo Wang、Jiayu Du、Wei-Qiang Zhang、Chao Weng、Dan Su、Daniel Povey、Jan Trmal、Junbo Zhang、Mingjie Jin、Sanjeev Khudanpur、Shinji Watanabe、Shuaijiang Zhao、Wei Zou、Xiangang Li、Xuchen Yao、Yongqing Wang、Yujun Wang、Zhao You 和 Zhiyong Yan。GigaSpeech:一个不断发展的多领域 ASR 语料库,包含 10,000 小时的转录音频。收录于 Proc. Interspeech 2021。2021。
- CWC+22
Sanyuan Chen、Chengyi Wang、Zhengyang Chen、Yu Wu、Shujie Liu、Zhuo Chen、Jinyu Li、Naoyuki Kanda、Takuya Yoshioka、Xiong Xiao 等人。WAVLM:用于全栈语音处理的大规模自监督预训练。《IEEE 信号处理专题杂志》,16(6):1505–1518,2022。
- CPS16
Ronan Collobert、Christian Puhrsch 和 Gabriel Synnaeve。Wav2letter:一个基于 ConvNet 的端到端语音识别系统。2016。arXiv:1609.03193。
- CBC+20
Alexis Conneau、Alexei Baevski、Ronan Collobert、Abdelrahman Mohamed 和 Michael Auli。用于语音识别的无监督跨语言表示学习。2020。arXiv:2006.13979。
- CY21
Erica Cooper 和 Junichi Yamagishi。过去的语音合成挑战赛中的声音与今天相比如何?arXiv 预印本 arXiv:2105.02373,2021。
- CPC+20
Joris Cosentino、Manuel Pariente、Samuele Cornell、Antoine Deleforge 和 Emmanuel Vincent。LibriMix:一个用于通用语音分离的开源数据集。2020。arXiv:2005.11262。
- CSB+18
Alice Coucke、Alaa Saade、Adrien Ball、Théodore Bluche、Alexandre Caulier、David Leroy、Clément Doumouro、Thibault Gisselbrecht、Francesco Caltagirone、Thibaut Lavril 等人。Snips 语音平台:一个用于私密设计语音界面的嵌入式口语理解系统。arXiv 预印本 arXiv:1805.10190,2018。
- DL82
DC Dowson 和 BV666017 Landau。多元正态分布之间的 Fréchet 距离。《多元分析杂志》,12(3):450–455,1982。
- Defossez21
Alexandre Défossez。混合频谱图和波形源分离。收录于 Proceedings of the ISMIR 2021 Workshop on Music Source Separation。2021。
- FP21
Marco Forgione 和 Dario Piga。DynoNet:一种用于学习动力系统的神经网络架构。《自适应控制与信号处理国际杂志》,35(4):612–626,2021。
- GKRR14
Mark John Francis Gales、Kate Knill、Anton Ragni 和 Shakti Prasad Rath。低资源语言的语音识别和关键词识别:剑桥大学工程系 Babel 项目研究。收录于 SLTU。2014。
- Gra12
Alex Graves。使用循环神经网络进行序列转导。2012。arXiv:1211.3711。
- GL83
D. Griffin 和 Jae Lim。从修改后的短时傅里叶变换中进行信号估计。收录于 ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing,第 8 卷,804–807。1983。doi:10.1109/ICASSP.1983.1172092。
- GQC+20
Anmol Gulati、James Qin、Chung-Cheng Chiu、Niki Parmar、Yu Zhang、Jiahui Yu、Wei Han、Shibo Wang、Zhengdong Zhang、Yonghui Wu 和 Ruoming Pang。Conformer:用于语音识别的卷积增强型 Transformer。2020。arXiv:2005.08100。
- HCC+14
Awni Hannun、Carl Case、Jared Casper、Bryan Catanzaro、Greg Diamos、Erich Elsen、Ryan Prenger、Sanjeev Satheesh、Shubho Sengupta、Adam Coates 和 Andrew Y. Ng。Deep Speech:扩展端到端语音识别。2014。arXiv:1412.5567。
- HCE+17
Shawn Hershey、Sourish Chaudhuri、Daniel P. W. Ellis、Jort F. Gemmeke、Aren Jansen、Channing Moore、Manoj Plakal、Devin Platt、Rif A. Saurous、Bryan Seybold、Malcolm Slaney、Ron Weiss 和 Kevin Wilson。用于大规模音频分类的 CNN 架构。收录于 International Conference on Acoustics, Speech and Signal Processing (ICASSP)。2017。网址:https://arxiv.org/abs/1609.09430。
- HIA+17
Takuya Higuchi、Nobutaka Ito、Shoko Araki、Takuya Yoshioka、Marc Delcroix 和 Tomohiro Nakatani。基于复杂高斯混合模型和空间先验的在线 MVDR 波束形成器,用于噪声鲁棒 ASR。《IEEE/ACM 音频、语音与语言处理汇刊》,25(4):780–793,2017。
- HIYN16
Takuya Higuchi、Nobutaka Ito、Takuya Yoshioka 和 Tomohiro Nakatani。使用时频掩码的鲁棒 MVDR 波束形成,用于噪声环境下的在线/离线 ASR。收录于 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),5210–5214。IEEE,2016。
- HBT+21
Wei-Ning Hsu、Benjamin Bolte、Yao-Hung Hubert Tsai、Kushal Lakhotia、Ruslan Salakhutdinov 和 Abdelrahman Mohamed。HuBERT:通过隐藏单元的掩码预测进行自监督语音表示学习。2021。arXiv:2106.07447。
- IJ17
Keith Ito 和 Linda Johnson。LJ Speech 数据集。https://keithito.com/LJ-Speech-Dataset/,2017。
- KPL+22
Jacob Kahn、Vineel Pratap、Tatiana Likhomanenko、Qiantong Xu、Awni Hannun、Jeff Cai、Paden Tomasello、Ann Lee、Edouard Grave、Gilad Avidov 等人。Flashlight:实现机器学习工具的创新。arXiv 预印本 arXiv:2201.12465,2022。
- KES+18a
Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aaron van den Oord、Sander Dieleman 和 Koray Kavukcuoglu。高效神经网络音频合成。2018。arXiv:1802.08435。
- KES+18b
Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aäron van den Oord、Sander Dieleman 和 Koray Kavukcuoglu。高效神经网络音频合成。CoRR,2018。网址:http://arxiv.org/abs/1802.08435,arXiv:1802.08435。
- KPPK15
Tom Ko、Vijayaditya Peddinti、Daniel Povey 和 Sanjeev Khudanpur。用于语音识别的音频增强。收录于 Proc. Interspeech 2015,3586–3589。2015。doi:10.21437/Interspeech.2015-711。
- KBV03
John Kominek、Alan W Black 和 Ver Ver。用于语音合成的 CMU Arctic 数据库。技术报告,2003。
- KKB20
Jungil Kong、Jaehyeon Kim 和 Jaekyoung Bae。HiFi-GAN:用于高效高保真语音合成的生成对抗网络。收录于 H. Larochelle、M. Ranzato、R. Hadsell、M.F. Balcan 和 H. Lin,编辑,Advances in Neural Information Processing Systems,第 33 卷,17022–17033。Curran Associates, Inc.,2020。网址:https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf。
- KTN+23
Anurag Kumar、Ke Tan、Zhaoheng Ni、Pranay Manocha、Xiaohui Zhang、Ethan Henderson 和 Buye Xu。Torchaudio-SQuIM:Torchaudio 中无参考的语音质量和可懂度度量。arXiv 预印本 arXiv:2304.01448,2023。
- LRI+19
Loren Lugosch、Mirco Ravanelli、Patrick Ignoto、Vikrant Singh Tomar 和 Yoshua Bengio。用于端到端口语理解的语音模型预训练。收录于 Gernot Kubin 和 Zdravko Kacic,编辑,Proc. of Interspeech,814–818。2019。
- LM19
Yi Luo 和 Nima Mesgarani。Conv-TasNet:超越理想时频幅度掩码的语音分离。《IEEE/ACM 音频、语音与语言处理汇刊》,27(8):1256–1266,2019 年 8 月。网址:http://dx.doi.org/10.1109/TASLP.2019.2915167,doi:10.1109/taslp.2019.2915167。
- MK22
Pranay Manocha 和 Anurag Kumar。通过 MOS 使用不匹配参考进行语音质量评估。arXiv 预印本 arXiv:2206.12285,2022。
- MRFB+15
Xavier Anguera Miro、Luis Javier Rodriguez-Fuentes、Andi Buzo、Florian Metze、Igor Szoke 和 Mikel Peñagarikano。QUESST2014:在零资源设置下使用真实查询评估按示例查询语音搜索。2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),第 5833–5837 页,2015。
- MPG29
RV Mises 和 Hilda Pollaczek-Geiringer。方程求解的实用方法。《ZAMM-应用数学与力学杂志》,9(1):58–77,1929。
- Mys14
Gautham J Mysore。我们能否将通用消费设备在真实环境中录制的语音自动转换为专业制作质量的语音?——一个数据集、洞察和挑战。《IEEE 信号处理快报》,22(8):1006–1010,2014。
- NCZ17
Arsha Nagrani、Joon Son Chung 和 Andrew Zisserman。VoxCeleb:一个大规模说话人识别数据集。arXiv 预印本 arXiv:1706.08612,2017。
- PCPK15
Vassil Panayotov、Guoguo Chen、Daniel Povey 和 Sanjeev Khudanpur。LibriSpeech:一个基于公共领域有声读物的 ASR 语料库。收录于 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),5206–5210。2015。doi:10.1109/ICASSP.2015.7178964。
- PCZ+19
Daniel S. Park、William Chan、Yu Zhang、Chung-Cheng Chiu、Barret Zoph、Ekin D. Cubuk 和 Quoc V. Le。SpecAugment:一种用于自动语音识别的简单数据增强方法。Interspeech 2019,2019 年 9 月。网址:http://dx.doi.org/10.21437/Interspeech.2019-2680,doi:10.21437/interspeech.2019-2680。
- PBS13
Nathanaël Perraudin、Peter Balazs 和 Peter L. Søndergaard。一种快速 Griffin-Lim 算法。收录于 2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,1–4。2013。doi:10.1109/WASPAA.2013.6701851。
- PTS+23
Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau 和 Michael Auli。将语音技术扩展到 1,000 多种语言。2023。arXiv:2305.13516。
- PXS+20
Vineel Pratap、Qiantong Xu、Anuroop Sriram、Gabriel Synnaeve 和 Ronan Collobert。MLS:用于语音研究的大规模多语言数据集。Interspeech 2020,2020 年 10 月。网址:http://dx.doi.org/10.21437/Interspeech.2020-2826,doi:10.21437/interspeech.2020-2826。
- RLStoter+19
Zafar Rafii、Antoine Liutkus、Fabian-Robert Stöter、Stylianos Ioannis Mimilakis 和 Rachel Bittner。MUSDB18-HQ - musdb18 的未压缩版本。2019 年 12 月。网址:https://doi.org/10.5281/zenodo.3338373,doi:10.5281/zenodo.3338373。
- RGC+20
Chandan KA Reddy、Vishak Gopal、Ross Cutler、Ebrahim Beyrami、Roger Cheng、Harishchandra Dubey、Sergiy Matusevych、Robert Aichner、Ashkan Aazami、Sebastian Braun 等人。Interspeech 2020 深度噪声抑制挑战:数据集、主观测试框架和挑战结果。arXiv 预印本 arXiv:2005.13981,2020。
- RDelegliseEsteve12
Anthony Rousseau、Paul Deléglise 和 Yannick Estève。TED-LIUM:一个专用于自动语音识别的语料库。收录于 Conference on Language Resources and Evaluation (LREC),125–129。2012。
- SY18
Seyyed Saeed Sarfjoo 和 Junichi Yamagishi。设备录制的 VCTK(小部分版本)。2018。
- SBDokmanic18
Robin Scheibler、Eric Bezzam 和 Ivan Dokmanić。Pyroomacoustics:一个用于音频房间模拟和阵列处理算法的 Python 包。收录于 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP),351–355。IEEE,2018。
- SPW+18
Jonathan Shen、Ruoming Pang、Ron J Weiss、Mike Schuster、Navdeep Jaitly、Zongheng Yang、Zhifeng Chen、Yu Zhang、Yuxuan Wang、Rj Skerrv-Ryan 等人。通过基于 mel 频谱图预测的 WaveNet 条件化实现自然 TTS 合成。收录于 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),4779–4783。IEEE,2018。
- SWW+21
Yangyang Shi、Yongqiang Wang、Chunyang Wu、Ching-Feng Yeh、Julian Chan、Frank Zhang、Duc Le 和 Mike Seltzer。Emformer:用于低延迟流式语音识别的高效内存 Transformer 声学模型。收录于 ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),6783–6787。2021。
- SWW+22
Yangyang Shi、Chunyang Wu、Dilin Wang、Alex Xiao、Jay Mahadeokar、Xiaohui Zhang、Chunxi Liu、Ke Li、Yuan Shangguan、Varun Nagaraja、Ozlem Kalinli 和 Mike Seltzer。使用非因果卷积的流式 Transformer 换能器语音识别。收录于 ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),8277–8281。2022。doi:10.1109/ICASSP43922.2022.9747706。
- Smi20
Julius O. Smith。数字音频重采样主页“理想带限插值理论”部分。2020 年 9 月。网址:https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html。
- SCP15
David Snyder、Guoguo Chen 和 Daniel Povey。MUSAN:一个音乐、语音和噪声语料库。2015。arXiv:1510.08484v1。arXiv:1510.08484。
- SBA09
Mehrez Souden、Jacob Benesty 和 Sofiene Affes。关于噪声抑制的最佳频域多通道线性滤波。收录于 IEEE Transactions on audio, speech, and language processing,第 18 卷,260–276。IEEE,2009。
- SWT+22
Sangeeta Srivastava、Yun Wang、Andros Tjandra、Anurag Kumar、Chunxi Liu、Kritika Singh 和 Yatharth Saraf。基于 Conformer 的非语音音频任务自监督学习。收录于 ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),8862–8866。2022。doi:10.1109/ICASSP43922.2022.9746490。
- TEC01
George Tzanetakis、Georg Essl 和 Perry Cook。音频信号的自动音乐流派分类。2001。网址:http://ismir2001.ismir.net/pdf/tzanetakis.pdf。
- VAlumae21
Jörgen Valk 和 Tanel Alumäe。VoxLingua107:一个用于口语识别的数据集。收录于 2021 IEEE Spoken Language Technology Workshop (SLT),652–658。IEEE,2021。
- WRiviereL+21
Changhan Wang、Morgane Rivière、Ann Lee、Anne Wu、Chaitanya Talnikar、Daniel Haziza、Mary Williamson、Juan Miguel Pino 和 Emmanuel Dupoux。VoxPopuli:一个用于表示学习、半监督学习和解释的大规模多语言语音语料库。CoRR,2021。网址:https://arxiv.org/abs/2101.00390,arXiv:2101.00390。
- Wei98
R.L. Weide。卡内基梅隆发音词典。1998。网址:http://www.speech.cs.cmu.edu/cgi-bin/cmudict。
- YVM19
Junichi Yamagishi、Christophe Veaux 和 Kirsten MacDonald。CSTR VCTK 语料库:用于 CSTR 语音克隆工具包的英语多说话人语料库(0.92 版)。2019。doi:10.7488/ds/2645。
- YMC+24
Chin-Yun Yu、Christopher Mitcheltree、Alistair Carson、Stefan Bilbao、Joshua D. Reiss 和 György Fazekas。用于时变音频系统的可微分全极点滤波器。收录于 International Conference on Digital Audio Effects (DAFx),345–352。2024。
- YF23
Chin-Yun Yu 和 György Fazekas。使用可微分 LPC 和基于声门流量的波表进行歌唱语音合成。收录于 Augusto Sarti、Fabio Antonacci、Mark Sandler、Paolo Bestagini、Simon Dixon、Beici Liang、Gaël Richard 和 Johan Pauwels,编辑,Proceedings of the 24th International Society for Music Information Retrieval Conference, ISMIR 2023, Milan, Italy, November 5-9, 2023,667–675。2023。网址:https://doi.org/10.5281/zenodo.10265377,doi:10.5281/ZENODO.10265377。
- ZDC+19
Heiga Zen、Viet-Trung Dang、Robert A. J. Clark、Yu Zhang、Ron J. Weiss、Ye Jia、Z. Chen 和 Yonghui Wu。LibriTTS:一个源自 LibriSpeech 的文本到语音语料库。ArXiv,2019。
- ZSN21
Albert Zeyer、Ralf Schlüter 和 Hermann Ney。为什么 CTC 会导致尖峰行为?2021。arXiv:2105.14849。
- BrianMcFeeColinRaffelDawenLiang+15
Brian McFee、Colin Raffel、Dawen Liang、Daniel P.W. Ellis、Matt McVicar、Eric Battenberg 和 Oriol Nieto。Librosa:Python 中的音频和音乐信号分析。收录于 Kathryn Huff 和 James Bergstra,编辑,Proceedings of the 14th Python in Science Conference,18 – 24。2015。doi:10.25080/Majora-7b98e3ed-003。
- KahnRiviereZheng+20
J. Kahn、M. Rivière、W. Zheng、E. Kharitonov、Q. Xu、P. E. Mazaré、J. Karadayi、V. Liptchinsky、R. Collobert、C. Fuegen、T. Likhomanenko、G. Synnaeve、A. Joulin、A. Mohamed 和 E. Dupoux。Libri-Light:一个用于有限或无监督 ASR 的基准。收录于 ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),7669–7673。2020。https://github.com/facebookresearch/libri-light。
- Warden18
P. Warden。语音命令:一个用于有限词汇语音识别的数据集。ArXiv e-prints,2018 年 4 月。网址:https://arxiv.org/abs/1804.03209,arXiv:1804.03209。
- Wikipedia贡献者
Wikipedia 贡献者。吸收(声学) — Wikipedia,自由百科全书。[在线]。网址:https://en.wikipedia.org/wiki/Absorption_(acoustics)。