音频算法之我思

cpuimage 2018-10-24 原文

很长一段时间，扎根在音频领域，各种玩耍。

渐渐上了轨道。

一切的一切仅仅因为相信自己能做好，也必须做好。

不懂就去查，去问，去找资料，去找视频。

渐渐的，我开始懂了，也慢慢有了系统性的理解。

随后经常能发散思维。

最近，

在自动增益，

音频降噪，

语速检测，

相位谱重建各个算法之间穿梭。

慢慢有所产出，有所突破。

特别是在音频降噪领域，

不能算质的飞跃，

但是确实摸到了一些规律。

而写完相位谱重建算法之后，

我也突发奇想，

相位谱既然能通过高斯分布的思路进行重建，

那是不是可以说明，

高斯分布可以用来作为音频算法的信号标准化，归一化。

这是一个值得去研究的方向，

音频信号的高斯归一化。

前面面试了一家公司的时候，

提到说音频通过能量谱可以重建相位谱，

那面试官好像认定我是傻子，

就好像觉得我是在胡扯一样。

真的懒得解释，

实操是验证真理的唯一标准。

而语速检测，

其实有点类似音乐的节拍检测，

只不过一定要去除空白帧，

因为空白从另一个角度来说，

可以认为是停顿，或者说换气。

所以语速检测的思路也可以基本确认。

而自动增益方面，

找资料的时候发现一个神奇的标准，EBU R128，

这里就不科普展开了，感兴趣的可以维基一下。

这个算法在FFMEPG里面有很详细的实现，

抠出来算法代码，直接应用，

效果不要太好。

近期，终于回到广东，

在南京接受了太多的负能量，回来之后真的有获得新生的感觉。

世界顿时和平。

相对于深度学习而言，

我还是比较检测采用传统算法去实现降噪增益等处理，

原因也很简单，音频时效性特别重要。

采用深度学习很多时候要做大量的工作才能保证时效性了，

从软件，硬件的角度来说，音频不比图像好处理。

自然挑战也多了起来，

不过庆幸的是，

在傻逼一样的坚持之后，

不采用深度学习方案的音频降噪，

终于达到近乎可以商用的程度了。

当然最近也在思考算法的下一步优化方案。

继续验证思路，继续改良。

这里放出linux系统下的可执行文件，供大家评测。

下载地址：https://files.cnblogs.com/files/cpuimage/denoise.zip

解压后采用命令行: ./denoise sample.wav

执行后生成降噪后的文件sample_out.wav

现在是自适应降噪强度，

降噪后自动做增益，

后续计划加上降噪的强度控制。

噪声样本自行寻觅，

比较好找。就不提供了。

在音频这条路上，

如果我走偏了，大家记得把我拉回来。

当然若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是:
gaozhihan@vip.qq.com

本文链接：https://www.cnblogs.com/cpuimage/p/9840603.html

音频算法之我思的更多相关文章

WebRTC 音频算法附完整C代码

WebRTC提供一套音频处理引擎，包含以下算法： AGC自动增益控制(Automatic Gain Cont […]...

音乐旋律提取算法附可执行demo

前面提及过，音频指纹算法的思路。也梳理开源了两个比较经典的算法。 https://github.com/cp […]...

分享用于学习C++音频处理的代码示例

与《分享用于学习C++图像处理的代码示例》为姊妹篇。为了便于学习C++音频处理并研究音频算法，俺写了一个适 […]...

unisound_asr 云知声语音识别 python版接口

抽空，实现了一份云知声语音撰写的python版本。使用python通过调用动态库实现。云知声官网: ht […]...

简洁明了的插值音频重采样算法例子 (附完整C代码)

近一段时间在图像算法以及音频算法之间来回游走。经常有一些需求，需要将音频进行采样转码处理。现有的知名开源库 […]...

WebRTC 音频采样算法附完整C++示例代码

之前有大概介绍了音频采样相关的思路，详情见《简洁明了的插值音频重采样算法例子 (附完整C代码)》。音频方面的 […]...

算法踩坑小记

经过前面研究图像算法和近阶段研究视频和音频算法的经历经验. 在2019年快要来临的时候,写下这篇小记. 目的很 […]...

高斯分布——正态分布或钟形分布

来源百度文库：正态分布_百度百科https://baike.baidu.com/item/%E6%AD%A3 […]...

随机推荐

创建数据，分页显示，输入要查看的页码，显示指定数据，每页显示10条数据

# 编写代码，分页显示内容，通过for循环，创建300条数据，数据类型不限，如：alex-1alex1@liv […]...

数据三维可视化的技术应用

随着数据在当下互联网快速发展下变的维度更广，数量更大、结构越来越复杂，人们想要更加清晰，快速的认知和理解一份数 […]...

Docker搭建镜像仓库和配置缓冲地点

Docker搭建镜像仓库和配置缓冲地点参考网址：https://docs.docker.com/engine […]...

Java Map应用

一、基本API使用方法直接上代码，注释讲解 package com.map; import java.uti […]...

亚马逊EC2构建代理服务器心血历程 – 高速转弯

亚马逊EC2构建代理服务器心血历程 1、亚马逊上申请一台免费的EC2服务器，有相应的教程，绑定信用卡，预支付1 […]...

SpringBoot整合Shiro权限框架实战

什么是ACL和RBAC ACL Access Control list：访问控制列表优点：简单易用，开发便捷 […]...

数据采集——第一次作业

作业1：打印爬取的大学排名信息 1)代码&结果截图 import urllib.request fro […]...

一名新晋程序员的自述：我的编程自学之路

我相信每个程序员都具备自学的能力，因为如果没有自身的努力，我们不会成为一名优秀的程序员。大概交代一下故事背景 […]...

音频算法之我思

音频算法之我思的更多相关文章

随机推荐

热门专题

目录导航