QQ音乐的哼唱识别准确度咋样是咋做到的

QQ音乐哼唱识别的技术是鹅厂的优图团队在做。前天跟他们的技术GG聊的时候刚好说起这个问题。
据说,如果不是天生六音不全的话,你唱的歌QQ音乐哼唱识别的准确率能达到80%以上。
要做哼唱识别,一般有两个方面:一是曲库的构建,二是模糊检索。
之前曲库的构建主要都用midi(类似于纯音乐)来做,不过制作成本比较贵,导致曲库的规模一直上不去。优图他们把midi、清唱和复调音乐里的主旋律部分做了混合建库,一方面既保证了哼唱检索的质量,又有效的降低了成本,最终建成覆盖主要热歌的曲库。
另一个技术是模糊检索,其实这个在很多领域都有用到。说得很高深,其实在道理上是通用的,就是分层结构。过滤第一层是粗浅一点的,用尽可能少的时间将无关的候选集过滤;第二层精确匹配,在少量的候选集中精确匹配结果。
【QQ音乐的哼唱识别准确度咋样是咋做到的】 不过,要精准描述出技术的内核,还是要请优图的技术GG再来深入展开比较好。

■网友
可以参考ACRCloud的这篇文章:What is Query by Humming? - ACRCloud Blog


    推荐阅读