国产特级全黄一级97毛片,今天最新中文字幕mv高清,天堂av免费在线,日韩av黄,粉嫩av绯色av性色av蜜臀av,日韩福利视频在线,一区二区美女视频

您當前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

聲網(wǎng)Agora一站式智能語音識別方案:內(nèi)容審核,快速接入

2019-08-26 15:28:12   作者:   來源:CTI論壇   評論:0  點擊:


  視頻直播、語音聊天、音樂社交,這些與“聲音”有關的社交場景在近兩年來越來越熱,也吸引了很多內(nèi)容創(chuàng)作者和用戶。不過,與之相關的語音內(nèi)容審核一直是令很多平臺頭痛的問題。這也讓那些“每天聽 4000 條語音”的聲音鑒黃師上了頭條。而現(xiàn)在,市場上已經(jīng)有一些廠商開始提供智能語音鑒黃服務了,大幅減輕了人工鑒黃的工作量。
  不過,對于社交產(chǎn)品團隊來講,現(xiàn)有的語音內(nèi)容審核+實時音視頻服務,部署、調(diào)試、運維的成本高,而且很多方案對有背景音樂、噪聲的音頻識別效果差。為了解決這個問題,我們正式推出聲網(wǎng) Agora 一站式智能語音識別方案。
  現(xiàn)有的方案都是如何實現(xiàn)的呢?
  一般來講,一個社交產(chǎn)品需要對接三種廠商:CDN廠商,用來推流、拉流,實現(xiàn)普通的直播;RTC 廠商,用來實現(xiàn)低延時的實時互動直播;內(nèi)容審核廠商,通過 AI、人工進行審核。接入的架構基本如下圖所示,可簡單概括為三步:
  1. 內(nèi)容經(jīng)過轉(zhuǎn)碼或直接推流至 CDN;
  2. 內(nèi)容審核廠商從 CDN 拉流,然后進行 AI 、人工內(nèi)容審核;
  3. 完成審核后,傳回給服務器端。
  圖:傳統(tǒng)的實時音視頻內(nèi)容審核流程
  這種舊方式帶來的問題顯而易見。首先,開發(fā)者需要對接三個廠商,要進行多次部署、調(diào)試,其中有很多調(diào)試的成本與風險。而且,當 CDN 出現(xiàn)故障時,需要較長時間來排查問題。另外,在這個過程中,開發(fā)者還需要支付額外的拉流成本。
  另一方面,目前的方案還需要解決噪聲問題。因為音頻社交有很多種場景,比如語音FM、語音聊天室、音樂社交、娛樂直播,這些場景常常伴有環(huán)境噪聲和背景音樂,會影響現(xiàn)有內(nèi)容審核方案的識別率。
  聲網(wǎng)Agora 一站式智能語音識別方案
  聲網(wǎng)現(xiàn)已提供業(yè)界獨有的一站式智能語音識別方案。如上圖架構所示,開發(fā)者只需要在應用中集成聲網(wǎng) Agora SDK,即可讓音頻在 Agora SD-RTN? 網(wǎng)絡中實時傳輸?shù)倪^程中完成語音內(nèi)容識別與審核。我們在原有的實時語音互動直播的基礎上,整合了業(yè)界 Top 3 語音識別服務。同時,基于聲網(wǎng)的 AI 音頻降噪引擎,來提高音頻質(zhì)量,優(yōu)化語音識別效果。
  語音識別的流程如下圖所示。首先通過聲網(wǎng)獨家研發(fā)的 AI 音頻降噪引擎消除背景音,優(yōu)化音頻質(zhì)量,讓語音更加清晰。我們在網(wǎng)絡電臺、語音交友等互聯(lián)網(wǎng)平臺聽到的語音音頻通常有兩類,一類是普通的語音,另一類是非文字的聲音,如嬌喘和ASMR,后者是不存在任何語義的。所以我們會通過不同的模塊來檢測,將語音轉(zhuǎn)化為文字通過內(nèi)容安全引擎進一步過濾,結合“多意義上下文短文本垃圾檢測”、“Deep Learning 垃圾檢測”、“規(guī)則引擎”和“分類器”等模塊,過濾掉音頻中涉政、涉黃(包括嬌喘、ASMR)、暴恐、辱罵等違規(guī)內(nèi)容。人工審核團隊可以通過Web端后臺,對機器審核的結果進行抽查和復審,不斷優(yōu)化機器審核的準確率。這一過程可以大幅降人工審核成本,提升效率。
  目前該解決方案可檢測出廣告、涉黃、涉政、暴恐、謾罵等違規(guī)內(nèi)容,適用于視頻直播、語音聊天室、娛樂直播、語音 FM、音樂社交等實時音視頻社交互動場景。
  聲網(wǎng)Agora一站式智能語音識別方案優(yōu)勢包括:
  1、調(diào)用 RESTful API,一站式接入
  聲網(wǎng) Agora 目前提供了實時音頻通話 SDK。在應用中集成 Agora SDK 后,開發(fā)者可以通過調(diào)用 RESTful API,即可為自己的應用增加語音內(nèi)容審核服務。相比傳統(tǒng)內(nèi)容審核方案,聲網(wǎng)方案可以節(jié)省開發(fā)時間、服務器等接入成本。
  2、AI 降噪,識別率更高
  面對語音識別中常見的噪聲、背景音樂等音質(zhì)問題。我們會通過聲網(wǎng) AI 音頻降噪引擎對音頻進行優(yōu)化,以提升語音的識別率。與此同時,用戶的語音、音頻體驗也會得到提升。在今年的 RTC 2019 實時互聯(lián)網(wǎng)大會上,我們還將進一步分享 AI 音頻降噪背后的技術實踐,敬請期待。
  3、語音交互低延時
  聲網(wǎng) SDK 實現(xiàn)了全球端到端76ms 的實時音視頻低延時傳輸。聲網(wǎng)Agora SD-RTN? 實時通信網(wǎng)絡采用私有 UDP 協(xié)議進行傳輸,基于軟件定義優(yōu)化路由選擇最優(yōu)傳輸路徑,自動規(guī)避網(wǎng)絡擁塞和骨干網(wǎng)絡故障帶來的影響。在能保證低延時傳輸?shù)耐瑫r,聲網(wǎng)Agora SDK還支持 48kHz 高音質(zhì)語音。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

CTI論壇會員企業(yè)