會議記錄大師

Deep Meeting & Minutes Master (Deep M&M Master)

模組化整合語音與聲紋識別及自然語言處理的中文機器閱讀理解文本分類相似度命名實體識別糾錯摘要等各種演算法及模型,根據聲音識別出是何人,再從文章中找出答案。

Call for Partner or POC (Proof of Concept) Contact: TonTon ( at ) TWMAN.ORG

Meeting & Minutes Master(會議記錄大師)

模組化整合語音與聲紋識別及自然語言處理的中文機器閱讀理解、文本分類、相似度、命名實體識別、糾錯等演算法,根據聲音識別出是何人及其說話內容,再從文章中找出答案。透過我們的系統,可以針對會議記錄進行聲紋識別來分離出不同說話人,並且針對其說話內容進行理解與問答。

機器閱讀理解

自然語言處理一直以基於句子級別的理解為主。例如給計算機一句話,理解句子中誰做了何事等等。但涉及到句子之間的連貫、上下文和推理等長文本的理解問題一直是難點。隨著各種數據集的推出,機器閱讀理解也從早期的填空式發展成從單篇文章中提取答案。例如在客服應用中,可以透過閱讀用戶手冊等材料,自動或輔助客服回答用戶問題教育領域可從海量題庫中輔助出題;在金融領域中,則可從大量新聞文本中抽取相關金融資訊

與當前需藉由手動標記訓練實例的監督式學習等自然語言處理技術不同,例如,資訊擷取通常利用從目標關係的實例中提取規則。機器閱讀理解並不局限於小範圍內的關係。因此,手動標記的訓練實例是不切實際的,機器閱讀理解本質上是無監督式的。機器閱讀理解目前在場景數據相對較為充分、文檔結構清晰、內容描述較為正規的文檔上可以取得較好的結果,如Wikipedia 類客觀知識問答。另外,機器閱讀仍舊面對著數據規模小或質量不佳的問題;大量的數據集是模型表現的重要前提。

2020「科技大擂台與AI對話」:https://fgc.stpi.narl.org.tw/activity/2020_Talk2AI

聲紋識別(說話人識別)

將語音轉換為文字的語音識別,聲紋識別目的在於辨別說話者/發聲者的身份,其主要任務是要找到描述特定對象的聲紋特徵,通過待測試語音來判斷對應的說話人身份。主要分為兩個場景:說話人確認:通過語音段對待測說話人的身份進行判斷,是否是屬於某個說話人;說話人確認問題可歸結為是1:1的身份判別問題。若說話人的身份範圍未知,需要從一定的範圍內來對語音段對應的說話人身份進行辨別,這屬於說話人辨認,其歸結為1:N的問題

現階段在無噪音環境下的說話人識別可以超過人類的識別準確率,但仍舊存在如語音段較短的時候,準確率會顯著下降;若測試語音處於比較喧鬧的環境時,亦會影響測試結果。

Fraudsters Used AI to Mimic CEO’s Voice in Unusual Cybercrime Case

https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

語音增強(語音降噪/分離)

語音增強是指利用信號處理來提高語音的質量。主要包括由於空間環境對聲音信號的反射產生的混音;語音降噪,來源於各種環境和人的噪音;語音分離,主要源於其他說話人的聲音信號。通過去除這些噪音或者人聲來提高語音的質量;現已經應用於現實生活中,如電話、語音識別、助聽器、VoIP以及電話會議系統等。