會議記錄大師

Meeting & Minutes Master (M&M Master)

提高會議效率、會議記錄需快速發布,因為下個會議永遠在不遠處等著你,除非你是打字冠軍;而準確的針對交辦項目做進度(actionitem)追蹤,更是提高行政流程及產品開發能力的關鍵重點。會議記錄大師 (M&M大師),針對會議語音進行聲紋識別,去除環境噪音並分離出不同說話人,並且能夠針對其說話內容進行理解與問答;並且整合模組化整合語音去噪分離識別聲紋識別及自然語言處理的中文機器閱讀理解文本分類相似度命名實體識別糾錯摘要等各種演算法及模型,在第一時間可以確認會議參與者的身份,不止具備「說了什麼」的語音識別能力,更擁有精準到「誰說了什麼」的聲紋識別技術整合語音識別與自然語言處理具極高應用價值人工智慧落地解決方案

https://github.com/Deep-Learning-101

https://huggingface.co/DeepLearning101

第一階段:基於關鍵詞匹配的「檢索式機器人」;

第二階段:運用一定模板,支持多個詞匹配,並具有模糊查詢能力;

第三階段:在關鍵詞匹配的基礎引入搜索,根據文本相關性排序;

第四階段:以神經網絡為基礎,用深度學習理解用戶意圖。

會議記錄系統架構

機器閱讀理解

自然語言處理一直以基於句子級別的理解為主。例如給計算機一句話,理解句子中誰做了何事等等。但涉及到句子之間的連貫、上下文和推理等長文本的理解問題一直是難點。隨著各種數據集的推出,機器閱讀理解也從早期的填空式發展成從單篇文章中提取答案。例如在客服應用中,可以透過閱讀用戶手冊等材料,自動或輔助客服回答用戶問題教育領域可從海量題庫中輔助出題;在金融領域中,則可從大量新聞文本中抽取相關金融資訊

與當前需藉由手動標記訓練實例的監督式學習等自然語言處理技術不同,例如,資訊擷取通常利用從目標關係的實例中提取規則。機器閱讀理解並不局限於小範圍內的關係。因此,手動標記的訓練實例是不切實際的,機器閱讀理解本質上是無監督式的。機器閱讀理解目前在場景數據相對較為充分、文檔結構清晰、內容描述較為正規的文檔上可以取得較好的結果,如Wikipedia 類客觀知識問答。另外,機器閱讀仍舊面對著數據規模小或質量不佳的問題;大量的數據集是模型表現的重要前提。

聲紋識別(說話人識別)

將語音轉換為文字的語音識別,聲紋識別目的在於辨別說話者/發聲者的身份,其主要任務是要找到描述特定對象的聲紋特徵,通過待測試語音來判斷對應的說話人身份。主要分為兩個場景:說話人確認:通過語音段對待測說話人的身份進行判斷,是否是屬於某個說話人;說話人確認問題可歸結為是1:1的身份判別問題。若說話人的身份範圍未知,需要從一定的範圍內來對語音段對應的說話人身份進行辨別,這屬於說話人辨認,其歸結為1:N的問題

現階段在無噪音環境下的說話人識別可以超過人類的識別準確率,但仍舊存在如語音段較短的時候,準確率會顯著下降;若測試語音處於比較喧鬧的環境時,亦會影響測試結果。

Fraudsters Used AI to Mimic CEO’s Voice in Unusual Cybercrime Case

https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

語音增強(語音降噪/語音分離)

語音增強是指利用信號處理來提高語音的質量。主要包括由於空間環境對聲音信號的反射產生的混音;語音降噪,來源於各種環境和人的噪音;語音分離,主要源於其他說話人的聲音信號。通過去除這些噪音或者人聲來提高語音的質量;現已經應用於現實生活中,如電話、語音識別、助聽器、VoIP以及電話會議系統等。

閱讀理解 DEMO
閱讀理解 DEMO
閱讀理解 DEMO

看文章問問題