"AUDIO"検索結果

Kimiは新しい汎用オーディオ基盤モデルKimi-Audioを発表しました

Jin10データ4月26日、今日、Kimiは新しいオープンソースプロジェクト——新しい汎用オーディオ基盤モデルKimi-Audioを発表しました。紹介によると、このモデルは音声認識、音声理解、音声からテキストへの変換、音声対話など多様なタスクをサポートしています。
もっと

Alibaba Tongyiのオープンソースオーディオ言語モデルであるQwen2-AudioがACL 2024に選ばれました

金十データ8月13日のニュースによると、アリババは通義大モデルを引き続きオープンソース化し、Qwen2シリーズオープンソースファミリーに音声言語モデルQwen2-Audioを追加しました。Qwen2-Audioはテキスト入力なしで直接音声での質問応答が可能で、ユーザーの音声信号(会話、自然音、音楽など)を理解し分析します。このモデルは複数の権威ある評価で以前の最高モデルを大幅に上回っています。通義チームはさらに新しいオーディオ理解モデルのベンチマークテストを同時に発表し、関連論文は今週開催されている国際会議ACL2024に採択されました。
もっと
  • 3

パーフェクト・ワールド・ゲームズとNVIDIAは、ゲームシナリオにおけるAIの応用を模索し続けています

パーフェクトワールドゲームズの公式WeChatからの最新ニュースによると、北京時間の3月19日早朝、米国カリフォルニア州サンノゼのSAPセンターでNVIDIA AIカンファレンス(NVIDIA GTC 2024)が開催されました。 NVIDIA の CEO である Jensen Huang は、「AI の変革の瞬間を目撃する」というトピックで講演し、NVIDIA のアクセラレーテッド コンピューティング プラットフォームが AI、デジタル ツイン、クラウド テクノロジ、持続可能なコンピューティングの次の波をどのように推進しているかを共有しました。 GTCはまた、パーフェクトワールドゲームズの仙霞MMORPG端末ゲーム「珠仙世界」がNVIDIAのAudio2Face技術(生成AIは音声をアニメーション技術に簡単に変換する)に正式に接続し、この会議を利用して「朱仙世界」との組み合わせの結果を世界の聴衆に示し、双方は今後もAIの複数の分野とシナリオで緊密な交流と協力を維持していくと発表した。
もっと

Metaは、ダビングファイルを入力することでキャラクターの会話シーンを生成できるAIフレームワークaudio2photoreal を発表しました

Metaは最近、一連のリアルなNPCキャラクターモデルを生成し、既存のボイスオーバーファイルの助けを借りてキャラクターモデルを自動的に「リップシンク」および「ポーズ」させることができるaudio2photorealと呼ばれるAIフレームワークを発表しました。 公式研究報告書は、ダビングファイルを受け取った後、Audio2フォトリアルフレームワークは最初に一連のNPCモデルを生成し、次に量子化技術と拡散アルゴリズムを使用してモデルアクションを生成し、量子化技術がフレームワークのアクションサンプル参照を提供し、拡散アルゴリズムを使用してフレームによって生成されたキャラクターアクションの効果を改善することを指摘しました。 対照実験の評価者の43%が、フレームによって生成されたキャラクターの会話シーンに「強く満足」していたため、研究者は、Audio2フォトリアルフレームワークが業界の競合製品よりも「よりダイナミックで表現力豊かな」動きを生成できると感じました。 研究チームは現在、関連するコードとデータセットをGitHubで公開していると報告されています。
もっと
  • 1