株式会社チューリングは、大容量の動画・画像データをAIに適した形式で高精度に保持しながら効率的に圧縮する技術(特許出願中)を開発しました。本技術は、重要な情報を局所的に集約する学習技術と、重要度に応じたデータ配置を組み合わせることで、自律走行AIやマルチモーダルAIなどでの高速・高精度なデータ活用を可能にします。
近年、画像やテキストなど複数のデータを同時に扱うマルチモーダル大規模言語モデル(MLLM)が注目されており、大量のデータを入力するための高度な開発ニーズが高まっています。しかし、従来の画像データ埋め込み技術では、AIに最適化された形で効率的に情報を伝達することが難しいという課題がありました。
技術の概要
チューリングが開発した技術で、膨大なデータを効率よく圧縮し、必要な情報を高い精度で保持する仕組み。テキストや画像など様々な情報をトークンという文字列(AI処理の最小単位)に変換し、必要に応じて増減させる仕組み(可変長圧縮)を導入。これにより、必要な画質や解析精度を維持したまま、データ量を大幅に削減することが可能になります。
Among these, we have introduced a technique called “Tail Token Drop” that randomly deletes the end of the token string during the learning stage and compares the differences to optimize the model, so that important information is concentrated at the beginning of the data string. This has realized a design that is less likely to lose important parts even when the compression rate is increased.
また、トークン列から画像を再構成できるため、JPEGやWebPといった従来の画像フォーマットよりも少ないバイト数で、視覚的に自然な画像を再構成することが可能です。将来的には、リアルタイム性や通信コストが特に重要視される自律走行やクラウド連携システムへの応用が期待されます。
ソース PRタイムズ