Microsoft Research đang phát triển một công nghệ nhận dạng khẩu lệnh không phát ra thành tiếng

Đăng bởi: Tố Uyên • Ngày: 18/10/2018

Microsoft đang phát triển một giao diện nhận giọng nói mới cho phép người dùng có thể nói và ghi âm mà không cần phát thành tiếng.

Với tên gọi là SilentVoice, module này sẽ ghi nhận lại không khí phát ra từ miệng và ghi lại thành giọng nói mà không làm phiền đến mọi người xung quanh. Hơn nữa, module cũng sẽ lọc các tiếng nói xung quanh để người dùng có thể ghi âm tiếng nói được rõ hơn mà không bị ảnh hưởng bởi tiếng ồn xung quanh.

SilentVoice sử dụng một microphone ngay rất gần trước miệng của người dùng mà không bị tác động bởi tiếng ồn nhiễu, ghi âm lại tiếng nói rất nhỏ với tỷ lệ S/N (tín hiệu nhận được so với nhiễu) rất tốt. Công nghệ này có khả năng phát hiện giọng nói cực nhỏ (thấp hơn 39dB), giúp người dùng có thể nói mà không làm phiền những người xung quanh, khá lý tưởng khi bạn đang ở môi trường công cộng cũng như trong văn phòng hay ở nhà.

Bằng cách đo hướng luồng không khí, SilentVoice có thể tách bạch lời nói thông thường với độ chính xác đến 98,8% mà không cần các dùng tới các từ để kích hoạt tính năng này. Nó có thể sử dụng với các hệ thống kích hoạt bằng giọng nói với phần nhận dạng giọng nói được huấn luyện đặc biệt. Kết quả đánh giá cho thấy tỷ lệ lỗi từ là 1,8% (tùy thuộc vào người nói) và % (không phụ thuộc vào người nói) với từ điển hạn chế gồm 85 câu lệnh.

Đáng chú ý, theo Microsoft cho biết thì giọng nói tự nhiên giống như khi bạn đang thì thầm cũng có thể sử dụng để giao tiếp bằng giọng nói theo thời gian thật. Để hình dung cách vận hành của công nghệ này, mời bạn xem clip (tiếng Anh) bên dưới:

Theo MSPowerUser