Cách hoạt động của ứng dụng Ghi âm Google với những tính năng “chất như nước cất”

Chia sẻ
Ứng dụng Ghi âm của Google với những tính năng như chuyển từ giọng nói sang văn bản hay tìm kiếm bản ghi qua từ khóa hiện được xem là tốt nhất trong những ứng dụng ghi âm khác.

Cách hoạt động của ứng dụng Ghi âm Google với những tính năng “chất như nước cất” ảnh 1

Gã khổng lồ tìm kiếm luôn đi đầu trong trí tuệ nhân tạo (AI) và máy học (ML). Bằng chứng nằm ở các sản phẩm của Google, từ nhiếp ảnh thuật toán đến tính năng đưa ra đề xuất khi viết email.

Ứng dụng Ghi âm của Pixel 4 là một ví dụ về khả năng trong lĩnh vực máy học của Google. Công ty đã ra mắt ứng dụng này cùng Pixel 4, sử dụng máy học trên thiết bị để tự động phiên âm bản ghi. Trong một bài đăng trên blog, Google cho biết chi tiết các thức hoạt động của ứng dụng Ghi âm mới.

Phiên âm

Ứng dụng này tạo ra các đoạn phiên âm theo thời gian thực của bản ghi âm. Văn bản được phiên âm có thể tìm kiếm được, cho phép bạn nhanh chóng tìm thấy một từ cụ thể trong đoạn ghi mà không cần phải nghe lại toàn bộ.

Để làm điều này, Google sử dụng các cải tiến mà công ty đã thực hiện trong mô hình nhận dạng giọng nói trên thiết bị của mình. Mô hình này đảm bảo ứng dụng Ghi âm có thể phiên âm các tệp âm thanh dài, tối đa vài giờ. Những từ trong bản phiên âm đều trùng với thời gian của đoạn ghi. Vì vậy, khi bạn nhấn vào một từ cụ thể trong đoạn phiên âm, quá trình phát cũng được bắt đầu tại thời điểm đó trong bản ghi.

Cách hoạt động của ứng dụng Ghi âm Google với những tính năng “chất như nước cất” ảnh 2

Hình ảnh âm thanh

Google giải thích rằng họ sử dụng mạng nơ-ron xoắn để liên kết từng kiểu âm thanh với các màu sắc khác nhau. Đây là mô hình máy học mà Google đã sử dụng cho tính năng Live Caption của Android 10.

Mô hình xác định các âm thanh khác nhau như tiếng chó sủa hoặc chơi nhạc cụ. Sau đó, hệ thống gán một màu cho âm thanh này trong dạng sóng. Điều này giúp người dùng nhận ra âm thanh một cách trực quan.

Cách hoạt động của ứng dụng Ghi âm Google với những tính năng “chất như nước cất” ảnh 3

Trình Ghi âm kiểm tra các loại âm thanh khác nhau – lời nói, âm nhạc,… sau 50 mili giây trong khoảng 960 mili giây. Công ty cho biết quá trình này giúp cho việc xác định chính xác từ lúc bắt đầu và kết thúc ít xảy ra lỗi hơn là phải phân tích cả 1 lúc 960 mili giây.

Đề xuất tiêu đề và thẻ

Cách hoạt động của ứng dụng Ghi âm Google với những tính năng “chất như nước cất” ảnh 4

Khi một bản ghi đã kết thúc, ứng dụng sẽ gợi ý các thẻ và tiêu đề. Để làm điều này, ứng dụng ghi số lần xuất hiện của thuật ngữ và vai trò ngữ pháp của những từ này trong một câu. Các thuật ngữ xác định sẽ được viết hoa. Một thuật toán trên thiết bị sau đó gắn thẻ danh từ và danh từ riêng mà người dùng có xu hướng để nhớ. Tiếp theo, các quy định kiểm tra mô hình ngôn ngữ sẽ chấm điểm và xếp hạng. Các lựa chọn cuối cùng là những gì người dùng thấy như đề xuất tiêu đề hoặc thẻ.

Cách hoạt động của ứng dụng Ghi âm Google với những tính năng “chất như nước cất” ảnh 5

Đó là những công việc đằng sau “hậu trường”. Việc làm cho một ứng dụng ghi âm thông minh không phải là điều đơn giản. Ứng dụng vẫn chưa thể phân biệt âm thanh của loa, nhưng có thể Google sẽ thêm điều này trong tương lại để giúp ứng dụng trở nên hoàn hảo hơn.

Trần Kiên

Tin liên quan

Chia sẻ

Bạn đọc bình luận

Vui lòng nhập tiếng Việt có dấu
Nhập mã bảo mật (*)    Refresh

Cùng chuyên mục