09/11/2019 12:20 GMT+7

Từ chối lương cao, lập start-up chuyển giọng nói thành văn bản chính xác đến 95%

HÀ THANH
HÀ THANH

TTO - Lựa chọn vấn đề kéo dài hàng chục năm nay, một nhóm bạn trẻ tìm ra giải pháp nhận dạng tiếng nói, chuyển thành văn bản chính xác đến 95%, mức giá cá nhân phải chi trả là 1 USD/giờ.

Từ chối lương cao, lập start-up chuyển giọng nói thành văn bản chính xác đến 95% - Ảnh 1.

Anh Hoàng Minh Thành cùng các cộng sự tìm ra giải pháp gỡ băng ghi âm, chuyển đổi giọng nói thành văn bản - Ảnh: HÀ THANH

Giữa tháng 6-2019, hệ thống chuyển giọng nói thành văn bản tự động được thử nghiệm tại kỳ họp thứ 7, Quốc hội khóa XIV. Ngay sau kỳ họp, nhóm VAIS nhận được thư khen của tổng thư ký Quốc hội.

“Sắp tới nhóm tập trung số hóa văn bản audio với khối lượng lớn, hiện tại có thể số hóa tất cả audio trong vòng 1 năm của Đài truyền hình Việt Nam chỉ mất 10 giờ đồng hồ.

HOÀNG MINH THÀNH

Nhận dạng giọng nói 3 miền Bắc - Trung - Nam

Để xử lý bài toán "hóc búa" này, nhóm bạn trẻ Hoàng Minh Thành, Đỗ Quốc Trường cùng các cộng sự sáng lập Công ty TNHH Hệ thống trí thông minh nhân tạo Việt Nam (Vietnam AI System - VAIS) tiên phong với giải pháp gỡ băng ghi âm, chuyển đổi giọng nói thành văn bản (speech-to-text).

Từ nhiều năm nay, đội ngũ nhà báo, phóng viên, thư ký các cuộc họp mất rất nhiều thời gian để gỡ băng ghi âm những phiên họp kéo dài, chưa có phần mềm đáp ứng được chất lượng chuyển giọng nói thành văn bản.

Nắm bắt được thực trạng đó, từ hai năm trước, nhóm của Hoàng Minh Thành (29 tuổi, giám đốc điều hành VAIS) cùng đội ngũ tiến sĩ ở Nhật nghiên cứu giải pháp gỡ băng ghi âm, chuyển đổi giọng nói thành văn bản sử dụng trí thông minh nhân tạo.

"Sản phẩm có độ chính xác ở mức 95,2% khi ở môi trường có hệ thống micro, chất lượng âm thanh đầu vào tốt. Bên cạnh đó, tối ưu giọng nói vùng miền, như 99% với miền Bắc, 85-90% với miền Trung và miền Nam là 90-93%", anh Hoàng Minh Thành giới thiệu.

Giải pháp của VAIS sử dụng hai mô hình chính gồm mô hình âm học và mô hình ngôn ngữ. Anh giải thích: "Ví dụ với câu "Tôi tên là Thành", trong thuật toán mô hình sẽ dự đoán chữ nào đứng trước, chữ nào đứng sau. Một đứa trẻ có thể nghe nhưng không hiểu câu nói đó có nghĩa gì, đơn thuần là mô hình phát âm. Nhưng khi trẻ nghe, hiểu được sẽ viết được, đó là mô hình ngôn ngữ. Chúng tôi còn sử dụng công nghệ Deep-Learning (công nghệ học sâu) và Service-Learning thiên về giải pháp".

Tháng 12-2018, nhóm bạn thử nghiệm thành công giải pháp này, xử lý băng ghi âm tại các cuộc họp có chất lượng âm thanh đầu vào tốt, chứng minh tính chính xác đến 93,6%. Qua quá trình thử nghiệm, đến nay giải pháp này có tỉ lệ chính xác lên đến 95,2% với kho từ vựng lên đến gần 7.000 từ, hoạt động được trên nền tảng web và hỗ trợ nền tảng di động cho cả iOS và Android.

Giải pháp này còn được mở rộng tới thành ủy, tỉnh ủy tại 63 tỉnh, thành trên cả nước, giảm được thời gian gỡ băng đoạn thu âm, giúp lưu trữ, tìm kiếm nội dung ghi âm và bảo mật trên máy chủ riêng của khách hàng.

Sau quá trình thử nghiệm thành công, nhóm bạn mang sản phẩm tham dự cuộc thi VLSP (Vietnamese Language and Speech Processing) - Xử lý ngôn ngữ tự nhiên và tiếng nói cho tiếng Việt, liên tiếp hai năm liền đoạt giải nhất.

1 USD/giờ

Anh Hoàng Minh Thành cho biết hiện có hai nhóm khách hàng sử dụng sản phẩm của VAIS là khách hàng doanh nghiệp thuê theo gói và khách hàng cá nhân chi trả mức phí 1 USD/giờ.

"Tôi nghĩ đây là bài toán chung của một start-up khi tung ra một sản phẩm mới, câu hỏi đầu tiên là khách hàng có muốn trả tiền không? May mắn là chúng tôi chọn vấn đề kéo dài hàng chục năm nay, giải pháp của chúng tôi đang được đón nhận", anh Thành nói.

Vừa qua, tại Đại hội Hội Liên hiệp thanh niên Việt Nam TP Hà Nội, nhóm bạn của Thành mang giải pháp này trưng bày tại khu vực triển lãm thu hút đông đảo phóng viên báo chí đến trải nghiệm.

Cùng với đó, VAIS sẵn sàng tạo tài khoản cho phóng viên và hướng dẫn cách sử dụng nếu họ có nhu cầu muốn được thử nghiệm với giải pháp mới này.

Nhớ lại chặng đường bắt tay thực hiện ý tưởng, anh giám đốc điều hành trẻ tuổi của VAIS cho biết mục tiêu mà anh theo đuổi là thành lập doanh nghiệp, tạo ra giải pháp cho doanh nghiệp ứng dụng AI.

Cùng thời điểm, anh gặp TS Đỗ Quốc Trường (giám đốc công nghệ) vừa từ chối lời đề nghị của Apple, còn anh Thành từ bỏ mức lương cao tại một công ty, tạm xa gia đình ở TP.HCM ra thủ đô tập hợp thành viên theo đuổi dự án.

Khó khăn ban đầu là vốn vì giải pháp nặng về nghiên cứu, anh Thành cùng cộng sự chấp nhận bỏ tiền túi ra trả lương cho nhân viên trong thời gian từ 3-6 tháng tập trung hướng dẫn cho họ về công nghệ này. Hiện tại, sau 2 năm thành lập, VAIS tập hợp 16 thành viên, đầu tư 50% chi phí vào mảng nghiên cứu.

Bạn trẻ gương mặt hiền khô làm lợi cho Viettel hàng trăm tỉ Bạn trẻ gương mặt hiền khô làm lợi cho Viettel hàng trăm tỉ

TTO - Đó là một chàng trưởng phòng với gương mặt hiền khô, vóc dáng mảnh khảnh. Bảy năm trước, chàng là cử nhân hệ kỹ sư tài năng của ĐH Bách khoa Hà Nội vừa tốt nghiệp...

HÀ THANH
Trở thành người đầu tiên tặng sao cho bài viết 0 0 0
Bình luận (0)
thông tin tài khoản
Được quan tâm nhất Mới nhất Tặng sao cho thành viên