Trang chủ  |  Sản phẩm  |  Download  |  Hình ảnh  |  Liên hệ Thứ hai, ngày 10 tháng 12 năm 2018  
Hướng nghiên cứu
Nhân sự
Liên hệ
Mapscan
MarkRead 1.0
VnDOCR 4.0 Professional
VnVoice 1.0
Tắt TELEX VNI
Chuyên mục: Đề tài nghiên cứu
Các sản phẩm đặc biệt của đề tài KC.01.06

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Hình: Những sản phẩm đăng ký giao nộp thuộc đề tài giai đoạn 5/2007- 5/2009.
 
 

TT(theo đăng ký ban đầu)

Tên sản phẩm

Chỉ tiêu chất lượng cần đạt

1

(SP1.1)

Hệ thống tổng hợp tiếng nói cho người khiếm thị

Tích hợp bộ đọc tiếng Việt thành một module nhúng vào phần mềm JAWS cho phép:

- Làm trơn biên ghép các đơn v theo hai đc trưng:

o Ghép nối ở mức sóng âm

o Thay đổi trường độ khi đọc cho các âm tiết tận cùng là p-t-c-ch

o Thay đổi được tốc độ phát âm.

- Nâng cao chất lượng giọng nói tổng hợp so với giai đoạn 2001-2004

o Chất lượng âm tổng hợp ở mức độ âm tiết tốt hơn

- Phân tích và chuyển đi văn bản tiếng Việt với mã Unicode, VNI thành tiếng nói.

- Phát âm chữ cái, dấu thanh, chữ số, các dấu nhảy đơn, nhảy kép, mở ngoặc thành tiếng nói khi người sử dụng đang gõ văn bản trong Word, Outlook, hoặc một điều khiển sọan thảo bất kỳ của một ứng dụng đang chạy, hỗ trợ tiếng nói khi duyệt Web.

- Phát âm bằng tiếng Anh các từ tiếng Anh (không đánh vần từng ký tự)

- .Kết xuất in ra tài liệu chữ nổi: phần mềm chuyển đổi tệp văn bn được soạn thảo bằng MS Word, Wordpad … với các bộ font .VnTime (ABC), vni-times (VNI), Times New Roman (UNICODE) sang tệp văn bản chữ bơ-rai tiếng Việt, tuân thủ theo luật ký hiệu chữ bơ-rai do hi người mù Việt nam quy đnh, đảm bảo chuyển đi định dạng cơ bản nhất như dòng tiêu đề, đon văn bản, chữ đm… Người khiếm thị có thể đc được hầu hết các tệp văn bản bao gồm cả tệp siêu văn bn html, các văn bn bơ-rai có th được in ra trên tất cả các máy in chữ nổi phổ biến trên thế giới.

Thử nghiệm thêm chức năng phát âm khi người sử dụng sọan thảo trong Word với phần mềm nguồn mở Unikey.

2

(SP1.2)

Hệ thống tổng hợp tiếng nói, tích hợp cho các cổng tiếng nói

Tích hợp công nghệ Tổng hợp tiếng Việt thành một Engine cho phép:

- Làm trơn biên ghép các đơn vị theo hai đặc trưng:

o Ghép nối ở mức sóng âm

o Đường thanh điệu của âm tổng hợp trong ngữ cảnh từ, cụm từ.

o Thay đổi trường độ khi đọc cho các âm tiết tận cùng là p-t-c-ch

o Thay đổi bộ đơn vị phụ thuộc ngữ cảnh để tăng độ tự nhiên khi đọc từ và câu.

- Nâng cao chất lượng giọng nói tổng hợp so với giai đoạn 2001-2004

o Chất lượng âm tổng hợp ở mức độ âm tiết tốt hơn

o Phát triển, cài đặt thêm các phương pháp tổng hợp tốt hơn TD-PSOLA (cộng chồng đồng bộ miền thời gian)

o Chất lượng âm tổng hợp cho từ, cụm từ và câu tự nhiên hơn.

o Tổng hợp các đoạn ngắn cho các khuôn mẫu câu (voice template)

- Tổng hợp được một khuôn mẫu câu có chứa biến (voice template), là một câu trộn lẫn giữa câu ghi âm cố định và đọan âm tổng hợp ngắn.

- Chuyển đổi được đọan văn bản tiếng Việt bất kỳ (có thể có tiếng Anh trộn lẫn) thành âm thanh để phát trên điện thoại.

-  Chạy được trong 2 chế độ: đồng bộ và không đồng bộ.

- Thay đổi được tốc độ phát âm nhanh hoặc chậm.

- Chương trình trình diễn: Một cổng thoại báo điểm học tập, tu dưỡng của học sinh. Các thông tin được lưu trong cơ sở dữ liệu SQL Server với vài chục nghìn bản ghi.

3

(SP1.3)

Hệ thống đối thoại sử dụng công nghệ tổng hợp và nhận dạng tiếng tiếng Việt trên môi trường thiết bị di động dòng công nghệ mới

- Môi trưòng hoạt động: dòng công nghệ điện thoại di động Symbian.

- Thiết kế và cài đặt hệ thống đối thoại bằng tiếng nói sử dụng công nghệ tổng hợp và nhận dạng tiếng Việt

- Nhận dạng:

o Cho phép người dùng đọc mười chữ số tiếng Việt, kiểu đọc chuỗi số liên tục và một số lệnh sử dụng trong điện thoại di động, độc lập với người nói..

o Độ chính xác nhận dạng khoảng 90% trong môi trường không quá ồn (môi trường văn phòng bình thường, môi trường ngoài trời không có những tín hiệu nhiễu đặc biệt …).

o Tiêu chuẩn đánh giá độ chính xác trên bộ dữ liệu test đủ lớn về: số lượng câu, số lượng người, giọng 2 miền Bắc và Nam, giới tính, nói bình thường không quá nhanh

- Tổng hợp

o Đọc các tin nhắn bằng tiếng Việt, phát âm rõ các âm tiết tiếng Việt.

o Đánh giá độ hiểu tiếng Việt tổng hợp đạt quãng 90%. Tiêu chuẩn đánh giá: 1/ đánh gía theo các tham số ngữ âm của tiếng tổng hợp, 2/ đánh giá theo các nhóm người nghe về học vấn, tuổi, giới tính, có/không chuyên môn về ngôn ngữ, …

4

(SP1.4)

Hệ thống giám sát và điều khiển quá trình sử dụng kỹ thuật nhận dạng tiếng Việt

- Từ vựng điều khiển: khoảng 30 từ (ví dụ: dừng lại, chạy, sang phải, sang trái, ghi lại, sao chép…)

- Ngưi nói đơn (CSDL được ghi âm bởi một người nói), hệ thống nhận dạng “có đào tạo” trên cơ sở tương thích với từng người nói.

- Các module nhận dạng bao gồm: khối phân tích tín hiệu tiếng nói (đặc tính phổ) và khối nhận dạng (bằng HMM hoặc mạng nơ ron).

- Tối ưu hóa để có thể chạy trên các bộ vi xử lý nhúng như là các DSP (Texas Instruments).

- Khối điều khiển hành động: Có khả năng hot động trong các hệ thống nhúng và hệ thống tự chủ

- Độ chính xác nhận dạng khoảng 90% trong môi trường không quá ồn, tốc độ nhanh.

- Trình diễn sản phẩm: thực hiện một ứng dụng điều khiển phần mềm trong môi trường Windows, Unix để quản lý các tệp hồ sơ tài liệu (mở , đóng , xoá, lưu giữ tệp ...), ra các lệnh điều khiển văn bản đơn giản (cắt, dán, copy...)

5

(SP1.5)

Hệ thống phân tích luồng âm thanh

Dò tìm t động trong thời gian thực tiếng nói trong một luồng âm thanh ứng dụng trong các công việc giám sát:

- Phân loại tiếng nói và các âm thanh khác (với tiếng ồn và tiếng nhạc): Hệ thống phân tích trong thời gian thực luồng dữ liệu âm thanh ghi vào từ micro nhằm mục đích phân loi xem âm thanh ghi được thuộc loại nào : tiếng người nói, tiếng âm nhạc hay các loại tiếng động khác trong cuộc sống thường nhật.

- Quá trình phân tích, dò tìm tự động tiến hành trong thời gian thực bằng cách khai thác các đặc tính phổ của âm thanh.

- Độ chính xác phân loại 80%

- Trong trường hợp nhận ra sự có mặt của tín hiệu giọng nói, hệ thống sẽ có thể kết nối với bộ nhận dạng các câu lệnh giọng nói (như lmô t trong SP1.4) đ điều khiển một phần mềm hoặc một thiết bị máy móc nào đó.

- Trình diễn kết quả : điều khiển bật (tắt) bóng đèn trong nhà trong điều kiện sống hàng ngày. Hệ thống sẽ thực hiện các nhiệm vụ sau:

· Thực hiện phân tích luồng âm thanh thu thập từ nhiều micrô cài đặt trong nhà

· Chọn ra tín hiệu có chất lượng tốt nhất

· Áp dụng thuật toán dò tìm sự kiện âm

· Áp dụng thuật toán phân tích luồng âm thanh, sử dụng các kỹ thuật đã liệt kê ở phần trên

· Trong trường hợp dò được tín hiệu tiếng nói thì kích hoạt hệ thống điều khiển

6

(SP6.1)

Kho ngữ liệu ngữ âm cho Tỏng hợp tiếng Việt

a. Dữ liệu văn bản dành cho thu âm:

- Về nguồn dữ liệu, văn bn được chọn đ đọc có thể là đon trích văn học hoặc truyện ngắn hoặc các câu trích từ hai nguồn trên đảm bảo tính phong phú về từ vựng. Các câu được chọn có độ dài trung bình khoảng 10 âm tiết, dễ phát âm (không gồm những câu khó dễ gây đọc nhầm).

- Về mặt ngữ âm học, dữ liệu đảm bảo cân bằng về:

· Âm tiết: ít nhất bao gồm đủ 300 âm tiết khác nhau không kể thanh điệu thường xuyên được sử dụng trong tiếng Việt với số lượng cân bằng.

· Âm vị: đủ tất cả các âm vị khác nhau của tiếng Việt gồm 22 âm đầu, 16 âm chính, 8 âm cuối và 2 âm đệm với số lượng cân bằng.

· Thanh điệu: đủ 6 thanh điệu của tiếng Việt gồm ngang (không dấu), hỏi, sắc, nặng, huyền và ngã với số lượng cân bằng.

b. Độ lớn và chất lượng:

· Số giờ thu âm: 3-5 giờ.

· Sốợng âm tiết là khoảng 3000 tương đương với sốợng 300 câu với độ dài trung bình 10-15 âm tiết.

· Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit.

c. Người nói và điều kiện thu âm:

· Người nói gồm 01 nam giọng cao và 01 nữ giọng trầm tình trạng sức khoẻ tốt, tuổi trong khoảng 18-45, giọng phát thanh viên miền Bắc Hà nội chuẩn, tốc độ đọc chuẩn của phát thanh viên.

· Điều kiện thu âm: Môi trường phòng thu tiêu chuẩn cách âm.

d. Gán nhãn:

· Yêu cầu gán nhãn cơ sở dữ liệu ở mức từ, âm tiết, âm vị và thanh điệu tạo điều kiện khảo sát âm điệu của âm, thanh điệu âm tiết và trường độ âm vị khi cần.

e. Tổ chức cơ sở dữ liệu:

· Mỗi đơn vị dữ liệu gồm 01 file âm thanh và một số file gán nhãn dạng text tương ứng. Tổ chức bằng cách sử dụng cơ sở dữ liệu quan hệ với mỗi đơn vị là một bản ghi trong bảng. Các trường của bảng là metadata của dữ liệu và link tới file dữ liệu..

7

(SP6.2)

Kho ngữ liệu ngữ âm cho nhận dạng với từ vựng lớn

a. Dữ liệu văn bản dành cho thu âm:

· Về nguồn dữ liệu, văn bản được chọn để đọc là các câu trong đoạn văn gồm những từ được thường xuyên sử dụng trong nhiều lĩnh vực khác nhau như tin tức thời sự, văn hoá xã hội, thể thao, khoa học công nghệ, chính trị, sức khoẻ, kinh doanh, thời tiết. Dữ liệu có thể dưới dạng đoạn hội thoại, đoạn văn bản và các chữ số lấy từ website, sách hoặc báo chí. Các câu được chọn bởi chuyên gia hoặc tự động đảm bảo cân bằng về ngữ âm và dễ phát âm.

· Về mặt ngữ âm học, cơ sở dữ liệu bao gồm một số lượng từ vựng lớn, kỳ vọng đạt gần đủ tất cả âm tiết khác nhau theo thống kê xuất hiện trong tiếng Việt. Cụ thể số lượng âm tiết khác nhau khoảng 5.000, số lượng âm tiết không thanh điệu khác nhau khoảng 2.000. Tần số xuất hiện của mỗi âm tiết thể hiện đúng mức độ phổ biến của âm tiết theo thống kê thực tế từ dữ liệu thu được một cách ngẫu nhiên qua các websites .

b. Độ lớn và chất lượng:

· Số giờ thu âm: 100 giờ.

· Số câu trên 20.000 với độ dài trung bình 10 âm tiết mỗi câu.

· Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit.

c. Người nói và điều kiện thu âm:

· Số lượng đối tượng thu âm khoảng 50-60 người, trong đó 50% nam và 50% nữ, độ tuổi từ 18 đến 45, sức khoẻ tốt, giọng đọc với tỷ lệ cân bằng miền Bắc và miền Nam, tốc độ đọc bình thường. Mỗi câu đọc 3 lần cho mỗi giọng đọc, tốc độ đọc bình thường.

· Điều kiện thu âm là điều kiện phòng thu đạt tiêu chuẩn về cách âm.

d. Gán nhãn:

· Yêu cầu gán nhãn ở dữ liệu ở mức âm tiết.

e. Tổ chức cơ sở dữ liệu:

· Tương tự như đối với SP6.1.

8

(SP6.3)

Kho ngữ liệu ngữ âm đặc thù cho Nhận dạng mười chữ số tiếng Việt nói liên tục, tên người Việt và địa danh

a. Dữ liệu văn bản dành cho thu âm:

· Đối với 10 chữ số: Nguồn dữ liệu là các chuỗi số ngẫu nhiên được đọc liên tục lấy từ các số điện thoại cố định và di động. Về mặt ngữ âm học, ngoài cách đọc chuẩn, dữ liệu còn bao gồm các biến thể khác của các chữ số, ví dụ: 5 có thể đọc là “lăm”, “nhăm” và “năm”. Do đó, bộ dữ liệu gồm 17 âm vị khác nhau. Tần suất xuất hiện của các âm vị là tương đương nhau.

· Về tên người Việt: nguồn có thể là họ tên đầy đủ lấy danh sách cán bộ hoặc danh sách học sinh đảm bảo thu thập đủ những tên phổ biến trong tiếng Việt.

· Tên địa danh: tên các tỉnh, thành phố và địa phương cấp thấp hơn của Việt nam.

b. Độ lớn và chất lượng:

· Về dữ liệu chữ số: Số lượng chuỗi số trên 1000, mỗi chuỗi có độ dài 10 âm vị.

· Về tên người Việt: Số lượng từ vựng khoảng 2000 từ khác nhau.

· Về tên địa danh: Khoảng 100 tên khác nhau.

· Chất lượng âm thanh ghi ở dạng PCM, tần số lấy mẫu 16kHz và mã hoá 16 bit.

c. Người nói và điều kiện thu âm:

· Số lượng người nói 30-50 người với tỷ lệ nam nữ cân bằng, độ tuổi 18-45, sức khoẻ tốt, giọng đọc Hà nội chuẩn và địa phương miền Bắc. Thu âm 3 lần mỗi câu cho mỗi giọng đọc.

· Điều kiện thu âm là phòng thu tiêu chuẩn. Riêng đối với chữ số có thêm dữ liệu thu ở điều kiện văn phòng, mức độ tiếng ồn thấp, không có nhiễu đặc biệt và thiết bị thu là điện thoại di động với tiêu chuẩn kỹ thuật của âm thanh tương đương.

d. Gán nhãn:

· Yêu cầu gán nhãn ở mức âm tiết.

e. Tổ chức cơ sở dữ liệu:

· Tương tự như đối với SP6.1.

9

(SP7.2)

Từ điển tiếng Việt dùng cho XLNN

- Khoảng 35.000 từ, với các thông tin ngữ pháp, ngữ nghĩa dùng cho XLNNTN

- Chứa đng đủ lớp từ thông dụng trong tiếng Việt hiện đại

- Mô hình từ điển theo chuẩn quốc tế nhằm sử dụng/trao đi được giữa nhiều hệ thống, thuận tiện cho nghiên cứu đối sánh các ngôn ngữ

- Mã hoá chuẩn (XML)

- Mô tả nhất quán, tránh nhập nhằng

- Dễ cập nhật khi cần thiết

- Tài liệu hướng dẫn

10

(SP7.3)

Kho ngữ liệu câu tiếng Việt có chú giải(VieTreeBank)

- Tài liệu mô tả tập nhãn cú pháp và tập qui tắc gán nhãn cú pháp

- Kho ngữ liệu 10.000 câu được gán nhãn cú pháp đy đủ, khuôn dạng như các TreeBank khác.

- Tài liệu hướng dẫn.

11

(SP7.4)

Hai kho ngữ liệu câu Anh- Việt phổ quát và chuyên ngành

- Bộ tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt

- Bộ nhãn ngôn ngữ

- Công cụ chuẩn hóa ngữ liệu song ngữ

- 100,000 cặp câu song ngữ thô cho 2 ngôn ngữ Anh và Việt, trong đó có 10,000 câu về một lĩnh vực chuyên ngành (CNTT).

12

(SP8.2)

Hệ phân tách từ Việt

- Quy ước chuẩn về “đơn vị từ” trong xử lý ngôn ngữ

- Hệ phân tách từ đt độ chính xác cao, xấp xỉ 99%

- Mã nguồn mở với khả năng kết nối trong các phần mềm khác.

- Kho ngữ liệu đã phân tách từ, biểu diễn theo sơ đồ biểu diễn chuẩn quốc tế.

- Mã hóa chuẩn (XML)

- Tài liệu hướng dẫn sử dụng

13

(SP8.3)

Hệ phân loại từ Việt

- Tập quy tắc phân loại từ tiếng Việt thống nhất với Viet TreeBank

- Hệ phân loại từ tiếng Việt dạng phần mềm mã nguồn mở xây dựng các hệ phân lớp từ loại từ tiếng Việt (Bộ phân lớp từ loại đến mức 4)

- Mã nguồn mở với khả năng kết nối trong các phần mềm khác.

- Độ chính xác dự kiến khoảng 90% trở lên, huấn luyện bộ phân lớp trên tập dữ liệu câu gắn nhãn sẵn (khoảng 10.000 câu)

- Tài liệu đặc tả chính xác quá trình phát triển, các nguyên lý, quy tắc tuân theo và tài liệu hướng dẫn sử dụng đi kèm.

14

(SP8.4)

Hệ phân cụm từ Việt

- Các qui tắc cho tập gán nhãn chuẩn

- Hệ phân cụm từ Việt

- Mã nguồn mở với khả năng kết nối trong các phần mềm khác.

- Độ chính xác 85%

- Giao diện thân thiện với người dùng

- Tài liệu hướng dẫn.

15

(SP8.5)

Hệ phân tích cú pháp tiếng Việt

- Câu vào đã được phân tích từ loại (POS)

- Hệ phân tích cú pháp tiếng Việt (syntax parser): hệ cho phép phân tích các loại câu tiếng Việt (câu thông báo – câu đơn và câu ghép, câu hỏi, câu cảm thán, …) với độ chính xác trên 80%. Phân tích cú pháp dựa trên bộ luật theo văn phạm LCFG.

- Mã nguồn mở với khả năng kết nối trong các phần mềm khác.

- Tập luật ngữ pháp tiếng Việt dùng cho xử lý tự động ngôn ngữ: Có sự đồng thuận với các nhà ngôn ngữ học.

- Tài liệu hướng dẫn.

 



Các tin đã đưa:
   Thông tin về Đề tài KC.01.01/06-10 (9/3/2009)
   Phát triển công nghệ tổng hợp và nhận dạng tiếng Việt trên môi trường điện thoại di động (9/8/2006)
   Các mô hình cơ bản và thuật giải hiệu quả để khai thác thông tin từ tiếng Việt, chữ Việt và khám phá tri thức từ dữ liệu không gian (9/8/2006)
   Nghiên cứu phương pháp nhận dạng chữ viết tay hạn chế trực tuyến (9/8/2006)
   Dự án theo đơn đặt hàng: Tổng hợp và Nhận dạng tiếng Việt (9/8/2006)


Tin tức
Phần mềm Nhận dạng thông tin từ Chứng minh thư, Hộ chiếu, Biển số xe,...
Người đóng góp công lớn vào PHẦN MỀM NHẬN DẠNG CHỮ VIỆT
Nhập và xử lý tự động dữ liệu dạng đánh dấu bằng MarkREAD
Tiến sĩ Lương Chi Mai: Người phụ nữ trong nhóm tác giả VnDOCR
Tiến sĩ Đỗ Năng Toàn nhận giải thưởng 'Quả cầu vàng' về CNTT
Công ty Cổ phần tin học số 1 (ONE JSC)
Công ty Cổ phần Công nghệ thông tin
Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ Việt nam
PHÒNG NHẬN DẠNG & CÔNG NGHỆ TRI THỨC - VIỆN CÔNG NGHỆ THÔNG TIN
18 Hoàng Quốc Việt - Cầu Giấy - Hà Nội
Tel: (04) 37 560 537, 091352 9264 *Fax: (04) 37 564 217 *Email:lqanh@ioit.ac.vn
ĐẠI LÝ: TpHCM: *Chi nhánh Công ty cổ phần truyền thông số 1, Tel (08) 38 26 6868