XÂY DỰNG CƠ SỞ TRI THỨC CHỮ NHIỀU BẬC ĐỆ QUY VÀ KHO THÀNH TỐ CƠ BẢN CỦA CHỮ NÔM

Ngô Thanh Giang & Tô Trọng Đức

Ngô Thanh Nhàn & Ngô Trung Việt

Nhóm Nôm Na, Hà Nội

Hội nghị Quốc tế về chữ Nôm

Huế, 1-2 tháng 6 năm 2006

Giới thiệu

Chữ Hán-Nôm hiện nay được sử dụng rộng rãi trong vùng Đông Á và trên thế giới nhờ sự phát triển của ngành công nghệ thông tin, mạng Internet và nhất là chuẩn mã chữ quốc tế Unicode và ISO/IEC 10646. Chữ Nôm nhờ đó đã gia nhập cộng đồng mạng thông tin và máy tính.

Tuy nhiên, thông lệ quốc tế về chữ Hán-Nôm còn nhiều điểm cơ bản chưa chính xác về tự đạng. Cụ thể, mỗi chữ Hán-Nôm bị coi là một chữ “cái” (character), và từ đó cách phân tích nội tại của chữ Hán-Nôm còn phải dùng phương pháp bộ và số nét theo cách của Tự điển Khang Hi năm 1710-1716. Do đó, kho chữ “cái” Hán-Nôm trong bộ chuẩn quốc tế lên đến hơn 50.000.[1] Đó là một điều kỳ lạ. Ai cũng biết mỗi chữ Hán-Nôm ghi một âm tiết, được tạo thành bằng những bộ phận giống nhau về hình dáng. Tự điển Khang Hi bắt đầu công tác phân tích và tìm ra 214 bộ (mà phương Tây dịch sai thành radical). Tự điển Khang Hi có thể coi là một bước cách mạng về mặt phân tích chữ Hán theo các bộ phận tự dạng nội tại của chữ, nó cho phép người ta sắp thứ tự vào một bảng (tự điển) theo một quy trình mà ai cũng truy tìm được. Nhưng việc dùng cách đếm số nét (không phải là bộ phận tự dạng nội tại) làm phức tạp thêm cho việc tìm chữ trong văn bản hay tự điển—không một người thành thạo chữ Hán-Nôm khi nhìn mặt chữ lại nghĩ đến số nét.

Trong bài viết này chúng tôi bàn tới quy trình xây dựng và thống nhất hóa cơ sở tri thức chữ Hán Nôm (sau đây gọi là CSTTC). Gọi là cơ sở tri thức là vì, ngoài việc là kho chữ tập hợp 20.213 chữ Nôm với 37.714 mục từ các nguồn khác nhau, CSTTC Hán Nôm còn lưu giữ các thông tin tự đạng hữu ích cho các thao tác công nghệ thông tin, ngôn ngữ học (từ vựng lịch sử, từ vựng học, ngữ nghĩa học), văn bản học, giải nghĩa Việt-Anh, v.v. Việc thống nhất và hoàn thiện CSTTC được tiến hành trên một quy trình mới: Thành tố với tư cách là các thành phần cấu tạo theo từng bậc cho tự dạng chữ Hán-Nôm.

Quy trình xây dựng và hoàn thiện CSTTC là một quy trình nhỏ của quy trình Nôm na. Nó có quan hệ chặt chẽ với các quy trình con khác trong hệ thống. Quy trình Nôm Na được mô tả như sự tích hợp của các quy trình con sau:

Tập hợp và xây dựng cơ sở dữ liệu thống nhất chữ Hán Nôm;
Xây dựng cơ sở tri thức mỗi chữ Hán Nôm;
Xây dựng các công cụ tra cứu – nghiên cứu chữ Hán Nôm;
Xây dựng bàn phím chữ Hán Nôm;
Xây dựng kho văn bản chữ Hán Nôm;
Xây dựng chương trình học tập điện tử cho chữ Hán Nôm (Nôm E-learning).

Bài này trình bày ý nghĩa của riêng quy trình xây dựng và hoàn thiện CSTTC mà nhóm Nôm Na đã thực hiện trong thời gian qua, cụ thể là phân tích thành tố[2] theo tự dạng, thiết lập quá trình tạo tự dạng chữ, nhưng không theo lịch sử (dị đại) tạo chữ như các nhà nghiên cứu Hán Nôm hay ngôn ngữ học vẫn dùng. Trên cơ sở đó, đúc kết và khái quát hoá để có thể xây dựng bộ thành tố cơ bản, tiến tới việc xây dựng bàn phím chữ Hán Nôm, và kết quả của quy trình sẽ trở thành một hỗ trợ đắc lực cho việc biên soạn nội dung cho chương trình Nôm E-learning.

[1] Cho đến nay người ta đã tìm ra khoảng 5.000 chữ Giáp cốt văn nhưng có lẽ còn nhiều chữ chưa tìm ra. Tự điển Đông Hán, Shuowen jiezi, do Xu Shen soạn, có 9.353 chữ. Khang Hy tự điển soạn trong thời nhà Thanh có 46.964 chữ. Hán ngữ đại tự điển, do Nhóm nhà xuất bàn Hubei tỉnh Sichuan năm 1986, có hơn 56.000 chữ.

[2] Chúng tôi dùng chữ “thành tố” gần nghĩa với Lê Văn Quán 1981 nhưng không đi vào lịch sử xuất hiện, cấu tạo hay âm đọc (ngữ âm lịch sử).