Text Analytic Tools for
Semantic Similarity
(Alat Analisis Teks untuk
Kesamaan Semantik)
Kelompok 23:
Firda Daffa Utami (52416855)
Hedyana Pratiwi (53416254)
Tyas Kusmuliati (57416466)
Abstrak
Kesamaan semantik
merupakan sebuah konsep yang berkaitan antara teks yang didasarkan pada
maknanya. Sistem yang didasarkan pada mesin terjemahan menggunakan konsep kata
ke kata di tingkat dasar. Penerjemahan juga dapat dicapai dengan konsep
kesamaaan semantik. Korpus dan juga teks terjemahannya digunakan. Tujuannya
agar mencapai terjemahan berdasarkan keterkaitan antar kalimat dalam korpus.
Kegiatan ini akan bermanfaat karena tidak perlu terjemahkan satu-satu dan
setiap teks mempunyai mesin terjemahan.
Inti
Materi
Kesamaan semantik
ini sangatlah penting bagi bidang pemrosesan Bahasa alami, kecerdasan buatan,
ilmu kognitif dan psikologi, dan lainnya. Akurasi sistem tergantung seberapa
banyak faktor normalisasi ataupun yang lainnya. Cara paling popular untuk
membandingkan dua buah objek yaitu dengan membandingkan kesamaan antara dua
objek.
Metode yang
berfungsi untuk menghitung kesamaan semantik:
·
Kesamaan
berdasarkan Corpus
·
Kesamaan
berdasarkan ontologis
·
Kesamaan
berbasis WordNet
1. Diagram Arsitektur
Diagram arsitektur
ini dibagi jadi 5 bagian terpisah. Beberapa modulnya ada yang bertindak sebagai
modul prepocessing dan modul semantik. Persamaan modul kalkulator adalah modul
utama yang menghitung kesamaan semantik.
1.1 Segmentasi kalimat
Seringkali terjadi
bahwa teks input bukan baris tunggal atau kalimat tetapi bisa berupa teks besar
yang terdiri dari beberapa kalimat. Modul ini memecahkan paragraf menjadi
kalimat. Berbagai kasus ditangani seperti kehormatan, inisial, tanda seru, dan
yang lain.
1.2 NER
NER merupakan
entitas yang dinamai atau dapat dari banyak jenis. Misalkan, ciko nama
seseorang. Jadi itu datang di bawah entitas bernama ORANG. INDIA adalah tempat
dan karenanya berada di bawah antitas LOCATION
1.3 Tokonizer
Konsep utamanya
adalah mengubah kalimat menjadi kata-kata sehingga mereka dapat diproses. Kata-kata
seperti singkatan harus dianggap sebagai token tunggal daripada token yang
berbeda.
1.4 Normalisasi
Normalisasi ini
berguna untuk mendapatkan bentuk kata-kata dasar.
1.5 Kesamaan Semantik
Tujuan kesamaan
semantic adalah untuk menghitung kesamaan semantic antara kalimat. Ini juga
bisa digunakan lebih lanjut untuk terjemahan teks karena teks imput yang cocok
dengan teks corpus dapat dengan mudah diterjemahkan.
Metode yang berfungsi untuk
menghitung kesamaan semantik:
·
Kesamaan
berdasarkan Corpus
·
Kesamaan
berdasarkan ontologis
·
Kesamaan
berbasis WordNet
Kesimpulan
Dengan cara ini, kesamaan semantic
dapat dicapai dengan menggunakan modul-modul yang tadi sudah disebutkan. Karena
modul terpisah, tidak hanya kesamaan semantic tercapai tetapi tugas-tugas lain
tercapai.