Word Segmentation

Views:
 
Category: Education
     
 

Presentation Description

No description available.

Comments

By: tamakung (99 month(s) ago)

thank

Presentation Transcript

Thai Word Segmentation based on Global and Local Unsupervised Learning การตัดคำภาษาไทยด้วยเทคนิคการเรียนรู้แบบไม่ใช้ตัวอย่าง :

Natural Language Processing and Intelligent Information System Technology Research Laboratory 1 Thai Word Segmentation based on Global and Local Unsupervised Learning การตัดคำภาษาไทยด้วยเทคนิคการเรียนรู้แบบไม่ใช้ตัวอย่าง นำเสนอโดย สุธี สุดประเสริฐ ประธานกรรมการ รศ.ดร. อัศนีย์ ก่อตระกูล กรรมการวิชาเอก รศ. ยืน ภู่วรวรรณ กรรมการวิชารอง ผศ.ดร. เขมะฑัต วิภาตะวนิช กรรมการผู้แทนบัณฑิตฯ อ. สมโชค เรืองอิทธินันท์

ลำดับการนำเสนอ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 2 ลำดับการนำเสนอ บทนำ ความสำคัญของการประมวลผลคำ ปัญหาในการตัดคำ วัตถุประสงค์ งานวิจัยก่อนหน้า วิธีการที่นำเสนอ ผลการทดลอง สรุปผล แนวทางในการพัฒนาต่อ

บทนำ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 3 บทนำ Phonetic Analysis Morphological analysis OCR/Tokenization Syntactic analysis Semantic Interpretation Discourse Processing speech text

คำจำกัดความของคำ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 4 คำจำกัดความของคำ คำมูล คือ หน่วยคำที่เล็กที่สุดที่มีความหมาย ตัวอย่างเช่น : เดิน วิ่ง คน ฯลฯ คำประสม คือ คำที่เกิดจากการรวมกันของคำมูลตั้งแต่ ๒ คำขึ้นไป โดยที่ความหมายของคำประสม ไม่ได้คงความหมายดั้งเดิมของคำมูลที่เป็นองค์ประกอบ ตัวอย่างเช่น : ลูกเสือ หางเสือ การเมือง ฯลฯ

ความสำคัญของการประมวลผลคำ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 5 ความสำคัญของการประมวลผลคำ การประมวลผลคำเป็นขั้นตอนแรกที่จำเป็นในการประมวลผลภาษาธรรมชาติในระดับสูง เช่น การแปลภาษา การสรุปความ การย่อความ ตัวอย่าง การแปลภาษา “ตากลม” ตา กลม -> round eyes ตาก ลม -> expose to the air ตัวอย่าง “แอนติเจนมีความเข้มข้นเท่ากับ … ” แอน (n) ติ (v) เจน (n) มี (v) ความ (pref) เข้มข้น (adj) เท่ากับ (v) ทำให้การวิเคราะห์ในส่วนต่อไปผิดพลาดได้

ลักษณะเฉพาะของภาษาไทย:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 6 ลักษณะเฉพาะของภาษาไทย ไม่มีสัญลักษณ์พิเศษเพื่อบอกขอบเขตของคำ “ฉันนอนตากลม” “หลวงตามหาบัว” หนึ่งหน่วยคำประกอบด้วยอักษรมากกว่า 1 ตัว จึงทำให้มีโอกาสเกิดความคลุมเครือในการแบ่งขอบเขตได้มากขึ้น “มา ก ว่า” “หา ก ว่า” “ดู ด วง” “ขน บน อก” ไม่มีชุดอักษรพิเศษที่บอกถึงคำยืม คำทับศัพท์ หรือ ชื่อเฉพาะ “หมูกินข้าว” “ Bush is in the garden.” “ จอห์น สัน ซื้อ แป้ง โค โดโมะ”

ปัญหาที่พบในการตัดคำภาษาไทย:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 7 ปัญหาที่พบในการตัดคำภาษาไทย คำไม่รู้จัก แบบชัดเจน เช่น “สุวิทย์” “ไนจีเรีย” แบบซ่อนเร้นบางส่วน เช่น “ ทามา ก็อต” “แอน ติ เจน” แบบซ่อนเร้นทั้งหมด เช่น “น้ำดอกไม้” “ยาพารา” คำรู้จักแต่คลุมเครือในการแบ่งขอบเขตคำ คลุมเครือในระดับอักษร เช่น “มากว่า” “ขนบนอก” “ตากลม” คลุมเครือในระดับคำ เช่น “ทาง การ เมือง” “ดอก ไม้ ประดับ”

ปัญหาที่พบ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 8 ปัญหาที่พบ นับจากเอกสารการเกษตรขนาด 15,000 ประโยค คำไม่รู้จัก (คำที่ไม่พบในพจนานุกรม) ชัดเจน ซ่อนเร้นบางส่วน ซ่อนเร้นทั้งหมด 6.43% 4.29% 1.03% นับจากหนังสือพิมพ์ขนาด 284,727 ประโยค ความคลุมเครือในการตัดคำที่พบในพจนานุกรม ระดับอักษร ระดับคำ 2.64% 5.03%

วัตถุประสงค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 9 วัตถุประสงค์ เพื่อศึกษาปัญหาและทฤษฏีที่เกี่ยวข้องในการใช้งานจริงของระบบประมวลผลภาษาธรรมชาติในระดับคำของงานก่อนหน้า เพื่อพัฒนาระบบประมวลผลภาษาธรรมชาติในระดับคำ ที่เหมาะสมกับภาษาไทยที่มีความถูกต้องสูง และสามารถนำไปใช้ในงานได้อย่างมีประสิทธิภาพในทางปฏิบัติ

งานวิจัยก่อนหน้า:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 10 งานวิจัยก่อนหน้า วิธีการที่ใช้ งานวิจัย จุดเด่น จุดด้อย Rule-Based (Thairatananond, 1981), (Charnyapornpong, 1982) ประมวลผลได้เร็วและได้ผลดีในการตัดพยางค์ ไม่คำนึงความถูกต้องในระดับความหมายของคำ Dictionary- Based ( ยืน ภู่วรวรรณ , 2529), (วิรัช ศรเลิศล้ำวาณิช, 2536) (Cheng et al, 1999) ประมวลผลได้เร็วและแก้ปัญหาคำคลุมเครือในการแบ่งคำได้บางส่วน ไม่สามารถแก้ปัญหาคำไม่รู้จักแบบซ่อนเร้นได้

งานวิจัยก่อนหน้า:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 11 งานวิจัยก่อนหน้า วิธีการที่ใช้ งานวิจัย จุดเด่น จุดด้อย Corpus-Based (Supervised) (Kawtrakul et al.,1995) (Kawtrakul et al.,1997) (Meknavin et al., 1997) (Dai et al., 1999) (Ponte and Croft, 1996) etc. ความถูกต้องสูง สามารถประยุกต์แก้ไขปัญหาการตัดคำได้ทุกระดับ ใช้แรงงานและเวลาอย่างมากในการเตรียมคลังประโยคให้เพียงพอในการเรียนรู้ Corpus-Based (Unsupervised) (Aroonmanakun,2002) ( Ando and Lee,2003) (Peng,2001), etc. เตรียมคลังประโยคเพื่อใช้เรียนรู้ได้ง่าย ความถูกต้องน้อยกว่าวิธี Supervised

งานวิจัยก่อนหน้า:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 12 งานวิจัยก่อนหน้า สรุป Rule-based และ Dictionary-based ไม่ได้แก้ไขปัญหา คำไม่รู้จักแบบซ่อนเร้น Dictionary-based แก้ปัญหาความคลุมเครือได้บางส่วน Corpus-based (Supervised) จำเป็นต้องใช้คลังประโยคจำนวนมาก Corpus-based (Unsupervised) ไม่ได้เสนอแนวทางในการแก้ไขปัญหาคำไม่รู้จัก

หลักการและเหตุผล:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 13 หลักการและเหตุผล การใช้พจนานุกรม (Dictionary-based) ใช้งานได้สะดวกและใช้งานอย่างแพร่หลายในปัจจุบัน (CTTEX, SWATH) ไม่สามารถแก้ปัญหาคำไม่รู้จักและความคลุมเครือในบางกรณี การเรียนรู้แบบใช้ตัวอย่าง (Supervised learning) ใช้เวลาและกำลังคนในการเตรียมจำนวนมาก คลังเอกสารจะขึ้นกับประเภทของเอกสารที่ใช้ การเรียนรู้แบบไม่ใช้ตัวอย่าง (Unsupervised learning) สะดวกในการเตรียมคลังเอกสารที่ใช้ในการเรียนรู้ ใช้ได้ผลดีในภาษาอื่นๆ ที่มีลักษณะคล้ายกับภาษาไทย (จีน ญี่ปุ่น)

ขอบเขตของงานวิจัย:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 14 ขอบเขตของงานวิจัย แก้ไขปัญหาคำไม่รู้จัก แบบซ่อนเร้นบางส่วน เช่น ทามา ก็อต แก้ไขปัญหาความคลุมเครือ ระดับอักษร เช่น “มากว่า” “หากว่า” “ตากลม” ระดับคำ เช่น “ทางการเมือง” “ดอกไม้ประดับ” ไม่ครอบคลุมปัญหานามวลี เช่น “การไฟฟ้าแห่งประเทศไทย” จะตัดได้ “การ ไฟฟ้า แห่ง ประเทศ ไทย” ยอมให้เกิดข้อผิดพลาดซึ่งเป็นผลจากใช้ Dictionary-based รายละเอียดจะกล่าวในแต่ละส่วนของวิธีการ

วิธีการ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 15 วิธีการ แบ่งหน่วยคำ (Morpheme Segmentation) แก้ปัญหาความคลุมเครือในระดับตัวอักษร “ตา กลม” – “ตาก ลม” แก้ปัญหาคำไม่รู้จักแบบซ่อนเร้นบางส่วน “แอน ติ เจน” หรือ “ โค โดโมะ” รวมหน่วยคำ ( Morpheme Merging) แก้ปัญหาความคลุมเครือในระดับคำ “ดอกไม้ ประดับ” – “ดอก ไม้ประดับ”

ภาพรวมของระบบ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 16 ภาพรวมของระบบ Morpheme Segmentation Syllable Segmentation Choosing the best pattern of syllable segmenting Syllable Merging Morpheme Merging Morpheme merging by using dictionary Unknown Word Recognition Choosing the best pattern of word segmenting Syllable Dictionary Lexicon Dictionary Syllable’s Rule List of Morphemes is able to be a part of unknown word

พจนานุกรม:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 17 พจนานุกรม พจนานุกรมที่ใช้ในการทดลองมีเฉพาะคำไทยทั่วไปเท่านั้น ไม่มีชื่อเฉพาะและคำทับศัพท์ มีขนาด 15614 คำ ทั้งนี้เพื่อทดลองประสิทธิภาพการแก้ไขปัญหาคำไม่รู้จัก

การตัดพยางค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 18 การตัดพยางค์ ใช้พจนานุกรมพยางค์ขนาด 10337 พยางค์ สร้างจากคลังเอกสารขนาด 13 เมกะไบต์ ใช้วิธีเลือกรูปแบบการตัดที่มีจำนวนพยางค์และพยางค์ที่ไม่รู้จักน้อยที่สุด (Maximum Matching) ( ความถูกต้องประมาณ 90%) การใช้ Maximum Matching อาจทำให้เกิดการตัดผิดในกรณี “ขนบนอก” ซึ่งจะตัดได้ “ขนบ นอก” แต่กรณีนี้เกิดขึ้นน้อยกว่า 0.01% Syllable Segmentation Fail (14) เขา-ถูก - กล่าว - หา - อย่าง - มา - กว่า-เป็น-เพีย - งด - อก-ไม้-ประ-ดับ Fail (14) เขา-ถูก - กล่าว - หา - อย่าง - มาก - ว่า-เป็น-เพีย - งด-อก-ไม้-ประ-ดับ Pass (13) เขา-ถูก - กล่าว - หา - อย่าง - มา - กว่า-เป็น-เพียง-ดอก-ไม้-ประ-ดับ Pass (13) เขา-ถูก - กล่าว - หา - อย่าง - มาก - ว่า-เป็น-เพียง-ดอก-ไม้-ประ-ดับ

การตัดพยางค์ (ต่อ):

Natural Language Processing and Intelligent Information System Technology Research Laboratory 19 การตัดพยางค์ (ต่อ) ข้อดีของการใช้พจนานุกรมพยางค์ที่สร้างจากคลังเอกสารคือพยางค์ที่ได้จะมีรูปแบบที่สอดคล้องกับพยางค์ที่มีการใช้จริง แต่มีข้อเสียคือทำเกิดพยางค์ที่ไม่รู้จัก ดังนั้นจึงได้เพิ่มวิธีการในการจัดการกับพยางค์ที่ไม่รู้จัก โดยใช้กฎการรวมพยางค์ ซึ่งสร้างจากหลักภาษาไทยของพระยาอุปกิตศิลปสาร

กฎการรวมพยางค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 20 กฎการรวมพยางค์ C (กลุ่มอักษรนำ) เช่น ก ข ค ทร คว P ( กลุ่มตัวสะกด) เช่น ตร ก ข ค ด ต T (กลุ่มวรรณยุกต์) เช่น อ่ อ้ อ๊ อ๋ U ( กลุ่มสระระดับบนและระดับล่าง) เช่น อี อื อู อุ ตัวอย่างกฎ CUTP? CTP แ CT ะ โ CTP?

วิธีการใช้กฎการรวมพยางค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 21 วิธีการใช้กฎการรวมพยางค์ จะใช้กฎเมื่อ พยางค์ที่ไม่รู้จักมีความยาวน้อยกว่า 3 ตัวอักษร วิธีการใช้มีดังนี้ พยายามรวมพยางค์ไม่รู้จักกับพยางค์ด้านซ้ายและด้านขวา เพื่อให้เกิดพยางค์ที่ตรงตามกฎ ถ้าพยางค์ด้านซ้ายหรือขวาปรากฎในพจนานุกรมคำ แต่ไม่สามารถรวมพยางค์ตรงกฎได้ทั้งสองข้าง ให้นำพยางค์ที่ไม่รู้จักไปรวมกับพยางค์ที่ไม่ปรากฎในพจนานุกรม ในกรณีที่ไม่เป็นไปตามข้อกำหนดที่กล่าวมาให้นำพยางค์ที่ไม่รู้จักนั้น ไปรวมกับพยางค์ด้านขวา

วิธีการใช้กฎการรวมพยางค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 22 วิธีการใช้กฎการรวมพยางค์ ตัวอย่าง ลาสเวกัส -> ลา ส เว กัส -> ลาส เว กัส (เนื่องจาก “ส” รวมกับ “เว” ไม่ถูกต้องตามกฎพยางค์)

วิธีการใช้กฎการรวมพยางค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 23 วิธีการใช้กฎการรวมพยางค์ ตัวอย่าง ทำศวามดี -> ทำ ศ วาม ดี -> ทำ ศวาม ดี (เนื่องจาก “ทำ” เป็นคำที่มีความหมาย ดังนั้น “ศ” จึงรวมกับ “วาม”)

วิธีการใช้กฎการรวมพยางค์:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 24 วิธีการใช้กฎการรวมพยางค์ ตัวอย่าง ฮีมาโตคริท -> ฮี มา โต ค ริท -> ฮี มา โต คริท (เนื่องจากทั้ง “โตค” และ “คริท” ตรงตามกฎการรวมพยางค์) วัคซีนออเจสซกี้ -> วัค ซีน ออ เจส ซ กี้ -> วัค ซีน ออ เจส ซกี้ (เนื่องจากทั้ง “เจสซ” และ “ซกี้” ไม่ตรงตามกฎการรวมพยางค์)

ข้อสังเกตและสมมุติฐาน:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 25 ข้อสังเกตและสมมุติฐาน คำเดียวกันมักจะมีการนำมาใช้อยู่ในรูปแบบเดียวกัน หรืออีกนัยหนึ่งคือคำรอบข้างมักจะมีรูปแบบเหมือนกัน (ตัวอย่าง มากว่า) คำที่เกิดก่อน “มา” จำนวนที่พบ คำที่เกิดก่อน “มาก” จำนวนที่พบ เข้า 31,129 จำนวน 6,740 ผ่าน 23,673 อย่าง 4,979 ออก 15,846 ได้ 3,580 ขึ้น 12,019 ให้ 2,471 นำ 6,730 ไม่ 2,209

ข้อสังเกตและสมมุติฐาน:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 26 ข้อสังเกตและสมมุติฐาน คำที่เกิดหลัง “กว่า” จำนวนที่พบ คำที่เกิดหลัง “ว่า” จำนวนที่พบ ที่ 2,518 จะ 19,680 นี้ 1,564 เป็น 7,762 การ 1,526 มี 6,492 จะ 1,327 การ 6,122 ปี 1,213 ใน 4,059

ข้อสังเกตุและสมมุติฐาน:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 27 ข้อสังเกตุและสมมุติฐาน ในกรณีที่เอกสารที่นำมาตัดคำมีขนาดใหญ่พอสมควร สถิติหรือข้อมูลลักษณะการใช้คำในเอกสารนำเข้า น่าจะมีประโยชน์และสามารถช่วยเพิ่มประสิทธิภาพในการตัดคำได้ ดังนั้นในงานวิจัยนี้ จึงพยายามนำสถิติของเอกสารนำเข้ามาใช้ในการแก้ไขปัญหา

นิยามเพิ่มเติม:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 28 นิยามเพิ่มเติม Global corpus เอกสารขนาดใหญ่ที่รวบรวมจากข้อมูลหลายแหล่ง ข่าวทั่วไป การเมือง เศรษฐกิจ กีฬา เอกสารวิชาการทางการเกษตร Local document เอกสารที่นำมาตัดคำ

การเตรียมคลังเอกสาร:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 29 การเตรียมคลังเอกสาร ใช้การเรียนรู้ในระดับผิวคำ ( Surface word) ดังนั้นจึงจำเป็นต้องใช้ข้อมูลจำนวนมาก เพื่อที่จะสามารถเตรียมคลังเอกสารให้เพียงพอ จึงจำเป็นต้องหาวิธีที่เหมาะสมในการเตรียมคลังเอกสาร การเตรียมคลังเอกสารใช้วิธีการตัดคำโดยพจนานุกรม และละประโยคที่มีความคลุมเครือ (คำตอบมากกว่า 1 แบบ) ดังนั้นการคำนวณสถิติจะได้จากคำไม่มีความคลุมเครือเท่านั้น และการคำนวณจะคิดจากบริบทรอบข้างแทนการคำนวณสถิติทั้งประโยค การเตรียมคลังเอกสารด้วยวิธีนี้ สามารถเตรียมคลังเอกสารได้จำนวนมาก เพราะไม่จำเป็นต้องใช้คนในการเตรียม

การแก้ปัญหาความคลุมในระดับอักษร:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 30 การแก้ปัญหาความคลุมในระดับอักษร คือรูปแบบการตัดคำแบบที่ i คำในระดับที่ n ของรูปแบบ w คือรูปแบบการตัดคำที่เลือก ฟังก์ชั่นการนับรูปแบบความถี่ [Charniak, E. 1993]

การแก้ปัญหาความคลุมในระดับอักษร:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 31 การแก้ปัญหาความคลุมในระดับอักษร เขา-ถูก-กล่าว-หา-อย่าง-มาก-ว่า-เป็น-เพียง-ดอก-ไม้-ประ-ดับ เขา-ถูก-กล่าว-หา-อย่าง-มา - กว่า-เป็น-เพียง-ดอก-ไม้-ประ-ดับ

การแก้ปัญหาความคลุมในระดับอักษร:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 32 การแก้ปัญหาความคลุมในระดับอักษร สัดส่วนของสถิติของคลังเอกสาร (alpha) สัดส่วนของสถิติของเอกสารนำเข้า (beta) ความถูกต้อง (เปอร์เซ็นต์) 0.00 1.00 93.83 0.10 0.90 95.48 0.20 0.80 95.60 0.50 0.50 95.43 0.75 0.25 95.40 0.90 0.10 95.43 1.00 0.00 94.31 ตารางแสดงความถูกต้องในการแก้ปัญหาความคลุมเครือในระดับอักษร เมื่อเปลี่ยนค่า alpha และ beta คลังเอกสารมีขนาด 150 เมกะไบต์

การรวมพยางค์เฉพาะส่วนที่ไม่คลุมเครือ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 33 การรวมพยางค์เฉพาะส่วนที่ไม่คลุมเครือ ในขั้นตอนนี้ความผิดพลาดอาจเกิด เช่น “ยอด ขาย ต่อ ปี” จะได้ “ยอด ขายต่อ ปี” ซึ่งผิด (ข้อผิดนี้เกิดขึ้น 0.0375%) เพื่อลดปัญหาความคลุมเครือ จึงได้สร้างชุดของคำประสมที่ไม่มีทางแยกกัน โดยให้นักภาษาศาสตร์เลือกจากพจนานุกรม และใช้คำจากชุดของคำดังกล่าวในการรวมคำ ตัวอย่างของชุดคำคือ “กล่าวหา” “รวบรวม” “แท้จริง” เป็นต้น Syllable Merging & Morpheme Merging เขา-ถูก-กล่าวหา-อย่าง-มาก-ว่า-เป็น-เพียง-ดอก-ไม้-ประดับ ความคลุมในระดับคำ “ดอกไม้-ประดับ” “ดอก-ไม้ประดับ” เขา-ถูก-กล่าว-หา-อย่าง-มาก-ว่า-เป็น-เพียง-ดอก-ไม้-ประ-ดับ

การขยายขอบเขตคำไม่รู้จักแบบซ่อนเร้นบางส่วน:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 34 การขยายขอบเขตคำไม่รู้จักแบบซ่อนเร้นบางส่วน คำต้องสงสัย คือ คำมูลที่มีโอกาสเป็นส่วนหนึ่งของคำยืม เช่น มา ตา ไฟ โต อา กา รา เป็นต้น สร้างโดยให้นักภาษาศาสตร์เลือกจากพจนานุกรม Partial Unknown Word Resolving ว่า-เจ้า-ทา-มา-กอตซ์-ขาย-ดี-เป็น-เทน้ำเทท่า-กว่า-ล้าน Suspect List Local Document Suspect list is the list containing all single word which is possible to be a part of unknown word (borrowed word).

การขยายขอบเขตคำไม่รู้จักแบบซ่อนเร้นบางส่วน:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 35 การขยายขอบเขตคำไม่รู้จักแบบซ่อนเร้นบางส่วน จะขยายขอบเขตคำไม่รู้จักเมื่อ P(R) <= T ( จากการทดลองค่า T = 0.1) P(L) < P(R) Partial Unknown Word Resolving ว่า-เจ้า-ทา-มา-กอตซ์-ขาย-ดี-เป็น-เทน้ำเทท่า-กว่า-ล้าน Suspect List Global Corpus Suspect lists are all single word which is possible to be a part of unknown word (borrowed word). P(L) P(R)

การแก้ปัญหาความคลุมเครือในระดับคำ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 36 การแก้ปัญหาความคลุมเครือในระดับคำ วิธีการคำนวณแบบเดียวกับการแก้ปัญหาความคลุมในระดับอักษร แต่ใช้เฉพาะสถิติจาก Global corpus เท่านั้น และ เพื่อ เป็น แนว ทาง ใน การ เลือก ซื้อ หนังสือ ให้ คุณ และ เพื่อ เป็น แนว ทาง ใน การ เลือก ซื้อ หนังสือ ให้ คุณ Global Corpus

ผลการทดลอง:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 37 ผลการทดลอง ชุดทดสอบ Supervised Learning (Trigram Model) Unsupervised Learning [Wirote 2002] Global and Local Unsupervised Learning 1 - 45.41% 89.60% 2 73.18% 95.27% 95.60% 3 89.49% 41.96% 90.60% ชุดทดสอบ 1 ประกอบด้วยประโยคที่มีคำไม่รู้จัก 4153 ประโยค ทั้งหมดเป็นเอกสารประเภทเอกสารวิชาการทางการเกษตร ชุดทดสอบ 2 ประกอบด้วยประโยคที่มีความคลุมเครือในระดับอักษรทั้งหมด 2600 ประโยค ทั้งหมดรวบรวมมาจากข่าวการเมือง ชุดทดสอบ 3 ประกอบด้วยประโยคที่มีความคลุมเครือในระดับคำทั้งหมด 2645 ประโยค ทั้งหมดรวบรวมมาจากข่าวการเมือง

ผลการทดลอง:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 38 ผลการทดลอง ผลการตัดคำโดยใช้วิธีการ EM และใช้ Viterbi decoding ในการคำนวน ชุดทดสอบ Unigram Bigram Trigram Smoothing Trigram 1 - - - - 2 89.50% 74.37% 56.56% 60.08% 3 91.94% 84.23% 72.83% 69.62%

สรุปผลการทดลอง:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 39 สรุปผลการทดลอง วิธีการตัดคำที่เสนอในงานวิจัยซึ่งใช้การเรียนรู้แบบไม่ใช้ตัวอย่างได้ผลดีกว่าการตัดคำแบบใช้ตัวอย่างในกรณีที่คลังเอกสารแบบใช้ตัวอย่างที่ใช้ในการเรียนรู้มีไม่เพียงพอ เมื่อเปรียบเทียบกับงานวิจัยก่อนหน้าที่ใช้การเรียนรู้แบบไม่ใช้ตัวอย่างเหมือนกัน วิธีการที่เสนอได้ผลดีกว่าโดยเฉพาะปัญหาคำไม่รู้จัก วิธีการที่นำเสนอไม่จำเป็นต้องใช้คนในการเตรียมคลังเอกสาร ดังนั้นจึงสามารถเปลี่ยนคลังเอกสารได้อย่างสะดวก เพื่อให้เหมาะกับเอกสารนำเข้าได้

ข้อผิดพลาดที่พบ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 40 ข้อผิดพลาดที่พบ คำไม่รู้จักแบบซ่อนเร้นบางส่วน เนื่องจากบางคำที่อยู่ในรายการคำต้องสงสัย แต่มีการใช้ที่บ่อย เช่น “ไป” อาจถูกร่วมเป็นส่วนหนึ่งของคำไม่รู้จักได้ เช่น “ฉัน ไป เดอะมอลล์” ถ้าความถี่ที่เกิดในเอกสารนำเข้ามีมากกว่า 1 ครั้ง จะได้ “ฉัน ไปเดอะมอลล์” ความคลุมเครือในระดับอักษร เนื่องจากคลังเอกสารไม่ได้มีการแยกหมู่หมวด จึงทำให้สถิติของคำผิดพลาดเมื่อนำไปใช้กับเอกสารหมู่อื่น เช่น “ปีกว่า” ในคลังเอกสารมีเอกสารการเกษตรจำนวนมากจึง ทำให้ “ปีก” มีสถิติสูง จึงทำให้ตัดผิดเป็น “ปีก ว่า”

ข้อผิดพลาดที่พบ (ต่อ):

Natural Language Processing and Intelligent Information System Technology Research Laboratory 41 ข้อผิดพลาดที่พบ (ต่อ) ความคลุมเครือในระดับคำ บางกรณีรูปแบบการรวมคำที่ถูกต้องไม่จำเป็นต้องรวมกับคำทางซ้ายหรือทางขวาเสมอไป ความผิดพลาดนี้เกิดขึ้นประมาณ 5% ของปัญหาความคลุมเครือในระดับคำ ( พบ 132 ประโยคจากชุดทดสอบที่ 3 จำนวน 2645 ประโยค) เช่น “ช้า กว่า แผน ที่ ตั้ง เอาไว้” สาเหตุที่ไม่นำปัญหาดังกล่าวไปแก้ปัญหาด้วยใช้สถิติ เพราะจะเป็นการเพิ่มตัวเลือกในการตัดสินใจจาก 2 เป็น 3 และจะทำให้ประสิทธิภาพโดยรวมลดลง “ช้า - กว่า - แผน - ที่ - ตั้ง - เอาไว้” “ช้า - กว่า - แผนที่ - ตั้ง - เอาไว้” “ช้า - กว่า - แผน - ที่ตั้ง - เอาไว้”

แนวทางในการพัฒนาต่อ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 42 แนวทางในการพัฒนาต่อ จัดประเภทของคลังเอกสาร เพื่อทำให้สถิติที่จะนำมาใช้ตรงตามประเภทของเอกสารนำเข้า พยายามแก้ไขปัญหาคำไม่รู้จักแบบซ่อนเร้นทั้งหมด อาจใช้วิธีการกึ่งอัตโนมัติ เนื่องจากข้อจำกัดของวิธีการเรียนรู้แบบไม่ใช้ตัวอย่าง ที่ไม่สามารถแก้ไขปัญหาดังกล่าวได้ เพราะไม่สามารถเรียนรู้ในระดับความหมายหรือไวยากรณ์ของคำได้ เพิ่มความเร็วในการทำงาน โดยใช้วิธีการคำนวณที่มีประสิทธิภาพมากขึ้น โดยความเร็วปัจจุบันอยู่ที่ประมาณ 738 คำ / วินาที

จบการนำเสนอ:

Natural Language Processing and Intelligent Information System Technology Research Laboratory 43 จบการนำเสนอ ถาม - ตอบ

authorStream Live Help