就算不做機器學習,Chatbot 有 Articut 中文斷詞就沒問題了吧!

活動摘要

就算不做機器學習,Chatbot 有 Articut 應該就沒有問題了吧!

摘要:

    由於中文文字系統的特性,「中文斷詞 (又稱分詞)」一直是中文資訊處理的基礎建設問題。過去數十年來,這個問題大致上分成「立基於規則」、「立基於資料統計」、「立基於字典」的解法,以及「混在一起做撒尿牛丸」的方式 (不用跳著講) 做為解決方案。由於漢語語法規則研究直到最近幾年的成果才完成較為細緻的架構,但也剛好在最近幾年由於資料量以及運算力大幅成長的緣故,「立基於資料統計」的機器學習方法被大量應用在中文斷詞問題上。大家似乎有一種錯覺,以為「機器學習已解決了中文斷詞問題」,並開始做後續的情緒分析、情感偵測、文本分析…等應用了。

    然而,在遇到種種透明天花板般的良率上限時,立基於資料統技的方式往往只能透過求取更多資料,設計更多前處理或更多後處理…等等方向下手,卻仍然無法突破。

    本次分享將以「立基於規則」的中文斷詞做為切入角度,同時提供學理和實作上的例子,從何為中文斷詞開始說明,接著接釋中文斷詞的應用、評估優劣的方法,並在最後呈現「以語言學規則實作的中文斷詞暨詞性標記引擎 - Articut」以及其應用上的優勢和特點。

 

內容大綱:

  • 無限猴子的故事、中文斷詞與機器學習技術在這方面遇到的透明天花板。

  • 中文斷詞的優劣對人工智慧、人機互動介面以及天網的發展所造成的影響。

  • 聊天機器人為什麼只是「機器人」而還不會「聊天」?

  • 如何評估一個斷詞技術?

  • 我們最近上線的「Articut 文截斷詞暨詞性標記系統」的功能以及應用的發想和示範。

講者

Peter Woof

卓騰語言科技股份有限公司 - 執行長工

人生目標是成為 100 年後有智力的機器人心中的造物主。

 

要收費嗎?

 

本次酌收 100 元以補助講師車馬費。

 

主辦者:Taichung.py

我們是一群台中Python程式語言的愛好者,希望在台中可以跟Python同好分享Python有關的訊息或活動,以及相關的技術或知識。

活動相關討論,歡迎加入:Taichung.py FB 社團

events: http://taichung-py.kktix.cc/

 

協辦單位:微程式 -- 夢森林

 

 

 

 

 

夢森林 Dreamforest 是由微程式所提供中部優質交流的場域空間,我們偕同相關產業的夥伴以跨領域技術交流為目的,以「知識分享」、「交流互動」與「創造價值」為核心出發,共同打造中部深具影響力的科技服務交流生態圈,促進在地產業發展。

Facebook:https://www.facebook.com/dreamforest.org

微程式科技--夢森林 / 台中市市政路402號7樓 (請於一樓換取感應卡後右側電梯上樓)

Event Tickets

Ticket Type Sale Period Price
一般票 2019/05/22 07:00(+0800) ~ 2019/06/01 07:00(+0800) End of Sale
  • Free
Next Step