|
|
 |
|
|
| 本發明提供一種基于線性模型的漢語詞法分析方法,包括如下步驟:1)輸入漢語語句,設定分析窗口長度;2)對語句進行逐字分析,對語句中的每一個字,將該字時間窗口內的字或字元組輸入感知機分類器,得出當前字標注為某一分詞標注和詞性標注的感知機模型得分;同時,將該字時間窗口內的字或字元組輸入線性詞法分析模型,得出當前字標注為某一分詞標注和詞性標注的線性詞法分析模型得分;3)感知機模型得分和線性詞法分析模型得分加權求和得出綜合分析得分,將綜合分析得分最高的分詞標注和詞性標注做為當前字的分詞標注和詞性標注;當所有字的分詞標注和詞性標注均標注完成時,所述漢語語句的詞法分析完畢。本發明能夠顯著地提高了切分和標注的精確度。 |
|
|
|
|
|
|
 |
|
基于線性模型的漢語詞法分析方法
一種提供的基于線性模型的漢語詞法分析方法,包括如下步驟: 1)輸入漢語語句,設定分析窗口長度, 2)對語句進行逐字分析,對語句中的每一個字,將該字時間窗口內的字或字元組輸入感知機分類器,得出當前字標注為某一分詞標注和詞性標注的感知機模型得分;同時,將該字時間窗口內的字或字元組輸入線性詞法分析模型,得出當前字標注為某一分詞標注和詞性標注的線性詞法分析模型得分; 3)感知機模型得分和線性詞法分析模型得分加權求和得出綜合分析得分,將綜合分析得分最高的分詞標注和詞性標注做為當前字的分詞標注和詞性標注;當所有字的分詞標注和詞性標注均標注完成時,所述漢語語句的詞法分析完畢。
|
|
|
|
|
 |
|
| 專利號: |
200810114950 |
| 申請日: |
2008年6月13日 |
| 公開/公告日: |
2008年10月29日 |
| 授權公告日: |
|
| 申請人/專利權人: |
中國科學院計算技術研究所 |
| 國家/省市: |
北京(11) |
| 郵編: |
100190 |
| 發明/設計人: |
姜文斌、黃亮、劉群、呂雅娟 |
| 代理人: |
王勇 |
| 專利代理機構: |
(11280) |
| 專利代理機構地址: |
() |
| 專利類型: |
發明 |
| 公開號: |
101295295 |
| 公告日: |
|
| 授權日: |
|
| 公告號: |
000000000 |
| 優先權: |
|
| 審批歷史: |
|
| 附圖數: |
1 |
| 頁數: |
12 |
| 權利要求項數: |
1 |
| |
| |
|