1. <dd id="t8ofn"><noscript id="t8ofn"><dl id="t8ofn"></dl></noscript></dd>
          <dd id="t8ofn"><track id="t8ofn"><dl id="t8ofn"></dl></track></dd>
        1. <button id="t8ofn"><acronym id="t8ofn"><cite id="t8ofn"></cite></acronym></button>

                <rp id="t8ofn"></rp>

                  <ol id="t8ofn"><object id="t8ofn"><blockquote id="t8ofn"></blockquote></object></ol><rp id="t8ofn"></rp>
                    <tbody id="t8ofn"><pre id="t8ofn"></pre></tbody>
                  1. <th id="t8ofn"><pre id="t8ofn"></pre></th>
                    <th id="t8ofn"></th>
                    
                    

                        <span id="t8ofn"></span>
                        <span id="t8ofn"></span>
                      1. <nav id="t8ofn"><big id="t8ofn"></big></nav>
                        <em id="t8ofn"></em>

                        1. <button id="t8ofn"><object id="t8ofn"></object></button>
                          1. <tbody id="t8ofn"><p id="t8ofn"></p></tbody>

                            <li id="t8ofn"><tr id="t8ofn"></tr></li>
                            <rp id="t8ofn"></rp>

                          2. <legend id="t8ofn"><noscript id="t8ofn"><dl id="t8ofn"></dl></noscript></legend>

                            <tbody id="t8ofn"><p id="t8ofn"></p></tbody>

                            <s id="t8ofn"><object id="t8ofn"><listing id="t8ofn"></listing></object></s>

                            seo行業資訊

                            中文分詞技術的分類和進行分詞的原因

                            發布日期:2013-09-26 瀏覽次數:3536
                            為什么要進行中文分詞:詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。
                              Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。
                              中文分詞技術的分類:
                              我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。
                              第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。

                            相關文章

                            ·SEO優化細節之圖片技巧
                            ·SEO輪鏈的作用
                            ·專業SEO應具備哪些條件?
                            ·“堅持”是做好soe優化的關鍵
                            ·百度站長外鏈工具的作用
                            ·談優化網站文章寫作策略
                            ·為什么有些網站會被搜索引擎給k掉?
                            ·如何擺脫網站后期排名回落現象
                            ·分析百度算法調整 展望SEO未來
                            ·和大家分享百度收錄和排名的原則
                            国产亚洲h网综合h网_国产成人精品_高挑人妻无奈张开腿_俄罗斯真人性做爰